2004,Google成为全球网络界最为炙手可热的IPO,估价高达250亿美元。
2004,美国著名网络评估公司尼尔森公司称,GOOGLE仍是目前美国最受欢迎的搜索引擎网站,占有35%的市场份额。较去年77%的份额少了一半多。
2004,Google创始人佩奇表示,Google的抱负已经超越了其最初的想法,而“是要组织全世界的信息。”言下之意,要做搜索引擎的微软。
然而,就在Google全力以赴要做微软第二时,却遇到了前所末有的挑战:亲密战友雅虎反目成仇,决心重新夺回市场老大的位置,让人们忘记有Google这一搜索公司。伴之而来的是,微软也成为它潜在的强大对手。
在这场殊死博斗中,Google能否凭借其一流的搜索技术将对手打倒?能否赢得这场比赛?Google技术主持CraigSilverstein表示:“从一个搜索引擎很容易转移到另一个更好的搜索引擎。我们希望下一个技术突破来自Google――但谁知道呢?”
下一个“走马灯”?
真的,谁知道呢?可是,搜索引擎技术是搜索引擎的厂商最核心的竞争力。也就是说,技术的先进与否将决定一家搜索引擎公司的命运。在美国,搜索引擎公司的命运往往如同“走马灯”――来得快,换得也快。2003年,Google是老大;1999年,AltaVista是老大;1997年,Inktomi是老大;1995年,Yahoo是老大。Google会不会成为下一个“走马灯”?
显然,如果Google不能继续保持其技术的领先地位,很有可能会成为下一个“走马灯”。可对于未来搜索技术的创新,Google的信心并不足。
相反,雅虎对其搜索技术创新很有信心,相信自己搜索技术最终会赢得这场比赛,决不会让20亿美元的投资打了水漂。搜索专家认为,雅虎现在使用的新搜索引擎――Slurp机器人非常可靠,基本上能与Google相媲美。而更为重要的是,雅虎现在非常在乎搜索工作。此外,雅虎还有自己的两大优势――大量的原始内容和1.33亿用户信息。
而软件霸主微软正在将搜索引擎作为它下一个商业目标。其研究售货员正在将搜索技术AskMSR捆绑到其下一代操作系统中,据说该软件不用担心选没选对关键词,就能搜寻网页找到你所提问题的最终答案。据报道,该软件不是依靠先进的人工智能技术而是两个特别简单的小窍门。首选,它使用从大量句子样本中学来的语言规则对所搜索的短语进行重写,似乎有一个可能的答案在此,类似于完形填空。比如:“___刺杀了林肯”或“林肯被___刺杀的。”然后,这组完形填空就被网页搜索挨个当成标准的关键词进行查询。如果搜索到了一个准确答案,搜索引擎就会把答案提供给用户。许多情况下,该程序可能找不到准确答案,甚至会将句子排列得颠三倒四的。第二个小窍门,如果这些字词频频出现在同一个句子中,AskMSR就会推断,它们之间有着重要的关系,从而会将这些字词做为答案,即使不是百分之百的肯定。但微软研究售货员解释说,随着重复网页的增多,AskMSR就会作用更大。微软试图还想将搜索工作与其它工作同步进行,不必单独打开搜索窗口,也不用停下手头上的工作专心进行搜索。
除此之外,还有别的搜索技术也比Google技高一筹。比如,Teoma的搜索结果以公认的权威性来排名,而一家新成立的澳大利亚搜索引擎公司Mooter,依据用户的行为习惯,提供更加直观准确的搜索结果。即使我国的百度与中国搜索其技术水平也能与Google平分秋色,且更加符合中国人的习惯。事实上,百度的使用率已经超过了Google,成为中国网民首选的搜索引擎,市场份额曾高达80%。
其实,面对这样的一个技术创新时代,任何单凭搜索技术维持生存的公司都难以逃避“走马灯”的命运。即使是Google这样的老大也不会例外。
Google难成搜索霸业
即使Google侥幸没有成为下一个“走马灯”,即使Google侥幸能取得下一个搜索技术创新,Google也难以成就其搜索霸业。相反,做Google第二可能机会更大,如果你拥有特棒的搜索专利技术,或许也能一举成名。
中国搜索总裁陈沛表示:“我觉得专业搜索引擎公司和门户网站搜索是长期并存的方式,我不认为搜索会一家独大,因为搜索引擎成为一项非常普及的应用,他们应该是在用最简单最便捷的方式去获得搜索结构。”
其实,由于Web技术的不断创新,搜索引擎就像“计划赶不上变化”那样,只能是紧跟Web技术的变化而变化。而且,搜索技术无论如何发展,即使未来的智能搜索出现,也难以达到尽善尽美的境地。即使Google这样的搜索引擎老大,也有许多不利的“罪状”。
首先,就Google最为得意的搜索算法而言,搜索引擎专家认为,UsedRank比Google的专利技术PageRank更为准确。因为UsedRank指的是根据用户点击搜索结果而再次做出的统计。有的页面可能通过开始的计算被排在结果的第八页,但是通过查看每条链接的属性,引擎可以将用户点击多而且浏览成功的页面提到前面来。Alltheweb、Yahoo和百度等搜索引擎都老老实实地统计了每一次点击,而Google则非常直接,不做任何再次统计。
其次,尽管Google以其搜索技术而著称,但其搜索引擎与传统搜索引擎一样,也是以关键字的单一定义为检索方法。因此,这往往在精确度上有很大误差,带来很多歧义结果,搜索出大量的重复或仅仅沾一点边的结果,用户不得不花很多时间用于再检索。这一点用过搜索引擎的人都深有体会。
更有甚者,由于PageRank通过统计每个网页被其它网页链接指向的情况来排名,即次数越多则级别越高,排名也就越靠前。因此,就有人为了使自己的网页能够在搜索中获得更高的排名,特意或无意地尽可能增加链接,甚至将一些莫须有的链接或“牛头不对马嘴”的链接也给加上。这样,Google搜索结果往往是一些错误的甚至是不当的信息,而真正需要的权威信息反倒被隐藏了。最近出现的所谓Google炸弹就将“weaponsofmassdestruction”(大规模杀伤武器)与布什扯到了一块。据分析,这主要是某些人利用Google的搜索引擎,将某些关键字与特定的网页链接,有时这些关键字的搜索结果出现很戏剧化的场面。
再者,还有搜索引擎搜索不到的盲区。当搜索引擎碰到汉语的“的、是、了”和英文单词“the、and”这样的高频词汇,经常会突然熄火,业界将这些单词称为“停止词(stopword)”。当然,他也会出结果,只是结果“答非所问”,令人啼笑皆非。比如尝试使用Google搜索哈姆雷特的名言“Tobeor not to be”,会发现Google竟然答非所问,罗列在页面上的是GNUs Not Unix官方网站、HotorNot交友网站……就是不见莎士比亚的影子。
最后,虽然搜索引擎的网页数量与日剧增,但网页信息量的增长更快,且速度更加频繁。由于网络空间里的网页数量是一个动态增长的实体,而搜索引擎只是一个利用某种算法来抓取网页的工具。因此,各个搜索引擎抓到的结果,仅是一个集合里的交集,有许多重复结果的同时也有许多差异。而且致命的是,据统计,它们的全部数量也只占这个集合的40%。这就是说,有更多的网页是信息世界的孤岛,你无法搜到它们。
当然,这些问题不只是Google的问题,目前其它搜索引擎也普遍存在这样或那样的问题。总而言之,在技术层面和信息量方面,任何搜索引擎都难以十全十美,只能是各有所长罢了。因此,在搜索引擎广泛应用的今天,任何搜索引擎包括Google都不可能一家独大,只能是像图书馆、博物馆一样在全球各地遍地开花。
|