| 计算机世界网消息 互联网是企业情报的一个宝藏,但需要用户能够明白这些数据的意义。
IBM公司的WebFountain可能成为互联网搜索领域的新一代轰轰烈烈的技术。与ClearForest、F ast Search 、ransfer和Mindfabric等竞争对手一样,IBM公司希望培育能够发现数据的意义而不仅仅是几个链接的数据挖掘服务的需求。
这是一件几乎不可能完成的任务。Google等传统的搜索引擎只能够找到与搜索单词相关的网页链接,而WebFountain以及其它相类似的计划则要完成复杂程度呈几何级数增长的任务。IBM公司阿尔马登研究院负责该项目的首席设计师丹表示,搜索试图发现与一个主题最相关的网页,而WebFountain则希望完成更进一步的工作。
发现互联网上数据的意义对于互联网搜索是近乎幻想的理想。分析人士预测,随着越来越的企业通过互联网开展业务,它们会试图从其数据中获得最大价值,许多软件厂商正在探索向它们提供这一价值的途径。IBM公司希望通过已经进行了4年的WebFountain计划赶上这一潮流,它是一个基于Web上结构化和非结构化数据、计算和存储能力的研究平台。
无论WebFountain能够结出硕果,它试图解决的问题对于IBM公司都有着不同寻常的吸引力。IBM公司一直在推动被称为效用计算的计算商业模式,客户能够向中心服务提供商租借计算能力,而无需自己购买相关的软件、硬件。WebFountain与IBM公司的效用计算模式非常吻合,IBM公司希望利用这一计划建立一个能够被对使用数据挖掘能力有兴趣的其它软件开发商使用的后端系统。
IBM公司与Semagix软件公司于本周二发布了面向金融机构的反洗钱系统,这也是这种技术的首次亮相。二家公司为此已经悄悄合作了4个月。WebFountain-Semagix 系统使以前需要企业官员完成的任务实现了自动化。WebFountain的副总裁卡尔森表示,这是一个典型的IT方案,它不是为了取代人,而是从Web上组织非结构化信息,使用户能够发现什么是重要的信息,而无需人工通过复杂的关联来搞明白哪些人之间相互有关系。
WebFountain的根在斯坦福大学和另一项突破性的搜索技术━━Google。它基于由IBM和斯坦福大学的研究人员联合发表的一篇讨论被称作中心和权威理念的论文。这一理论认为,在Web上搜索信息的最佳方式是查找最大和最流行的网站和网页。
IBM公司在一项名为Clever的早期Web数据挖掘计划中使用了相同的理念。简而言之,IBM公司发现,它能够从被中心和权威理念推到信息堆底部的网页中提取出更有趣的数据,WebFountain计划也因此而诞生了。
分析人士表示,他们预计企业对在Web上的非结构数据中挖掘信息的服务的需求将不断增长。加州大学伯克利分校的研究人员进行的研究表明,静态Web网页的数据量为167TB,相反动态Web网页的数据量则在66800-91850TB之间。IDC公司预测,提供非结构化信息管理服务在今年将是一个64.6亿美元的大市场,2006年这一市场的规模将达到97.2亿美元。
只要访问一下WebFountain的服务器农场,对完成这一任务所需要的计算能力的怀疑就烟消云散了。在IBM公司的阿尔马登研究中心,一个主群集系统包含有32个机柜组成,每个机柜运行着8台配置2个2.4GHz英特尔公司的至强处理器的刀片式服务器,它每秒钟能够在硬盘上写入10GB的数据,能够存储160TB的压缩数据。还有2个由64台双处理器计算机组成的群集系统对主系统提供支持,其中一个以每周2.5亿个网页的速度搜索互联网,另一个则负责查询。
这三个群集系统共使用了768个处理器,而且这一数字还在不断增长中。今年,群集系统和存储系统将移植到刀片式服务器上,其中896个处理器用于数据挖掘,256个处理器用于存储挖掘到的信息。该系统将能够在24小时内处理80亿个网页。
与搜索引擎一样,WebFountain可以被用作“大海捞针”,但与搜索引擎不同的是,它可以用于识别某种趋势或回笼象“我公司的声誉怎么样?”等没有标准答案的问题。
这远远超出了由Google、Inktomi、Fast Search和Transfer等公司开发的Web搜索引擎的能力。传统的搜索引擎能够发现最符合查询词汇的文档,而WebFountain则能够帮助用户发现浩瀚的数据的意义。它基于文本挖掘或自然语言处理,在对Web网页进行索引的同时,它能够标记网页上的单词,分析它的内在结构以及相互间的关系。
WebFountain能够将其智能与可视化工具结合,显示业界趋势以及识别特写公司的竞争对手,该平台能够分析5年的经济信息,发现经济是否在增长,它还可以用于查看工作列表,发现用工方面的新趋势。IDC公司的分析师费尔德曼表示,Web已经成为一个巨大的公告板,如果长期观察它并找出事物的变化规律,就能够回答诸如“未来会向何处发展?”这样的问题。
一些批评人士指出,要真正兑现自己的承诺,WebFountain以及其它计划还有很长的路要走。Moreover公司的总裁吉姆表示,为了分析企业的声誉或网络营销活动的效果,企业无需处理30亿个网页,因为许多网页与它们的工作没有关系。
IBM公司表示,在每次的试验性运行中,WebFountain都获得了不错的结果。
|