互联网的搜索引擎们把主要精力都放在采集web页面的文本信息上,但是google却在研究如何分析和组织结构化数据方面小有所成,该公司的一位科学家上周五表示。
“在web之外存在着大量的结构化数据,但我们却并没有很好地将这些数据展示给用户。”在马萨诸塞州技术研究院举行的新英格兰数据库日会议中,AlonHalevy在一次谈话中这样说道。
Halevy还谈到了所谓的“深Web”源,比如为Cars.com或者Realtor.com这类表单驱动型网站做后台支撑的数据库资源。Google一直都在不停的向各种表单提交查询请求,然后对返回的结果进行分析,最后将有用的内容加入到索引当中。
但是该公司仍然希望web站点们能够将数据存放到结构化的表格中供google分析,Halevy说,例如在web页面上提供一个表格列举出历任美国总统。
但是这样的表格也是数量巨大的,据Halevy说,google的索引中已经收录了140亿个。他“很快就意识到其中有超过98的内容是用户不感兴趣的,”但即使经过了仔细的筛选之后,仍然有1亿5400万个表格值得被google索引。
Google的一个终极目标就是把一个搜索请求的结果组织成“各个方面”返回给用户,特别是像“越南旅游”这种比较宽泛的关键字,而不是“越南人口”这种非常具体的关键字,Halevy说,前面的搜索请求可能会产生关于签证条件、气候、旅行团等这类信息。
Kosmix已经在做这个点子了,但是google将会做的更多,Halevy说,“Kosmix的确能够展示出‘方面’,但是它依赖于特定的信息源。”
在Kosmix上搜素“越南旅游”,它会给你提供一个结果集,包括纽约时报关于酒店的评论,来自雅虎和Flickr的图片,来自Shopping.com的购物信息以及来自google的其他信息。
“而我们则不同,各方面信息都来自于web的搜索结果,但会以不同的方式组织起来。”Halevy说。
网站分类
站点统计
- 文章总数:11184
- 评论总数:151
- 引用总数:8
- 浏览总数:47422
- 留言总数:379
- 当前主题:Default主题
- 当前样式:MsnSpace
网站语录
最新评论及回复
文章归档
- 2011 September (3)
- 2010 May (267)
- 2010 March (168)
- 2010 February (29)
- 2010 January (540)
- 2009 December (276)
- 2009 October (279)
- 2009 September (224)
- 2009 August (356)
- 2009 July (207)
- 2009 June (305)
- 2009 May (658)
- 2009 April (692)
- 2009 March (1050)
- 2009 February (1392)
- 2009 January (759)
- 2008 December (1124)
- 2008 November (1945)
- 2008 August (4)
- 2008 July (5)
- 2008 June (23)
- 2008 May (21)
- 2008 February (29)
- 2008 January (108)
- 2007 December (35)
- 2007 November (5)
- 2007 October (22)
- 2007 September (134)
- 2007 August (349)
- 2007 July (156)
- 2007 June (18)
- 2007 January (1)
Google开始研究Web中的结构化数据
作者:naruYrY0Xa 日期:2009年2月2日
Tags: kosmix 数据 结构化 表格 越南 索引 Google halevy说 来自 结果
- 相关文章:
华尔街日报:戴尔正为智能手机挑选操作系统 (2009-2-2 22:58:34)
StopBadware反驳Google官方声明:错不在己 (2009-2-1 23:15:26)
Google官方对昨日全球搜索报错事件的解释 (2009-2-1 23:14:49)
McAfee:计算机犯罪造成商业风险超1万亿美元 (2009-1-30 20:51:57)
[多图]Google成马路杀手景物拍摄车撞死野鹿 (2009-1-30 20:50:17)
信息周刊:系紧云计算的安全带 (2009-1-27 21:9:22)
云计算99.999可用性毫无意义灾难恢复是关键 (2009-1-27 21:8:50)
当代最有趣的程序员天才-来自CodesAtWork (2009-1-26 22:7:11)
传Google年内将推GDrive或结束传统PC时代 (2009-1-26 22:6:15)
2009年最适合工作的公司:Google排名第四 (2009-1-25 17:40:27)
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。