下载此文档

2022年搜索引擎的第三定律搜索研究教程.docx


文档分类:IT计算机 | 页数:约5页 举报非法文档有奖
1/5
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/5 下载此文档
文档列表 文档介绍
2022年搜索引擎的第三定律搜索研究教程
搜寻引擎走到今日,已经是一个结束过去,开拓将来的时候了。为了说清晰我所讲的第三定律,我们先来回顾一下第一和其次定律。
第肯定律 相关性定律=版权全部 软件 下载 学院 版权全部=
听起2022年搜索引擎的第三定律搜索研究教程
搜寻引擎走到今日,已经是一个结束过去,开拓将来的时候了。为了说清晰我所讲的第三定律,我们先来回顾一下第一和其次定律。
第肯定律 相关性定律=版权全部 软件 下载 学院 版权全部=
听起来象是一篇学术论文,的确,就连第一,其次定律的提法以前也没有过,但是第一,其次定律的内容确早已在业界和学术界得到了公认。其实这第肯定律是早在互联网出现之前就被学术界广泛探讨过的,那就是所谓的相关性定律。这个领域那时叫情报检索,或信息检索,也有叫全文检索的。那时的相关性都是基于词频统计的,也就是说,当用户输入检索词时,搜寻引擎去找那些检索词在文章(网页) 中出现频率较高的,位置较重要的,再加上一些对检索词本身常用程度的加权,最终排出一个结果来(检索结果页面) 。早期的搜寻引擎结果排序都是基于本文的第肯定律的,如Infoseek, Excite, Lycos等,它们基本上是沿用了网络时代之前学术界的探讨成果,工业界的主要精力放在处理大访问量和大数据量上,对相关性排序没有突破。词频统计其实根本没有利用任何跟网络有关的特性,是前网络时代的技术。然而,网络时代的主要文献是以网页的形式存在的,而几乎每个人都可以为所欲为地在网上发表各种内容,词频相同的两个网页,质量相差可以很远,可是根据搜寻引擎的第肯定律,对这两个网页的排序应当是一样的。为了能够派在某些检索结果的前几位,很多网页内容的制作者费尽心机,在其页面上堆砌关键词,搜寻引擎对此防不胜防,苦不堪言。这种状况到了1996年起先有了变更。
其次定律 人气质量定律
1996年4月,我到赌城拉斯维加斯开一个有关信息检索方面的学术会议,会议的内容就象拉斯维加斯的天气一样,按例比较枯燥乏味。但远离公司的我,却难得有一个静下心来仔细思索问题的机会。就在听一个毫不相干的论文演讲的时候,我突然把科学引文索引的机制跟Web上的超级链接联系起来了 - 感谢北大,她在我上大三的时候就教授了我科学引文索引的机制,美国唯恐没有一所高校会在你本科的时候教这玩艺儿。科学引文索引的机制,说白了就是谁的论文被引用次数多,谁就被认为是权威,论文就是好论文。这个思路移植到网上就是谁的网页被链接次数多,那个网页就被认为是质量高,人气旺。在加上相应的链接文字分析,就可以用在搜寻结果的排序上了。这就引出了搜寻引擎的其次定律:人气质量定律。依据这肯定律,搜寻结果的相关性排序,并不完全依靠于词频统计,而是更多地依靠于超链分析。我意识到这是一个突破性的东西,回去以后就很快总结了思路,于96年6月申请了这一方面的美国专利。1999年7月6号,美国专利和商标局批准了专利号为5,920,859的,以我为唯一独创人的专利。大约在96年底,斯坦福高校计算机系的两位探讨生也想到了同样的解决方法,他们后来创立了一个叫Google的搜寻引擎,Google的网站上至今仍旧说他们的这项技术是Patent-pending (专利申请中) ,不知道美国专利局是不是还会再批这样的专利。Anyway,

2022年搜索引擎的第三定律搜索研究教程 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数5
  • 收藏数0 收藏
  • 顶次数0
  • 上传人mama
  • 文件大小13 KB
  • 时间2022-06-17
最近更新