1第第四四章章基于搜索引擎的网络信息资源检索基于搜索引擎的网络信息资源检索返回目录返回目录基于搜索引擎的网络信息资源检索基于搜索引擎的网络信息资源检索基于搜索引擎的网络信息资源检索 2目目录录搜索引擎概述搜索引擎概述搜索引擎类型搜索引擎类型索引型搜索引擎索引型搜索引擎返回目录返回目录基于搜索引擎的网络信息资源检索基于搜索引擎的网络信息资源检索基于搜索引擎的网络信息资源检索 3搜索引擎概述搜索引擎概述?近日, Search Engine Watch 提供了一份最新报告,在全球搜索市场排名中,搜索巨头谷歌的份额列第一,百度第二,雅虎列第三,Score 在2012 年11月和 12月份期间的统计数据。?报告显示,在 2012 年11月和 12月份期间,全球用户通过谷歌进行的搜索查询达到了 1147 亿次,市场份额为 % ;使用百度搜索的查询达到了 145 亿次,份额为 % ;使用雅虎搜索的查询达到了 86亿次,份额为 % 。?除排在前三的搜索外,排在第四的是来自俄罗斯的 Yandex 搜索,其搜索量为 48亿次,份额为 % 。?微软的必应搜索被挤到第五位,其搜索量为 44亿次,份额为 % 。返回目录返回目录基于搜索引擎的网络信息资源检索基于搜索引擎的网络信息资源检索基于搜索引擎的网络信息资源检索 4国外搜索引擎发展史国外搜索引擎发展史返回目录返回目录基于搜索引擎的网络信息资源检索基于搜索引擎的网络信息资源检索基于搜索引擎的网络信息资源检索 5早期的形式早期的形式?以前的 www 用户在互联网上查找信息时,通常是从某一 www 服务器的某个 URL 出发,沿着一个个超级链接( Hyperlink )去访问其他网页。?但随着 www 站点的日益增多,穷举式的查询使浏览者如同置身于一个无穷无尽的迷宫之中?有的服务站点为了方便用户浏览,将手工搜集到的信息编制成 html 文件,按照某种顺序组织提供给用户查询,或将搜集到的网页地址记录下来,然后按照一定的顺序(如主题、地域、时间等)排列以供用户使用。返回目录返回目录基于搜索引擎的网络信息资源检索基于搜索引擎的网络信息资源检索基于搜索引擎的网络信息资源检索 6 1 Archie 1 Archie ?1990 年以前,没有任何人能搜索互联网?所有搜索引擎的祖先,是 1990 年由 Montreal 的 McGill University 学生 Alan Emtage 、 Peter Deutsch 、 Bill Wheelan 发明的 Archie 。它可以用文件名查找文件, Archie 是第一个自动索引互联网上匿名 FTP 网站文件的程序?但它还不是真正的搜索引擎。 Archie 是一个可搜索的 FTP 文件名列表,用户必须输入精确的文件名搜索,然后 Archie 会告诉用户哪一个 FTP 地址可以下载该文件返回目录返回目录基于搜索引擎的网络信息资源检索基于搜索引擎的网络信息资源检索基于搜索引擎的网络信息资源检索 7 ? Computer Robot 是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序?由于专门用于检索信息的 Robot 程序象蜘蛛(spider) 一样在网络间爬来爬去,因此,搜索引擎的 Robot 程序被称为 spider 程序?世界上第一个 Spider 程序,是 MIT 的 World wide Web Wanderer ,用于追踪互联网发展规模。刚开始它只用来统计互联网上的服务器数量,后来则发展为也能够捕获网址( URL ) 2 Robot 2 Robot 返回目录返回目录基于搜索引擎的网络信息资源检索基于搜索引擎的网络信息资源检索基于搜索引擎的网络信息资源检索 8 3 3 基于网页链接的搜索引擎基于网页链接的搜索引擎?编程者将传统的 Spider 程序工作原理作了些改进。其设想是,既然所有网页都可能有连向其他网站的链接,那么从一个网站开始,跟踪所有网页上的所有链接,就有可能检索整个互联网。到 1993 年底,一些基于此原理的搜索引擎开始纷纷涌现,其中最负盛名的三个是: ? Scotland 的 JumpStation ? Colorado 大学 Oliver McBryan 的 The World Wide Web Worm ? NASA (美国国家航空航天局( National Aeronautics and Space Administration )简称 NASA )的 Repository-Based Software Engineering spider 返回目录返回目录基于搜索引擎的网络信息资源检索基于搜索引擎的网络信息资源检索基于搜索引擎的网络信息资源检索 9 搜索引擎的概念及其功能搜索引擎的
第四章 搜索引擎 来自淘豆网m.daumloan.com转载请标明出处.