搜索引擎研究综述
郭姣
一、搜索引擎研究综述
搜索引擎定义
国内外搜索引擎的研究现状
搜索引擎分类
搜索引擎的工作原理
搜索引擎体系结构及组成
搜索引擎的检索功能
搜索结果排序技术
搜索引擎评价指标
搜索引擎技术的发展趋势
搜索引擎定义
搜索引擎是一种在Web上应用的软件系统,它以一定的策略在Web上搜集和发现信息,在对信息进行处理和组织后,为用户提供Web信息查询服务。广义的搜索引擎还包括安装该软件系统的服务器以及提供搜索引擎入口的网站。
搜索引擎提供了一种在海量信息中全面、准确、方便、快速地获取自己所需信息的方法。
国内外搜索引擎的研究现状
一、国外搜索引擎研究现状
国外搜索引擎研究从1994年第一个Web搜索引擎出现开始,经历了三个阶段:
(1)起源
,蒙特利尔大学学生AlanEmtage发明的Archie。
2. Matthew Gray开发了世界上第一个用于监测互联网发展规模的“机器人”程序的World Wide Web Wanderer。
Koster创建了ALIWEB,它是Archie的HTTP版本。
在Matthew Gray的Wanderer基础上,一些编程者将传统的“蜘蛛”程序工作原理作了些改进。其设想是,既然所有网页都可能有连向其他网站的链接,那么从跟踪一个网站的链接开始,就有可能检索整个互联网。
,一些基于此原理的搜索引擎开始纷纷涌现,其中以JumpStation、World Wide Web Worm和Repository-Based Software Engineering(RBSE)Spider最负盛名(其中RBSE是第一个在搜索结果排列中引入关键字串匹配程度概念的引擎)。
。当时Michael Mauldin将John Leavitt的蜘蛛程序接入到其索引程序中,创建了现在熟知的Lycos。
,Stanford大学的两名博士生, David Filo和杨致远(Gerry Yang)共同创办了超级目录索引Yahoo,并使搜索引擎的概念深人心。
(2)第一代
第一代搜索引擎面对的是当时较小规模的Web,以为用户提供全面的查询结果为目标,其代表是AltaVista,Lycos,Infoseek、Excite等。
由于当时市场的现状和经营的需求,第一代搜索引擎纷纷把重心放到了门户以及面向宽带的运作上,后期几乎都转成了门户网站,门户成为第一代搜索引擎的终点。
(3)第二代
用户深陷于第一代引擎提供的众多返回结果中无所适从,因而第二代搜索引擎注重于把最有价值的页面优先返回给用户,其代表是Google,Goto等。
,而是将自己定位为后台技术的提供商。
虽然以Google为代表的第二代搜索引擎正如日中天,但应该看到,它同时面临许多困难。主要有二:
,由此它试图索引全部Web页面,这是不可能的;
,返回结果完全一样,没有考虑用户需求的差异性(针对不同用户,可能需要登录,挖掘用户的兴趣改变搜索结果的排序)
我们认为,搜索引擎将向着专业化,个性化的方向发展,相关技术将广泛应用到个人信息助理,企业团体的专门信息维护等方面。
二、国内搜索引擎研究现状
国内开始研究搜索引擎是在上世纪末本世纪初,虽然国内起步较晚,但是己经涌现了出一些很优秀的产品。
目前最高的搜索引擎是百度,它的功能齐全,在中文搜索支持方面甚至有些地方超过了Google,更新速度也较快些。
随着搜索市场价值的不断增加,越来越多的公司开发出了自己的搜索引擎,中国搜索、搜狐的搜狗、阿里巴巴的商机搜索等也陆续面世,自然,搜索引擎技术也成为技术人员关注的热点。
国内搜索引擎主要在中文分词、倒排文件、分词词典等技术方面有很大进展,对提高中文搜索引擎的效率有很大帮助。
搜索引擎分类
单语种搜索引擎(Dogpile,英)
多语种搜索引擎(Ixquick,支持18种语言,包括中文;Mamma,支持英文、法文)
目录型搜索引擎(yahoo)
全文检索型搜索引擎(google、Altavista、Inktomi)
3以搜索引擎功能为划分标准
独立搜索引擎和多元搜索引擎
(1)目录索引类搜索引擎(SearchIndex/Directory)
目录索引类搜索引擎就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可按分类目录逐层查找,某一目录中网站的排名通常是由标题字母的先后顺序决定(也有例外)。如:y
搜索引擎研究综述 来自淘豆网m.daumloan.com转载请标明出处.