下载此文档

基于xml的个性化搜索算法分析.docx


文档分类:IT计算机 | 页数:约52页 举报非法文档有奖
1/52
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/52 下载此文档
文档列表 文档介绍
第一章 绪论
§1-1 研究背景及意义
研究背景
随着计算机网络技术的迅猛发展与 的广泛应用,网络已经成为人们获得所需信息的主要来源和重要手段之一,并且成为逐渐成为最重要的方式。
目前网络上的信息资源主要有以下几个优点: 1)内容广泛丰富,基本涉及了人类生活的各个领域,从科学研究、生活娱乐到工作,体育等几
乎无所不包。例如 Yahoo 网站,其主页就是按字母排列的各个大主题,大主题又被分为更小的主题。又如虚拟图书馆,其分布式主题目录几乎包含了所有的学科范围,每一个使用的用户都可能从中查询到有价值的资料。此外网页上除了文字内容还有图片等多媒体文件;
2)信息更新及时,绝大多数网站上的信息都会定期更新;
3)查询方式简单,不需要专门的检索技巧。除了权限以外,一般用户可以通用的搜索引擎的帮助,获得网络上免费的信息资源;
但是网络上的信息资源也有一定的缺点,例如信息重复率高,结构化程度低等。所以网络上“浩
渺如烟”的信息在给人们带来方便的同时也带来了许多的问题。人们通常情况下都需要耗费大量宝贵的时间与精力在网络上去寻找自已所需要的信息,由于问题存在的普遍性,近年来 的个性化搜索服务引起人们越来越多的关注。虽然现在有些搜索引擎可以对搜索结果进行相关排序计算并且按得分的高低通过某些算法将处理后的搜索结果呈现给用户,但是由于没有考虑到用户个人的兴趣爱好等这些个性化信息,导致了不同的用户对于同样或者相似的搜索关键词搜索出的查询结果及其排列顺序是完全相同的,这样做显然并不能完全满足用户的需求[1],因此如何从网络中快速准确的搜索并呈现给用户其所需要的信息成为被关注的一个重要问题。
与此同时,互联网上的信息格式多种多样,其中大部分网页是 HTML(HyperText Mark-up Language) 格式的,但是 XML 格式的文档的不断增多是一个主要的发展趋势,为什么会出现这样的现象?这主要是因为在 XML(eXtensible Markup Language) 发布之前, 的发展受到了很大的束缚,常用的 HTML 格式存在无法描述数据内容,对数据表现的描述能力不够等缺点,而这些内容恰好是进行信息搜索、电子商务等所必须要解决的问题,这样 HTML 格式完全不能适应网络对新标记需求的发展需要。而这种情况下出现的 XML,使得上述的问题都能够得到很好的解决。伴随着越来越多的 Web 数据开始采用 XML 语言进行描述、存储、交换和表现,基于 XML 的信息检索能力变得日益重要[2],同时对 XML 格式的数据使用也越来越依赖于 搜索引擎强大的检索能力。
网络的个性化服务需求增大使得个性化服务技术得到了高速全面的发展。全球范围内大约有近亿个工作站,用户有着充分自由选择的空间,同时用户又具有着不同的背景、不同的兴趣和不同的使用
目的等,这导致了 Web 的用户群体表现出了多样性的特点。层次的不同、爱好的不同,甚至是使用
浏览器的不同都可能使得用户需要不一样的信息,更何况用户又同时有着不同兴趣和不同的偏好行为。因此实现个性化的信息查询是未来的搜索工具所必须具有的功能。而现在的通用搜索引擎针对这个问题存在着各种缺陷,出现这种困难的的原因有很多,例如搜索引擎缺乏知识处理能力和理解能力, HTML 信息表示非结构化,信息抽取算法能力不足,对于进行搜索的信息仅仅采用机械性的关键词匹配来实现,信息的特征中没有包含语义信息,没有在结构和内容上进行融合,用户模型功能单一,同时缺少推送机制等。未来的信息检索系统要利用先进计算机技术改进用户模型并对各种算法进行优化,完善信息的推送机制,以实现个性化服务,这是解决问题的根本和关键,研究的关键集中在如何更有效满足用户个性化需求等方面[3]。
研究意义网络的出现,尤其是搜索引擎的使用改变了人们信息检索的传统方式,搜索引擎逐渐成为人们得
到所需信息的主要方式。近年来基于 Web 的个性化、智能化信息搜索研究正逐步展开,相信在不久
的将来它能够改变并解决目前的搜索引擎存在的各种问题和矛盾,出现从信息到知识的搜索方式,有效提高信息搜索的效率。论文的研究意义也在于此。
1)论文针对搜索引擎对所有用户相同或者相似的搜索条件呈现相同结果,未考虑用户个性化兴
趣信息的问题,进行了个性化搜索引擎的研究;
2)论文针对个性化搜索关键技术中用户兴趣模型的更新与搜索结果相关排序算法进行了研究, 为提高搜索引擎的效率提供了一种新的解决思路;
3)论文在对搜索算法性能的考虑中,在查全率保持现有水平的情况下,优先保证查准率的提高, 为搜索引擎的性能评价提出了一种新的想法;
4)论文在搜索结果排序时使用相关分析技术,对于网络信息的表示以及对信息搜索的优化和效率提高有着一定的意义。
§1-2 搜索引擎的发展阶段与趋

基于xml的个性化搜索算法分析 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数52
  • 收藏数0 收藏
  • 顶次数0
  • 上传人wz_198613
  • 文件大小297 KB
  • 时间2018-05-12