下载此文档

基于布尔模型网页查重算法研究.pdf


文档分类:论文 | 页数:约58页 举报非法文档有奖
1/58
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/58 下载此文档
文档列表 文档介绍
摘要随着信息技术的发展,互联网中的数据呈现出数据爆炸的趋势,其中所包含的各种信息越来越多,互联网已经成为了人们获取信息的一个主要渠道。然而,用户有的时候只是知道自己所要寻找信息的关键词,而不知道具体的网页链接���R虼耍�7�出一种工具来帮助用户寻找自己需要的信息成为了自然语言处理的一个研究方向。于是,受到信息检索的启发,有研究机构发明了搜索引擎,以方便用户从网络中搜索到自己所搜索引擎的出现大大的方便了用户从互联网上查找信息的过程,节约了用户的处理时间,受到了互联网使用者的欢迎。互联网上也出现了很多著名的搜索引擎,如针对多种语言的���搜索引擎和针对汉语的���阉饕�娴取H欢��艿缴桃道�娴那�梗�有些网站为了提高自己的点击率,经常大量转载别的网站的文章:除此之外,各大网站也会争相报道发生的热门事件和大众感兴趣的焦点话题,这样不仅增加了搜索引擎处理的负担,也使得搜索引擎经常返回很多内容相同但是只是链接不同的结果,降低了搜索引擎返回结果的有效性,也增加了用户查找到自己需要的信息的时间。去除重复的网页是提高搜索引擎检索效率和结果有效性的一个途径。本文基于对文章的内容的分析,提出了两种较为有效的网页查重算法:基于高频词的网页查重算法和基于高频词的网页查重算法根据特征的频率选择特征,组成特征串,来判别重复网页。而基于布尔模型的网页查重算法则是选择布尔模型来表示文本,同时将其运用到了文本的汉明距离计算之中,有效的减少了文本之间两两互相比较的次数。本文主要进行了以下几个方面的工作:�治隽酥馗赐�巢��脑�颍�⑶易芙崃苏攵愿髦植煌�闹馗矗��岢龅母髦植煌��网页查重算法。�诜治霰冉细髦止赜凇�馗础�ㄒ宓幕�∩希��軵�曲的定义设计了基于布尔模型的网页查重算法。��导恃橹ち嘶�诓级�P偷耐�巢橹厮惴ǎ�⑶医�辛瞬馐裕�っ鞲盟惴ㄈ〉昧私虾�关键字网页查重布尔模型特征串汉明距离需要的信息。基于布尔模型的网页查重算法。的结果。基于布尔模型的网页查重算法研究;摘要‘
籪�������������������癿���籑�����������—������.�������.�������������痗�����������������,������.����瓵�����篸����������������毕于布尔模型的嗣页查荤算法研究:��������甀������.��.����.������.�����������������瓵�����瓾��������.���【�����瓵��畉������瓸�����甌����甀��������盿�����:�����’.
图目录图��百度网页查重⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图��基于标点符号的特征串示例⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯图��“缅甸取消部份地区军事管制”的特征串⋯.图��“缅甸又有�图��二元组表示法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。�图��相异度计算流程图⋯⋯⋯⋯⋯⋯⋯⋯⋯图��三种算法的识别正确率比较图��三种算法的查全率比较图��三种算法的�测试值比较图��识别正确率比较图��查全率比较⋯⋯⋯⋯⋯⋯二⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。�凹剪加弘图��机器人搜索引擎结构图��元搜索引擎结构图��八个数据库在三个月内的增长趋势三个月内总的数据增长�稣蚯�∠��堋钡奶卣鞔��稣蚯�∠��堋钡奶卣鞔����图��时间曲线图⋯图��预处理流程图图���当冉��:�打Ⅸ基于布尔模型的两页击争算法研究:图目录
表目录表��三个月内的数据增长表��说明��P椭形牡涤胂蛄靠占渲�涞挠成涔叵怠�����表��计算相异度示例表��基于布尔模型的网页查重算法结果表��基于高频词的网页查重算法结果表��基于标点符号的网页查重算法结果表��处理重复语料结果表��增加预处理后的查重结果表��处理英文语料结果比较⋯⋯⋯.表��基于高频词的网页查重算法实际例子Ⅺ皋于布尔模型的网页奇章算法研究:表目录�..�⋯⋯⋯..�
导师签名:/�苑θ掌冢捍ǎ�.��声论文版权使用授权书明我声明本论文是我本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,本论文中不包含其他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。作者签名:日期:本人授权中国科学院计算技术研究所可以保留并向国家有关部门或机构送交本论文的复印件和电子文档,允许本论文被查阅和借阅,可以将本论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编本论文。�C苈畚脑诮饷芎笫视帽臼谌ㄊ椤�
自��年美国的������彩篮螅�涔婺R恢痹龀ず芸臁���闍���第一章引言��互联网的发展现状上的主机已经

基于布尔模型网页查重算法研究 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数58
  • 收藏数0 收藏
  • 顶次数0
  • 上传人313327417
  • 文件大小0 KB
  • 时间2015-06-21