基于布尔模型的网页查重算法研究;摘要
摘要
随着信息技术的发展,互联网中的数据呈现出数据爆炸的趋势,其中所包含的各种信息越来越多,互联网已经成为了人们获取信息的一个主要渠道。然而,用户有的时候只是知道自己所要寻找信息的关键词,而不知道具体的网页链接(uRL)。因此,开发出一种工具来帮助用户寻找自己需要的信息成为了自然语言处理的一个研究方向。于是, 受到信息检索的启发,有研究机构发明了搜索引擎,以方便用户从网络中搜索到自己所
需要的信息。
搜索引擎的出现大大的方便了用户从互联网上查找信息的过程,节约了用户的处理时间,受到了互联网使用者的欢迎。互联网上也出现了很多著名的搜索引擎,如针对多种语言的Google搜索引擎和针对汉语的Baidu搜索引擎等。然而,受到商业利益的驱使,
有些网站为了提高自己的点击率,经常大量转载别的网站的文章:除此之外,各大网站
也会争相报道发生的热门事件和大众感兴趣的焦点话题,这样不仅增加了搜索引擎处理的负担,也使得搜索引擎经常返回很多内容相同但是只是链接不同的结果,降低了搜索引擎返回结果的有效性,也增加了用户查找到自己需要的信息的时间。
去除重复的网页是提高搜索引擎检索效率和结果有效性的一个途径。本文基于对文章的内容的分析,提出了两种较为有效的网页查重算法:基于高频词的网页查重算法和基于布尔模型的网页查重算法。
基于高频词的网页查重算法根据特征的频率选择特征,组成特征串,来判别重复网页。而基于布尔模型的网页查重算法则是选择布尔模型来表示文本,同时将其运用到了文本的汉明距离计算之中,有效的减少了文本之间两两互相比较的次数。
本文主要进行了以下几个方面的工作: 1分析了重复网页产生的原因,并且总结了针对各种不同的重复,所提出的各种不同的
网页查重算法。 2在分析比较各种关于‘重复’定义的基础上,根据PIl曲的定义设计了基于布尔模型
的网页查重算法。
,并且进行了测试,证明该算法取得了较好
的结果。
关键字网页查重布尔模型特征串汉明距离
毕于布尔模型的嗣页查荤算法研究:Abstract
Research on Detection of Duplicated Web Pages with 13001一Model
With the development ofinformation technology,more and more information appears in the intemet. has already been a kind ofmeans for people to get the information they need.
But sometimes inteHlet users only know the keywords of the information they want to
even don't know the link of the web developing a tool to help the users to find the information they need became a research field in natural language by text retrieval technology,search engine was developed by some agency,making it convenient for intemet users to get the information they need.
1nhe appearance ofsearch engine brought great convenience to the process offinding
information舶m the it is warmly ed by intemet
search engines as Googie for multi·language and Baidu for , prompted by business interest to get a high rank,many websites often copy messages from other the search engine often returns many different linJ【s with same not
基于布尔模型的网页查重算法分析 来自淘豆网m.daumloan.com转载请标明出处.