了许多优秀的检测方法,如、、郈、脏取5摘要并实现了一个娱乐新闻文本相似度检测系统—。在分词方面:着重提取人名、作品名、时间、地点等新闻要素。在关键词选取方面:通过建立人名一文本相似检测简单地说就是按一定的规则度量两篇文本的相似程度。该技术在机器翻译、自动问答系统、信息检索、文本聚类、网页去重、知识产权保护等领域都有着重要的应用,因此得到了国内外众多学者的重视和研究,出现现有的技术在娱乐新闻文本相似度检测上表现不理想。近十几年来,娱乐新闻蓬勃发展,成为了人们文化生活的重要组成部分。然而相似、甚至相同的娱乐新闻浪费了人们大量的搜索和阅读时间。因此实现高效、高准确率的娱乐新闻文本相似度检测方法具有现实意义和应用价值。本文针对娱乐新闻文本新词过多、风格灵活、大量使用昵称等特点,设计呢称对照表,消除了昵称使用带来的影响;选取非新闻要素词及新闻要素词作为文本的关键词。在计算模型方面,首先对高频词做降频处理,消除这些词的影响,再求得公共新闻要素关键词的词频和与所有新闻要素关键词的词频和的比值,用这两个比值的加权平均和作为两篇文档的相似度。简单,但充分考虑了检测对象的特点。实验验证了本文方法的合理性,表明系统在计算娱乐新闻文本相似度方面既高效又具有高准确率,效果优于和关键字:文本相似检测;分词;娱乐新闻
蛐咖幽鰈嘶“,姗卜ⅱ鬳,膍、菴、脏癲砌暑【:血够撕邺県閏琄曲舶緋,Ⅱ,廿仃阻琣眵齞瞞、觚瑂够胐圄琫、椭够钾旧,玐畁仃,琩,’琣痵猠瑂嬲瑃也,,Ⅱ..硒玛、搬、Ⅳ豁玎∞,.誴產琤瑆嬲”甀矗.”詄、Ⅳ,緀廿琒也,.痵,仃,
;玎辌锄籦,锣籛篢Ⅳ篽、Ⅳ
第一章绪论研究背景综述随着计算机,特别是互联网的出现和普及,人类传播和获取信息的途径发生了根本性的变化。据《第次中国互联网络发展状况调查统计报告》【】指出,截至年底,我国的网民总数已达冢%的网民经常使用搜索引擎获取信息,.ゾd劳缧挛拧;チMH死嘀J兜拇úヌ峁┝思大的方便。但同时,互联网的开放性也带来了不少问题。比如,搜索引擎会返回大量重复或相似的网页,浪费了读者大量的时间。《第次中国互联网络发展状况调查统计报告》【肯允荆%的被调查网民反映:“重复信息太多恰霸诨联网上查询信息时遇到的最大问题M缟系男矶嗄谌菔恰翱奖与“粘贴”出来的。这说明,互联网的开放性不利于数字产品的知识产权保护。为了更好的保护数字产品的知识产权、防止非法复制,以及网页去重,复制阻止技术和复制检测技术应运而生。复制阻止技术使用加密、水印、特殊载体等方法,使受保护内容难以拷贝。例如,通过光盘发行文集,中国期刊网上的文章采用专用软件才能阅读。文献拷樯艿摹鞍踩ù蛴』笔褂眉用艿陌踩ㄐ磐揪叮晃南住刻岢龅摹爸鞫文档”需要使用专用程序;贝尔实验室提出了“水印”技术,使用加密的单词空格或者图像,可以鉴定文档授权用户身份5牵鲜龇椒ǘ加锌赡鼙黄平狻所以,复制阻止技术不能完全解决知识产权保护问题。对比复制阻止技术,复制检测技术属于事后保护措施。它通过一定的技术手段检测数字产品缥谋尽⑹悠怠⒁羝怠⑼枷竦有无被非法复制。现有的检测技术主要有基于签名的检测和基于注册的检测两种。基于签名的检测就是在文档中加入“签名美锤偈植返娜ハ颉;谇┟姆椒ㄓ辛礁龇矫娴牟蛔悖一是当签名被有意删除时会导致无法跟踪到产品,二是不能有效的去检测产品的部分重叠和移位复制。因此目前大多数的复制检测技术是基于注册的,而其中文本复制检测技术最为成熟。当然,所谓的文本复制检测技术,不仅仅要能检测两
具,用于在大规模文件系统中寻找内容相似的文件。Ⅱ具提出的“近似指纹”,⒁氲轿谋鞠年香港理工大学的和热私⒌腃既原型】采用统计关键词文本相似检测技术的研究进展文本复制检测系统所采用。年,づ聄笱У腂热嗽凇笆滞际楣荨惫年血热颂岢隽薙ぺ锄韙具。例如,.!浚珽网站和软件。另外,刀和鬿⒄磐觭烘M尽刻峁┏绦蚋粗萍觳夥瘛篇文本是否完全相同,也要能检测两篇文本是否相似,因此文本复制检测技术也常被称为文本相似检测技术。最早的文本相似检测技术是闍融大学的提出了抗就是用基于字符串匹配的方法来度量文件之间的相似性。这个思路被很多后来的程中首次提出了文本复制检测机制低场】。系统框架为以后的自然语言文本复制检测系统奠定了基础,后来的检测系统框架与大同小异。原型【改进了系统,用于发现知识产权冲突。借鉴了信息检索技术中的向量空间模型ⅲ琫【穑褂没诖势低臣频姆椒ɡ炊攘课谋鞠嗨菩浴似性度量中。晁吻鼙5热颂岢隽薈【系统川,这是为了解决数字商品非法复制和扩散问题而开发的一个基于注册的复制监测原型系统。年鲍军鹏等人提出了一个快速文档复制检测模型【俊8媚P吞岢隽艘桓非对称的相似度计算模型思想,给出了两个非对称的相似性度量模型
娱乐新闻文本相似检测方法的研究 来自淘豆网m.daumloan.com转载请标明出处.