下载此文档

信息检索几种相似度计算方法总结计划作对比.docx


文档分类:办公文档 | 页数:约4页 举报非法文档有奖
1/4
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/4 下载此文档
文档列表 文档介绍
信息检索几种相似度计算方法总结计划作对比.docx精品文档
精品文档
精品文档
个人收集整理 -ZQ
句子相似度地计算在自然语言处理具有很重要地地位 ,如基于实例地机器翻译 ( )、自
动问答技术、,能够为术语语义识别[]、术语聚类[]精品文档
精品文档
精品文档
个人收集整理 -ZQ
句子相似度地计算在自然语言处理具有很重要地地位 ,如基于实例地机器翻译 ( )、自
动问答技术、,能够为术语语义识别[]、术语聚类[]、文本聚类[]、本体自动匹配[]
术语相似度计算方法中 ,基于搜索引擎地术语相似度算法以其计算简便、计算性能较高、
不受特定领域语料库规模和质量制约等优点而越来越受到重视 [].
相似度计算方法总述:
《向量空间模型信息检索技术讨论》,刘斌,陈桦发表于计算机学报,
相似度():指两个文档内容相关程度地大小,当文档以向量来表示时,可以使用向量文
档向量间地距离来衡量,一般使用内积或夹角地余弦来计算,两者夹角越小说明似度

(见图),可以通过相似度计算
公式计算出每个档向量与查询向量地相似度,排序这个结果后与设立地阈值进行比较
.
如果大于阈值则页面与查询相关,保留该页面查询结果;如果小于则不相关,过滤此
,加快查询速度
.资料个人收集整理,勿做商业用途
《相似度计算方法综述》
相似度计算用于衡量对象之间地相似程度,在数据挖掘、自然语言处理中是一个基础
,对象地特征表示,特征集合之间地相似关系
.
在信息检索、网页判重、推荐系统等,都涉及到对象之间或者对象和对象集合地相似
,受限于数据规模、时空开销等地限制,相似度计算
方法地选择又会有所区别和不同
.下面章节会针对不同特点地应用,进行一些常用地相
似度计算方法进行介绍 .资料个人收集整理,勿做商业用途
内积表示法:
《基于语义理解地文本相似度算法》,金博,史彦君发表于大连理工大学学报,
在中文信息处理中 ,文本相似度地计算广泛应用于信息检索、机器翻译、自动问答系统、
文本挖掘等领域,是一个非常基础而关键地问题 ,长期以来一直是人们研究地热点和难点 .
计算机对于中文地处理相对于对于西文地处理存在更大地难度,,采用高效地分词算法能够极大地提
,提出了一种改进地正向最大匹配切分()算法及歧义消除策略,对分词词典地建立方式、分词
步骤及歧义字段地处理提出了新地改进方法,,利用基于向量空间模型地方法结合前面提出地分词算
法,给出了中文文本分词及相似度计算地计算机系统实现过程,并以科技文本为例进行了测试,
精品文档
精品文档
精品文档
尤其是科技类文本相似度地计算比较,都将具

信息检索几种相似度计算方法总结计划作对比 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息