几种相似度计算方法作对比句子相似度的计算在自然语言处理具有很重要的地位, 如基于实例的机器翻译(Example Based Ma-chine Translation,EBMT) 、自动问答技术、句子模糊匹配等. 通过对术语之间的语义相似度计算, 能够为术语语义识别[1] 、术语聚类[2] 、文本聚类[3] 、本体自动匹配[4] 等多项任务的开展提供重要支持。在已有的术语相似度计算方法中, 基于搜索引擎的术语相似度算法以其计算简便、计算性能较高、不受特定领域语料库规模和质量制约等优点而越来越受到重视[1]。相似度计算方法总述: 1 《向量空间模型信息检索技术讨论》,刘斌,陈桦发表于计算机学报, 2007 相似度 S(Similarity) :指两个文档内容相关程度的大小,当文档以向量来表示时,可以使用向量文档向量间的距离来衡量, 一般使用内积或夹角 0 的余弦来计算, 两者夹角越小说明似度越高。由于查询也可以在同一空间里表示为一个查询向量( 见图 1), 可以通过相似度计算公式计算出每个档向量与查询向量的相似度,排序这个结果后与设立的阈值进行比较。如果大于阈值则页面与查询相关, 保留该页面查询结果; 如果小于则不相关, 过滤此页。这样就可以控制查询结果的数量,加快查询速度。 2 《相似度计算方法综述》相似度计算用于衡量对象之间的相似程度, 在数据挖掘、自然语言处理中是一个基础性计算。其中的关键技术主要是两个部分, 对象的特征表示, 特征集合之间的相似关系。在信息检索、网页判重、推荐系统等,都涉及到对象之间或者对象和对象集合的相似性的计算。而针对不同的应用场景, 受限于数据规模、时空开销等的限制, 相似度计算方法的选择又会有所区别和不同。下面章节会针对不同特点的应用, 进行一些常用的相似度计算方法进行介绍。内积表示法: 1《基于语义理解的文本相似度算法》,金博,史彦君发表于大连理工大学学报, 2007 在中文信息处理中, 文本相似度的计算广泛应用于信息检索、机器翻译、自动问答系统、文本挖掘等领域, 是一个非常基础而关键的问题, 长期以来一直是人们研究的热点和难点。计算机对于中文的处理相对于对于西文的处理存在更大的难度, 集中体现在对文本分词的处理上。分词是中文文本相似度计算的基础和前提, 采用高效的分词算法能够极大地提高文本相似度计算结果的准确性。本文在对常用的中文分词算法分析比较的基础上, 提出了一种改进的正向最大匹配切分(MM) 算法及歧义消除策略, 对分词词典的建立方式、分词步骤及歧义字段的处理提出了新的改进方法, 提高了分词的完整性和准确性。随后分析比较了现有的文本相似度计算方法, 利用基于向量空间模型的 TF-IDF 方法结合前面提出的分词算法, 给出了中文文本分词及相似度计算的计算机系统实现过程, 并以科技文本为例进行了测试, 对所用方法进行了验证。这一课题的研究及其成果对于中文信息处理中的多种领域尤其是科技类文本相似度的计算比较, 都将具有一定的参考价值和良好的应用前景。 2《随机内积空间》,林熙,郭铁信发表于科学通报, 2007 称(s ,盘) 为数域 K 上的以概率空间( 口, a,) 为基的随机内积空间(Randominnerproductspace ,简RI 空间),若s 是数域K 上的线性空间且映射盘:× _+L( 口,) 满足
信息检索几种相似度计算方法作对比 来自淘豆网m.daumloan.com转载请标明出处.