下载此文档

语义相似度的计算方法研究.docx


文档分类:论文 | 页数:约9页 举报非法文档有奖
1/9
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/9 下载此文档
文档列表 文档介绍
语义相似度的计算方法研究
信息与计算科学 余牛 指导教师:冉延平 摘 要 语义相似度计算在信息检索、信息抽取、文本分类、词义排歧、基于实例的机器 ,语义 相示完整地描述A,B所需要的信息量.
刘群,李素建[4]以基于实例的机器翻译为背景,认为语义相似度就是两个词语在不同的 上下文中可以互相替换使用而不改变文本的句法语义结构的程度.两个词语,如果在不同 的上下文中可以互相替换且不改变文本的句法语义结构的可能性越大,二者的相似度就越 高,否则相似度就越低.
对于两个词语W. W2,如果我们记其相似度为Sim(W15W2),其词语距离为
Dis(W1,W22),根据刘群,李素建⑶的公式:
a
Sim (W1, W2) = i (2)
1, 2
:当相似度为0. 5时的词语距离值.
笔者尝试从树论的角度给出一个定义,假设任意两个词语W1、W2可以表示为一个树 形结构中(如同义词词典Wordnet即为这种树形结构)的两个结点,由于语义距离
(Dis(W1,W2))与语义相似度(Sim(W1,W2))成反比例关系。于是,可以给出一个简单公式:
Sim(W , W ) = k (3)
2 Dis(W1,W2)
其中,Dis(W1,W2)为树中W1、W2所代表的结点在树中的距离,k为比例系数.
一般地说,.相似度一般被定义为一个 0到 1 ,当两个词语完 全一样时,它们的相似度为1;当两个词语是完全不同的概念时,它们的相似度接近于0.
3语义相似度的计算方法
词语距离有两类常见的计算方法,一种是根据某种世界知识(Ontology)或分类体系 (Taxonomy)来计算,一种利用大规模的语料库进行统计.
根据世界知识或分类体系计算词语语义距离的方法
该方法又称基于树的语义相似度研究方法,基于树的语义相似度计算的算法大体上分 为两种:一是基于距离的语义相似性测度; 利用一部语义词典(如Wordnet,Hownet),语义词典都是将所有的词组织在一棵或几棵 ,在一棵树状图中, 是,这条路径的长度就可以作为这两个词语概念间语义距离的一种度量;而且随着概念 所处结点越深,其所包含的语义信息越丰富,越能准确地决定概念的性质,它们对语义相 似度起着决定作用.
《知网Hownet》简介
《知网》是一部语义词典,由我国著名机器翻译专家董振东[3]逾十年功夫创建的一个知 识系统,是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及 概念所具有的属性之间的关系为基本内容的常识知识库.《知网》中含有丰富的词汇语义
知识和世界知识,为自然语言处理和机器翻译等方面的研究提供了宝贵的资源.
基于树状层次计算语义相似度的基本思想:以边作为距离
根据公式(3)笔者给出的定义,我们的计算思想是以边为距离来计算语义相似度.如 果树状语义网中所有的边即树的分支是等长的,那么边的数目可以作为距离的测度.假 定要确定词语W1、W2之间的语义相似度,可以在该语义网中首先找到包含待比较词的 那些子概念(或义原)

语义相似度的计算方法研究 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数9
  • 收藏数0 收藏
  • 顶次数0
  • 上传人zhangshut
  • 文件大小36 KB
  • 时间2022-07-19