下载此文档

语义相似度的计算方法研究.docx


文档分类:论文 | 页数:约9页 举报非法文档有奖
1/9
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/9 下载此文档
文档列表 文档介绍
语义相似度的计算方法研究
信息与计算科学余牛指导教师:冉延平
摘要语义相似度计算在信息检索、信息抽取、文本分类、词义排歧、,语义相似度计算成为,如果我们记其相似度为Sim(W.,W2),其词语距离为
Dis〔Wi,W2〕,根据刘群,李素建⑷的公式:
Sim〔W1,W2〕=〔2〕
Dis〔W1,W2〕
:.
笔者尝试从树论的角度给出一个定义,假设任意两个词语Wi、W2可以表示为一个树
形结构中〔如同义词词典Wordnet即为这种树形结构〕的两个结点,由于语义距离
〔Dis〔Wi,W2〕〕与语义相似度〔Sim〔W1,W2〕〕,可以给出一个简单公式
k
Sim(W1,W2)二
Dis(W1,W2)
其中,Dis〔W;,W2〕为树中皿、W2所代表的结点在树中的距离,k为比例系数.
特别地,当两个词语完
它们的相似度接近于0.
Ontology〕或分类体系
一般地说,.,它们的相似度为1;当两个词语是完全不同的概念时,
3语义相似度的计算方法
词语距离有两类常见的计算方法,一种是根据某种世界知识〔〔Taxonomy〕来计算,一种利用大规模的语料库进行统计.
根据世界知识或分类体系计算词语语义距离的方法
该方法又称基于树的语义相似度研究方法,基于树的语义相似度计算的算法大体上分为两种:一是基于距离的语义相似性测度;〔如Wordnet,Hownet〕,,在一棵树状图中,,这条路径的长度就可以作为这两个词语概念间语义距离的一种度量;而且随着概念所处结点越深,其所包含的语义信息越丰富,越能准确地决定概念的性质,它们对语义相似度起着决定作用.
?知网Hownet〉简介
?知网?是一部语义词典,由我国著名机器译专家董振东[3]逾十年功夫创立的一个知
识系统,是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及
概念所具有的属性之间的关系为根本内容的常识知识库.?知网?中含有丰富的词汇语义
知识和世界知识,为自然语言处理和机器译等方面的研究提供了珍贵的资源.
基于树状层次计算语义相似度的根本思想:以边作为距离
根据公式〔3〕笔者给出的定义,,、W2之间的语义相似度,可以在该语义网中首先找到包含待比拟词的
那些子概念〔或义原〕.在此情况下,W,、W2之间的语义相似性可以用连接这两个概念
,在图1〔取自Wordnet本体中的一小局部〕中,boy和girl之间的最短路径是boy-male-person-female-girl,最/,

语义相似度的计算方法研究 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数9
  • 收藏数0 收藏
  • 顶次数0
  • 上传人yusuyuan
  • 文件大小72 KB
  • 时间2022-06-15