一种实体描述短文本相似度计算方法.doc一种实体描述短文本相似度计算方法摘要:中文实体描述短文本具有词语稀疏、语义离散、用词等特点。本文分析《知网》义原网络和词语相似度的关系,提出了短文本间语义相似度部分和短文本分类部分相结合的实体描述短文本间相似度计算方法。语义相似度部分分析《知网》义原网络和词语间相似度的关系,在计算词语间相似度和短文本间相似度的过程中弱化了浅层《知网》义原影响并均衡了义原权重,使义原相似度计算结果更加合理。短文本分类部分将短文本分解为义原向量,根据特定领域短文本的义原分布情况进行短文本分类。两部分结合得到实体描述短文本间相似度。本文方法的有效性在百度知识图谱数据分析竞赛任务1的测试结果中得到了证明。关键词:实体描述短文本;文本分类;文本相似度;《知网》中图分类号:TP391文献标识码:A文章编号:2095-2163(2015-)02-puta/tionMethodforChineseEntitiesQINTian-yil,LINChan2,SONGBo-yu2,GUANYil(,Harbin,Heilongjiang,150001,China;,Harbin,Heilongjiang,150001,China;)Abstract: ShorttextdescriptionforChineseentitieshasfeaturesofstatisticalsparsity,・Inthesemanticsimilaritypart,themethodweakenstheinfluenceofHownesshallowsememesandbalancesweightsofsememes・Intheshorttextclassificationpart, :ShorttextdescriptionforChineseentities;Textcategorization;Textsimilarity;0引言中文实体是中文文本中名词性词汇或短语的统称,本文处理的中文实体,包括电影、电视剧、电视节目、软件应用、电子游戏和歌曲的名称,在互联网上常用短文本描述。一般认为,短文本是长度不超过200个字符的文本[1],具有词语稀疏、语义离散和用词随意等特点[2]。实体的定义通常由实体描述短文本给出,实体描述短文本间的相似度即是对应的实体间相似度。短文本间相似度计算是近年来自然语言处理的研究热点之一,被广泛应用于信息检索、反作弊系统、智能问答系统、智能推荐系统、文本自动分类、机器翻译中。文本间相似度计算方法大多通过统计分词后文本的词频信息,将文本建模为向量,利用向量间余弦相似度、ard相似度等方法计算文本相似度。文本间相似度也可以通过文本分类来近似。文本间相似度计算方法通常只考虑文本中单个词语的统计特性而没有考虑文本整体的语义特性,并在处理短文本时会生成稀疏的高维向量,容易出现语义漂移问题。本文利用《知网》的语义知识资源和概念网络,针对短文本特点,提出了短文本间语义相似度部分和短文本分类部分相结合的实体描述短文本间相似度计算方法。《知网》《知网》是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库[3]。词语的语义在《知网》中通过一个或多个概念来描述,而每一个概念由义原来描述。义原是《知网》中最小的、不可再分割的语义单位,《知网》作者用1600多个义原对8万多个中文词汇进行描述,义原的上下位关系为所有义原建立起一个包含多个子树的多层义原网络[4]。《知网》的文本间语义相似度计算义原间相似度的计算方法可以分为两类:基于节点之间路径长度的方法和基于节点之间共有信息大小的方法[5]。基于节点之间路径长度的方法需要计算两个节点在义原网络上的最短距离,基于节点之间共有信息大小的方法需要计算两个节点最近的共同祖先节点含有的子节点个数。许多学者已经在义原间相似度的问题上做了
一种实体描述短文本相似度计算方法 来自淘豆网m.daumloan.com转载请标明出处.