太原理工大学硕士研究生学位论文
基于 HowNet 的短文本语义相似度计算方法研究
摘 要
大数据分析的日益发展与舆情分析任务要求的不断增长,对中文
文本信息的处理提出了新的要求,尤其是短文本的出现及迅速发展,
使得对中文短文本相似度的研究成为当前大数据时代信息处理的研
究热门。中文短文本具有文本篇幅短、词语数量少、文本语义丰富、
文本结构复杂等特点,需要恰当、合适的方法来计算中文短文本之间
的相似度。
传统的基于 TF-IDF 的计算方法可以根据文本中共同出现的词语
和出现词语的次数,文档词频与逆文档词频等特征计算文本之间的相
似度;这种传统的算法在计算长文本之间的相似度时表现较好,但是
对短文本相似度的计算效果欠佳,究其原因,是长文本的篇幅较长,
包含的词语数量较多,且有些词语频繁出现,而短文本的篇幅较短,
包含的词语数量较少,而且这两种计算方法在计算过程中,没有考虑
到中文语言的特点,如:语法结构、一词多义等,因此对短文本相似
度的计算,它的计算结果不能令人满意。
针对以上问题,本文在分析了中文词语与短文本的特点的基础上,
通过选取中文词语的多个重要特征,对短文本构建计算模型,提出一
种基于语义与句法结构的短文本相似度计算方法和一种基于复杂网
络的短文本相似度计算方法。第一种算法首先计算中文词语的语义相
似度,在计算过程中提取了中文词语在 HowNet 中描述的义原的路径
I
太原理工大学硕士研究生学位论文
长度、层次深度、密度与词项的情感等重要特征,并对中文词语作词
义消歧工作,再对中文语句的句法结构进行分析整理,计算中文语句
的主题相似度与句法结构相似度,最后通过二元集合法计算得到短文
本相似度。
第二种算法首先对经过预处理的中文短文本建立复杂网络模型,
并计算每个节点的复杂网络综合特征值,并将短文本的这一特征值作
为短文本相似度计算的重要参数,然后计算词语的相似度,并将词语
相似度值作为短文本的向量元素,对其计算向量的余弦相似度,最后
根据短文本相似度的定义计算短文本的相似度。对本文提出的算法进
行仿真实验,并与其他算法做对比,经过分析仿真实验的数据,结果
表明本文提出的算法在短文本的相似度计算的准确率与 F 值上有一
定的改善。
关键词:短文本,中文词语,情感特征,复杂网络,向量,短文本相
似度
II
太原理工大学硕士研究生学位论文
RESEARCH ON THE METHOD OF SEMANTIC
SIMILARITYCALCULATION OF SHORT
TEXTS BASED ON HOWNET
ABSTRACT
With the increasing development of public opinion analysis task
analysis of large data requirements increasing, put forward new
requirements on Chinese text information, especially the short text and
the rapid development of the Chinese short text similarity has become the
big data era of information processing hot research. Chinese short text has
the characteristics of short text,
的短文本语义相似度计算方法研究 来自淘豆网m.daumloan.com转载请标明出处.