下载此文档

中文文本语义相似度计算的研究及其应用.pdf


文档分类:IT计算机 | 页数:约60页 举报非法文档有奖
1/60
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/60 下载此文档
文档列表 文档介绍
Research on Chinese text semantic
similarity calculation and its application




A Thesis Submitted to Chongqing University
in Partial Fulfillment of the Requirement for the
Master’s Degree of Engineering
By
Sun Junhua

Supervisor by Zhengyu
Specialty: Computer Software and Theory


College puter Science of
Chongqing University, Chongqing, China
April 2013
重庆大学硕士学位论文中文摘要

摘要

中文文本相似度计算是中文信息处理相关研究领域中的重要基础,在信息检
索、知识挖掘、舆情分析等领域中有着广泛应用。目前的中文文本相似度计算方
法大多是从文本的字形层面而不是从文本内容语义理解上计算文本间的相似度,
这样得到的相似度值往往与人们的主观理解不一致。本文深入分析和研究了当前
基于语义的中文文本相似度计算方法,并针对方法中存在的问题进行改进,使计
算得到的相似度能够更为准确地反映中文文本间的语义相似性。本文主要研究贡
献点有以下几点:
①提出一种改进的基于 的中文词汇语义相似度计算方法。针对当前
基于 的词汇语义相似度计算方法没有充分考虑知识库描述语言的顺序性
特征,对当前计算方法进行改进。首先,充分考虑知识库描述语言对概念进行描
述的线性关系特征,提出一种位置相关的权重分配策略。其次,将所提出的策略
结合二部图最大权匹配进行概念的相似度计算。最后,将概念相似度计算方法结
合现有方法进行中文词汇语义相似度计算。
②提出一种改进的中文文本语义相似度计算方法。针对当前基于语义的文本
相似度计算方法没有综合考虑文本之间在语义内容上的共性和差异性对文本相似
度的影响,对当前计算方法进行改进。首先,为了考虑文本特征向量中特征项之
间的差异性,在构建关于文本特征向量的二部图时为虚拟顶点设置非零权重值。
其次,为二部图中的空特征项顶点与非空特征项顶点设置较小的固定相似度值。
③在上述中文文本语义相似度计算方法研究基础上,结合谱聚类方法进行基
于语义概念的中文文本谱聚类应用研究。首先,在深入分析谱聚类中关于相似度
图构建方法的优缺点基础上,结合中文文本语义内容分布特点和上述中文文本语
义相似度计算方法,给出了一种更为合理的相似度图构造方法。其次,基于相似
度图的邻接矩阵进行中文文本谱聚类。
④对上述提出的改进方法及基于语义的文本谱聚类应用的效果进行了实验验
证。实验表明,改进的词汇语义相似度计算方法较当前其它一些方法能够更为准
确的计算词汇间的语义相似度值;改进的中文文本语义相似度计算方法能够更为
确切的度量文本间在语义内容上的相似性大小;基于语义的谱聚类方法相比其它
聚类方法能够进一步提高中文文本聚类的聚类效果。
本文研究的中文文本语义相似度计算方法主要用于计算文本在语义内容上的
相似性大小,可以为中文文本信息知识挖掘相关应用提供良好的方法基础。
I
重庆大学硕士学位论文中文摘要
关键字: 文本语义相似度,词汇语义相似度, ,谱聚类
II
重庆大学硕士学位论文英文摘要

ABSTRACT

Chinese text similarity calculation serves as the key foundation in the
Chinese-information-processing related fields. It can be applied in the following fields:
information search, knowledge mining and public opinion analysis etc. Present ways of
calculating Chinese text similarity are mainly carried out on the basis of judging term
sameness while failing in the semantic understanding of textual content. Therefore, the
result is n

中文文本语义相似度计算的研究及其应用 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数60
  • 收藏数0 收藏
  • 顶次数0
  • 上传人nb6785
  • 文件大小0 KB
  • 时间2015-11-20