Category Number: Level of Secrecy:
Serial Number: Student Number: 50110812302
Master's Dissertation of Chongqing University
of Technology
Research and Application on Text
Similarity Algorithm Based on Semantics
Postgraduate: Zhang Jinpeng
Supervisor: Prof. Huang Xianying
Specialty: Computer Application
Technology
Research Direction: Search Engine Intelligence
Mining
Training Unit: College of Computer Science
and Engineering
Thesis Deadline: March 20, 2014
Oral Defense Date: May 30, 2014
摘 要
互联网时代的快速发展,科技日新月异的进步,越来越多的信息充斥在网络平台
上,网络平台上的数据表现出级数增长的势头,文本在众多信息载体中无疑是互联网
上主要的载体形式,导致对文本的挖掘研究逐渐成为计算机领域的热点。文本分词、
文本词性标注和文本表示等相关的基础研究都是为了最终的文本相似度计算,而文本
的相似度计算则是众多上层文本应用领域进行深度研究的基础,文本相似度算法的研
究作为联系基础研究和上层应用的纽带,已经在自然语言处理、文本分类、文本聚类、
问答系统、信息检索、搜索引擎等众多文本挖掘领域中崭露头角,得到了极其广泛的
应用。
文本相似度算法是指采用一定的策略来比较两个文本之间的相似程度。目前文本
相似度算法主要朝着两个方向发展:其一为基于向量空间模型的余弦相似度算法;其
二为基于语义词典的语义相似度算法。这两种做法在计算文本之间相似度时都具有一
定的意义,但是都缺乏对文本自身特性(文本篇幅和文本语言特征等)的深入分析,
余弦向量法相对适用于大篇幅文本,然而该相似度算法中各个关键词的关联性却被全
盘忽略;语义词典法受词典容量的制约难以较为准确地反映文本之间的相似度。
不同文本应用领域中文本的特性存在着一定的差异(文本篇幅存在长、短之分,
文本语言也存在中、英文之分),本文从实际的文本应用出发,展开对不同篇幅、不
同语言文本之间相似度计算的研究。针对大篇幅文本中关键词数目丰富而关键词存在
多义性的特性,对文本进行语义单元划分,语义单元中关键词间语义相关性采用不同
的策略(关键词共现频率投票因子和关键词词性权重等)获得;针对不同语言特性(中
文和英文)的小篇幅文本,对文本以词性为标识进行词性向量的划分,针对不同语言
特性的文本,关键词语义化权值的定义也采用不同策略。
本文主要研究长-长文本、短-短文本和短-长文本之间的相似度比较,并将长-
长文本之间的相似度比较算法应用于文本分类领域,短-短文本相似度比较算法应用
于 FAQ 系统领域,短-长文本相似度比较算法应用于搜索引擎领域,实验表明,改进
的语义相似度算法使得文本分类的准确率、句子相似度计算的准确率都有了较为明显
的提高。
关键词:文本相似度算法;语义单元划分;词性空间定义;关键词语义权值定
I
ABSTRACT
Because of the great development of t
基于语义的文本相似度算法研究及应用 来自淘豆网m.daumloan.com转载请标明出处.