下载此文档

基于《知网》义原空间的文本相似度计算研究与实现.pdf


文档分类:论文 | 页数:约55页 举报非法文档有奖
1/55
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/55 下载此文档
文档列表 文档介绍
Research and Implementation of Text
puting Based on
Sememe Space



A Thesis Submitted to Chongqing University
in Partial Fulfillment of the Requirement for the
Master‟s Degree of Engineering
By
Zhang Ke

Supervised by Associate Prof. Luo Jun
Specialty: Computer System Architecture


College puter Science of
Chongqing University, Chongqing, China
April 2013
重庆大学硕士学位论文中文摘要

摘要

文本相似度计算是知识产权保护、文本分类、机器翻译、自然语言处理、复
制检测、自动问答和信息检索等领域的核心技术。现有的文本相似度计算方法大
致可以归纳为两类,第一类是基于文本特征统计的方法,第二类则是基于文本语
义理解的方法。基于文本特征统计的方法在长文本等大粒度实体的相似度计算方
面取得了较好的效果,其中最具代表性的就是向量空间模型( Vector Space Model ,
简称 VSM )和广义向量空间模型( GeneralVectorSpaceModel,简称 GVSM)。
GVSM 在 VSM 的基础上利用文本特征项的共现信息,对 VSM 模型中特征项正交
的假设进行了改进。基于语义理解的方法,通常以某种知识库作为依据实现词语
之间或者句子之间相似度的计算。基于统计的方法简单高效,但是缺乏语义,无
法处理自然语言中“一词多义”和“一义多词”的情况。而基于语义理解的方法往往
计算比较复杂,不适合大规模的文本处理。
本文借鉴了广义向量空间模型的思想,利用知识库《知网》中的义原,提出了
一种基于《知网》义原空间的文本语义相似度计算方法(Sememe Vector Space
Model ,简称SVSM)。SVSM把基于统计和语义理解的方法相互结合,将文本表
示为义原空间中的向量,并通过计算文本义原向量之间的夹角实现文本相似度的
计算。为了验证提出方法的有效性,本文通过文本聚类实验对比了SVSM 与经典
的 VSM 和 GVSM 模型。实验结果表明本文提出的算法在语义相似度计算方面相比
VSM 与 GVSM 有所提高。
在义原文本相似度计算方法的基础上,本文基于 J2EE 平台设计并实现了一个
文本查重系统。在该系统中将《知网》的义原、概念、词语、义原之间的相似度
和词语的义原向量表示设计为数据库中的关系表。这样在进行文本相似度计算时
可以直接查表取得相关信息,避免了重复计算,提高了文本相似度计算的效率。
利用开源的软件工具包 Lucence、ICTCLAS、hibernate Search 等实现文本义原向量
的构建和相似度的计算。通过将文本中实现的查重系统应用于实际的工程应用中,
取得了良好的使用效果。

关键词:文本相似度,VSM,GVSM,语义相似度,《知网》,文本查重系统

I
重庆大学硕士学位论文英文摘要

ABSTRACT

Text puting is the gordian technique in fields of intellectual property
protection, machine translation, natural language processing, copy detection, question
answering, text classification information retrieval, and so appoaches to text
similarity can be divided in two types: one is based on texts statistics information, the
other one is based on sematic understanding. The statistics methods achieve well
performance in paragraphs, text and other large-grained entity similarity calculation.
The most typ

基于《知网》义原空间的文本相似度计算研究与实现 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数55
  • 收藏数0 收藏
  • 顶次数0
  • 上传人gd433
  • 文件大小0 KB
  • 时间2015-10-29