下载此文档

基于《知网》义原空间的文本相似度计算及研究实现.pdf

文档分类：论文 | 页数：约56页举报非法文档有奖

1/56

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/56 下载此文档

文档列表 文档介绍

基于《知网》义原空间的文本相似度计算研究与实现重庆大学硕士学位论文(学术学位) 学生姓名:张科指导老师:罗军副教授专业:计算机系统结构学科门类:工学重庆大学计算机学院二〇一三年四月 Research and Implementation of Text putingBased on Sememe Space A Thesis Submitted to Chongqing University in Partial Fulfillment of the Requirement for the Master?s Degree of Engineering By Zhang Ke Supervised by Associate Prof. Luo Jun Specialty: Computer System Architecture College puter Science of Chongqing University, Chongqing, China April 2013 重庆大学硕士学位论文中文摘要 I 摘要文本相似度计算是知识产权保护、文本分类、机器翻译、自然语言处理、复制检测、自动问答和信息检索等领域的核心技术。现有的文本相似度计算方法大致可以归纳为两类,第一类是基于文本特征统计的方法,第二类则是基于文本语义理解的方法。基于文本特征统计的方法在长文本等大粒度实体的相似度计算方面取得了较好的效果,其中最具代表性的就是向量空间模型(Vector Space Model , 简称VSM )和广义向量空间模型(General Vector Space Model ,简称GVSM )。 GVSM 在VSM 的基础上利用文本特征项的共现信息,对VSM 模型中特征项正交的假设进行了改进。基于语义理解的方法,通常以某种知识库作为依据实现词语之间或者句子之间相似度的计算。基于统计的方法简单高效,但是缺乏语义,无法处理自然语言中“一词多义”和“一义多词”的情况。而基于语义理解的方法往往计算比较复杂,不适合大规模的文本处理。本文借鉴了广义向量空间模型的思想,利用知识库《知网》中的义原,提出了一种基于《知网》义原空间的文本语义相似度计算方法(Sememe Vector Space Model ,简称SVSM )。SVSM 把基于统计和语义理解的方法相互结合,将文本表示为义原空间中的向量,并通过计算文本义原向量之间的夹角实现文本相似度的计算。为了验证提出方法的有效性,本文通过文本聚类实验对比了SVSM 与经典的VSM 和GVSM 模型。实验结果表明本文提出的算法在语义相似度计算方面相比 VSM 与GVSM 有所提高。在义原文本相似度计算方法的基础上,本文基于J2EE平台设计并实现了一个文本查重系统。在该系统中将《知网》的义原、概念、词语、义原之间的相似度和词语的义原向量表示设计为数据库中的关系表。这样在进行文本相似度计算时可以直接查表取得相关信息,避免了重复计算,提高了文本相似度计算的效率。利用开源的软件工具包Lucence、ICTCLAS、hibernate Search等实现文本义原向量的构建和相似度的计算。通过将文本中实现的查重系统应用于实际的工程应用中, 取得了良好的使用效果。关键词:文本相似度,VSM,GVSM,语义相似度,《知网》,文本查重系统重庆大学硕士学位论文英文摘要 II ABSTRACT Text puting is the gordian techniquein fields of intellectualproperty protection,machine translation, natural language processing, copy detection, question answering, text classification information retrieval, and so appoachesto text similarity can be dividedin twotypes: one is based on texts statistics information, the other one is based on sematic understanding. The statistics methods achieve well performance in paragraphs, text and other large-grained entity similarity calculation. The most typical statistic method

基于《知网》义原空间的文本相似度计算及研究实现来自淘豆网m.daumloan.com转载请标明出处.