下载此文档

基于语义分析的句子相似度计算研究-计算机应用技术专业毕业论文.docx


文档分类:IT计算机 | 页数:约52页 举报非法文档有奖
1/52
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/52 下载此文档
文档列表 文档介绍
华北电力大学硕士学位论文第一章 引论研究背景及意义随着社会信息化的日益发展,计算机在人们日常生活中扮演着越来越重要的角色,人们使用计算机从事科学计算、办公、通信、教育、娱乐等各种活动。随着计算机越来越普及的今天,人们越来越强烈的希望能用自然语言这种更加方便的方式同计算机交流,就如同人与人之间以对话的方式一样,在人与机器之间建立起一种密切而友好的关系,使之能进行高度的信息认知与传递活动,实现从文字接口、图形接口到更富人性化的自然语言接口的革命。同时,互联网的迅速发展和广泛普及,导致网上信息出现爆炸性增长,互联网上以及各种电子文档资源以空前的速度增长,人们获取信息的方式也随之发生了变化,由于互联网等电子信息的丰富、廉价、快捷性,使其很快成为人们获取信息的主要方式。能否以类似于人们生活中的问答方式从网上搜集、发现有价值的信息,通过自然语言实现人机直接对话,己经成为网民迫切关注的问题。而所有这类问题,都可归属于自然语言处理,自然语言处理就是在这一背景下产生的一门新兴学科,指的是用计算机对语言进行转换、传输、存贮、分析等加工的科学ll]。仅就中文而言,则称为中文信息处理。它是一门与语言学、计算机科学、信息论和数学等多种学科相联系的边缘交叉性学科,是研究如何利用计算机来理解和生成汉语自然语言的科学,是新一代计算机研发的主要突破口之一。目前,自然语言处理技术己经广泛的应用于网络超容量文本数据的获取和分析;网络信息的纯洁和安全处理;机器人语音对话;大型数据库自然语言接口;专家系统自然语言接口;CAD、CAI和OA的人机交互系统;计算机自动书写,摘要提取,文档自动分类和文书管理系统;机器翻译和机助翻译;信息过滤、主题识别、文本分类和文本挖掘;网上交叉语言和自然语言信息检索等多个方面。人机自然语言接口问题,正受到世界各国的高度重视。但是,要让计算机理解自然语言,并不是一件简单的事情,尤其是对于我们使用的汉语来说,对它进行分析处理还有其特殊的一面。汉语是世界上最古老、最复杂的语言之一,缺少形态变化,语序比较随意,缺省指代较多,是典型的意合型语言lzl。国际上现有的自然语言处理的理论和技术大多都是以英语为研究对象发展起来的,而汉语无论在语音、文字表示,还是在词汇、语法、语义及其语用等各个层面上都与之存在着很大的差异,使得我们无法直接套用西方已相对成熟的理论和技术。汉语无疑是计算模型比较不发达的语言,这对从事中文信息处理的研究者来说华北电力大学硕士学位论文是一个巨大的挑战和压力。从基础做起,踏踏实实地做好中文信息处理中的每一项基础工作是迎接这一挑战的最佳姿态。目前,对于词法分析、句法分析以及语义分析,人们已经做了大量研究卜s],并取得了丰硕的成果。其中,相似度计算是一项非常重要的基础工作,它在自然语言处理中有着广泛的应用,例如,在基于实例的机器翻译[0,7】、信息检索ls]、自动问答l0,‘0]、自然语言接口11‘]以及自动文摘等领域[lz】,相似度计算都是一个关键技术问题,函待解决。,2研究的现状目前,相似度的研究涉及到词语、组块、句子以及文本等多个层面,在此,我们只关注词语和句子两个个层次。在这两个层次中,目前国内研究热点在词语方面,国内学者提出了一些比较有代表性的理论与方法,并在实践运用中取得不错的效果;句子层面的相似度计算是人们关注的焦点,国内学者也进行大量的研究取得了一定进展,但是进展比较缓慢。(1) 词语相似度计算的研究进展词语层面的相似度研究己有较长的历史,对于汉语词语的相似度定量计算,人们已经提出了许多较有代表性的方法。最近较为典型是基于同义词词林、知网等语义词典的计算方法Ils]。同时,对于基于统计的相似度计算,也有学者做了一些尝试【l’]。基于统计的方法将词汇的上下文信息的概率分布作为词汇语义相似度计算的参照,能够对词汇间的语义相似性进行比较精确和有效的度量!ls]。但是,这种方法比较依赖于训练所用的语料库,计算量大,计算方法复杂,另外,受数据稀疏和数据噪声的干扰较大,有时会出现明显的错误。总的来说,目前基于统计的方法与基于语义词典的方法相比,效果还不够理想,短期内基于语义词典的方法将仍然占据主流。不过随着统计方法的不断改进,统计的效果必定会逐步改善。基于语义词典的相似度计算方法涉及到语义词典的词条更新、词语关系的表示、相似度计算公式的确定等诸多方面。同时,对于任何一部语义词典,在实际应用中都会存在部分不在词典中的词语,如何计算这类词语之间或者这类词语与词典词语之间的相似度,还是一个尚未解决的难题。因此,对于基于语义词典的汉语词语相似度计算,仍然有进一步深入研究的必要。国外的词语相似度计算方法主要包括:基于构成字符的相似度计算方法1161、等语义词典的计算方法【‘7}和基于词典注释的方法I‘s]。在这些方法中,基于构成字符的计算方法

基于语义分析的句子相似度计算研究-计算机应用技术专业毕业论文 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数52
  • 收藏数0 收藏
  • 顶次数0
  • 上传人wz_198613
  • 文件大小5.32 MB
  • 时间2019-03-03