基于潜在语义分析的中文概念检索研究(可复制毕业论文).pdf


文档分类:论文 | 页数:约148页 举报非法文档有奖
1/148
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/148
文档列表 文档介绍
摘要
互联网上绝大多数的信息是以文本的形式保存的,互联网上文本信息的爆炸式
增长给信息检索技术带来了巨大的挑战,人们越来越难以快速准确地从网上检索到
相关信息。由于自然语言中多词同义、一词多义等不确定性因素存在,相同概念可
以有多种不同的表述方式,被称为“知识的非常态”。传统的基于关键词字符匹配的
信息检索中,参与匹配的只有外在的表现形式,而非它们所表达的全部概念,用户
很难简单地用关键词或关键词串来真实地表达真正需要检索的内容。把信息检索从
关键词匹配的层面提高到概念(语义)的层面,从概念意义上来认知和处理检索用
户的请求成为当前信息检索技术的研究热点。
潜在语义分析(LSA)是一种自然语言统计模型,被认为是一种获取、归纳和
表述知识的方法。基于 LSA 的检索模型与其它基于概念词典或概念网络的检索模型
相比,具有可计算性强、需要人的参与少等优点。LSA 通过截断的奇异值分解建立
潜在语义空间,潜在语义空间中词语和文档被投影在代表潜概念的维度上,进而可
以提取词语间的语义关系,呈现出自然语言中的语义结构。当前 LSA 尚存在一些理
论基础有待扩充和进一步的解释,以中文 LSA 作为研究的主题,以中文概念检索作
为研究背景,对相关的一些难点问题,比如权重计算、潜在语义空间维度特性等进
行系统地研究。
权重计算是 LSA 中的重要优化过程,传统的 LSA 权重定义方法继承于向量空
间模型(VSM),而忽视了 LSA 与 VSM 的本质差别。定义词语全局权重后生成的
潜在语义空间的维度突出了权重较大的词语间的语义关系。文档语义是由词语构成
的,而词语要放到文档当中去理解。为了突出那些与重要词语间的互信息量较大的
文档对建立词语间语义关系的作用,提出文档全局权重的定义作为 LSA 权重计算的
修正扩展。通过实验检验各种词语全局权重和加入文档全局权重后的检索效果,结
果表明熵权重定义优于其它词语全局权重,加入文档全局权重后,能够在更少的维
度上获得更高的查准率。
潜在语义空间中的维度代表着“潜概念”,由于没有显式的概念与之对应,人们
一直不能深入理解潜在语义空间中的维度,LSA 的应用和发展受到限制。随潜在语
义空间被剔除维度的增多,词语间相关度发生有规律的变化。认为文档(词语)间
“泛”意义上的相关性主要体现在对应大奇异值的维度上,同时“局部”意义上的
相关性主要体现在对应小奇异值的维度上。进而推测潜在语义空间维度和概念粒度
之间存在某种近似的、隐含的对应关系。采用多层次文档聚类来验证这一结论,发
I
现选用不同的潜在语义空间维度实现不同概念粒度下文档聚类,获得较好的效果。
另外,在研究 LSA 文档聚类中发现,采用文档自检索矩阵可以很好地抑制聚类中的
孤立点,大大提高了聚类准确率。
作为应用研究,还研究了 LSA 检索系统的两类难点问题:快速检索和语义布尔
检索。响应时间是信息检索的重要评价指标,LSA 检索模型无法直接采用传统的关
键词索引方式达到快速检索的目的。基于对潜在语义空间维度特性的研究,提出了
“低维过滤”快速检索算法,减少了相关度计算量,达到快速排除非相关文档的目
的。“压缩编码”快速检索算法将原 LSA 文档向量用近似的压缩编码表示,将压缩
编码下各个维度所有可能相关度用快查表方式保存,从而避免了大量计算,“加权
0-1 编码”是比较典型的压缩编码方法。实验表明,将“压缩编码”和“低维过滤”
两种算法结合使用,能够更快速地将目标文档锁定在更小的范围中。布尔表达式检
索是实现用户个性化的复杂查询必需的功能,为此借鉴模糊检索模型研究了 LSA 语
义布尔查询的特殊处理,在研究过程中还引入了数据场以及势、叠加势、等势线等
概念作为直观评价语义布尔检索算法的仿真手段。
深入研究了 LSA 权重计算、维度特性等基础理论方法及其在 IR 应用中的快速
检索和布尔检索两个难点问题。LSA 是一门严重依赖实验的科学,研究过程中,开
发了“中文潜在语义分析系统”作为实验平台,针对 LSA 的每个相对独立的环节专
门设计实验方法,以可视化的方式呈现实验结果,文中所有研究内容都在该系统中
作了验证。在中文概念检索领域,LSA 具有广阔的应用前景,文中若干结论具有理
论和实践上的指导意义。

关键词: 潜在语义分析, 信息检索, 权重计算, 潜在语义空间维度特性,
快速检索, 语义布尔检索
知识水坝为您整理II
Abstract
Most information on is based on text. The explosive growth of text
information is a

基于潜在语义分析的中文概念检索研究(可复制毕业论文) 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数148
  • 收藏数0 收藏
  • 顶次数0
  • 上传人mkt365
  • 文件大小0 KB
  • 时间2013-11-21