摘要
互联网上绝大多数的信息是以文本的形式保存的,互联网上文本信息的爆炸式
增长给信息检索技术带来了巨大的挑战,人们越来越难以快速准确地从网上检索到
相关信息。由于自然语言中多词同义、一词多义等不确定性因素存在,相同概念可
以有多种不同的表述方式,被称为“知识的非常态”。传统的基于关键词字符匹配的
信息检索中,参与匹配的只有外在的表现形式,而非它们所表达的全部概念,用户
很难简单地用关键词或关键词串来真实地表达真正需要检索的内容。把信息检索从
关键词匹配的层面提高到概念(语义)的层面,从概念意义上来认知和处理检索用
户的请求成为当前信息检索技术的研究热点。
潜在语义分析(LSA)是一种自然语言统计模型,被认为是一种获取、归纳和
表述知识的方法。基于 LSA 的检索模型与其它基于概念词典或概念网络的检索模型
相比,具有可计算性强、需要人的参与少等优点。LSA 通过截断的奇异值分解建立
潜在语义空间,潜在语义空间中词语和文档被投影在代表潜概念的维度上,进而可
以提取词语间的语义关系,呈现出自然语言中的语义结构。当前 LSA 尚存在一些理
论基础有待扩充和进一步的解释,以中文 LSA 作为研究的主题,以中文概念检索作
为研究背景,对相关的一些难点问题,比如权重计算、潜在语义空间维度特性等进
行系统地研究。
权重计算是 LSA 中的重要优化过程,传统的 LSA 权重定义方法继承于向量空
间模型(VSM),而忽视了 LSA 与 VSM 的本质差别。定义词语全局权重后生成的
潜在语义空间的维度突出了权重较大的词语间的语义关系。文档语义是由词语构成
的,而词语要放到文档当中去理解。为了突出那些与重要词语间的互信息量较大的
文档对建立词语间语义关系的作用,提出文档全局权重的定义作为 LSA 权重计算的
修正扩展。通过实验检验各种词语全局权重和加入文档全局权重后的检索效果,结
果表明熵权重定义优于其它词语全局权重,加入文档全局权重后,能够在更少的维
度上获得更高的查准率。
潜在语义空间中的维度代表着“潜概念”,由于没有显式的概念与之对应,人们
一直不能深入理解潜在语义空间中的维度,LSA 的应用和发展受到限制。随潜在语
义空间被剔除维度的增多,词语间相关度发生有规律的变化。认为文档(词语)间
“泛”意义上的相关性主要体现在对应大奇异值的维度上,同时“局部”意义上的
相关性主要体现在对应小奇异值的维度上。进而推测潜在语义空间维度和概念粒度
之间存在某种近似的、隐含的对应关系。采用多层次文档聚类来验证这一结论,发
I
现选用不同的潜在语义空间维度实现不同概念粒度下文档聚类,获得较好的效果。
另外,在研究 LSA 文档聚类中发现,采用文档自检索矩阵可以很好地抑制聚类中的
孤立点,大大提高了聚类准确率。
作为应用研究,还研究了 LSA 检索系统的两类难点问题:快速检索和语义布尔
检索。响应时间是信息检索的重要评价指标,LSA 检索模型无法直接采用传统的关
键词索引方式达到快速检索的目的。基于对潜在语义空间维度特性的研究,提出了
“低维过滤”快速检索算法,减少了相关度计算量,达到快速排除非相关文档的目
的。“压缩编码”快速检索算法将原 LSA 文档向量用近似的压缩编码表示,将压缩
编码下各个维度所有可能相关度用快查表方式保存,从而避免了大量计算,“加权
0-1 编码”是比较典型的压缩编码方法。实验表明,将“压缩编码”和“低维过滤”
两种算法结合使用,能够更快速地将目标文档锁定在更小的范围中。布尔表达式检
索是实现用户个性化的复杂查询必需的功能,为此借鉴模糊检索模型研究了 LSA 语
义布尔查询的特殊处理,在研究过程中还引入了数据场以及势、叠加势、等势线等
概念作为直观评价语义布尔检索算法的仿真手段。
深入研究了 LSA 权重计算、维度特性等基础理论方法及其在 IR 应用中的快速
检索和布尔检索两个难点问题。LSA 是一门严重依赖实验的科学,研究过程中,开
发了“中文潜在语义分析系统”作为实验平台,针对 LSA 的每个相对独立的环节专
门设计实验方法,以可视化的方式呈现实验结果,文中所有研究内容都在该系统中
作了验证。在中文概念检索领域,LSA 具有广阔的应用前景,文中若干结论具有理
论和实践上的指导意义。
关键词: 潜在语义分析, 信息检索, 权重计算, 潜在语义空间维度特性,
快速检索, 语义布尔检索
知识水坝为您整理II
Abstract
Most information on is based on text. The explosive growth of text
information is a
基于潜在语义分析的中文概念检索研究(可复制毕业论文) 来自淘豆网m.daumloan.com转载请标明出处.