南京理工大学
硕士学位论文
面向领域文本的潜在语义分析研究
姓名:郑翠翠
申请学位级别:硕士
专业:管理科学与工程
指导教师:甘利人;岑咏华
20100622
摘要关键词:文本信息处理传统基于词语独立性假设、原始高维词语特征表示和字面匹配方法的文本信息处理单元的正确语义表示,影响了检索、聚类、分类、相似度计算、关联挖掘等深层文针对传统文本信息处理存在的问题,本文引入了潜在语义分析P停维方法达到信息过滤和去除噪声的目的,实现原始“词语一文档矩阵姆纸猓竦原始矩阵的降维近似逼近阵,从而将文档和词语的高维表示投影到低维的潜在语义空础上,本文阐述了潜在语义分析P偷幕舅枷牒驮恚氐阊芯苛嘶理往往忽略了文本信息中所隐藏的语义结构,无法形成对文档、作者、研究结构等处本信息处理的效率、准确率和召回率。因此,探索一种有效的语义分析和表示技术,对于文本信息处理和挖掘有着重要的意义。图通过奇异值分解肜肷⒎纸以及非负矩阵分解扔镆褰间中,缩小问题的规模,得到不再稀疏的词汇和文档的低维表示,进而揭示出词汇档涞挠镆辶O怠在对文本信息处理和潜在语义分析的国内外研究与应用的现状和问题的总结基等的潜在语义分析实现方法、各种方法的数学原理以及实现过程,同时将这些方法与却秤镆宄煞痔崛》椒ń斜冉希哉庑┓椒ㄓτ糜谖谋拘畔⒋的科学性进行了理论解释,弥补了相关方法研究在理论解释方面的不足。论文重点实现了基于那痹谟镆宸治龃怼U馐且恢衷诶砺劢馐汀⑿屎途ǘ鹊确矫婢嫌异的方法,国内相关研究则较少,本文在此方法上的理论、实现和实验研究是一种有意义的尝试。然后,论文探索了基于潜在语义空间的领域文本信息处理的典型应用问题的方法与机理,通过对比试验、选择合适的评价模型研究了潜在语义分析处理在文本聚类中的应用相对于传统的文本聚类在效率、准确率、召回率等方面产生的本质差别。在实验研究的基础上,论文得出了一些有意义的结论,这些结论对于相关研究在方法选择、语义维度设定等方面有着一定的参考意义。:语义分析研究
琣甋,,,,,,.瑃琭瑂,:—硕士论文.—琓,琒瓵,.瓸,甇痶
谛占月屿声学位论文使用授权声明明本学位论文是我在导师的指导下取得的研究成果,尽我所知,在本学位论文中,除了加以标注和致谢的部分外,不包含其他人已经发表或公布过的研究成果,也不包含我为获得任何教育机构的学位或学历而使用过的材料。与我一同工作的同事对本学位论文做出的贡献均已在论文中作了明确的说明。研究生签名:南京理工大学有权保存本学位论文的电子和纸质文档,可以借阅或上网公布本学位论文的部分或全部内容,可以向有关部门或机构送交并授权其保存、借阅或上网公布本学位论文的部分或全部内容。对于保密论文,按保密的有关规定和程序处理。
髀论文研究的背景随着互联网的快速发展和企业信息化程度的提高,文本信息的快速积累使信息检构等带来巨大的挑战。主要表现在:一方面,互联网和企业信息系统每天都产生大量目前,大多数文本处理研究和软件开发工作使用的是基于倒排或者后缀树的“文维表示,同时这种低维表示可以进一步地揭示出词汇牡之间的语义联系。要。这是因为领域知识表征的多样性缤濉⒔濉⒍嘁宓,使得传统基于词语独立性假设和字面匹配方法的文本信息特征索引、组织、检索、聚类、分类、相似度基于上述背景,本论文将尝试通过领域文本试验,分析潜在语义分析在语义识别本论文的直接研究背景来源于总装部课题“面向领域文本信息处理的潜在语义分析及其应用研究币苍从谖谋拘畔⒋砹煊虻难芯肯肿春痛嬖诘奈侍狻索、内容管理以及信息过滤等变得越来越重要和困难,同时也给企业、政府及科研机文本数据,这些文本资源中包含许多有用信息,有数据表明企业系统中的重要信息%是以文本形式储存;另一方面,基于现有技术从海量、动态、异构的信息资源中获取潜在有价值的信息十分困难。因此,如何处理和利用这些文本型数据至关重要,文本信息处理相关研究应运而生。档词语映射”来建立信息组织模型,例如将文档表示成词语的向量。词语间的独立性假设在这些组织模型中广泛使用。尽管这个假设使得信息检索模型的设计变得简单,但事实上,语言中词语之间的严格独立性显然不成立。针对文本信息处理领域存在的上述问题,本文试图引入潜在语义分析,模型,利用奇异值分解肜肷⒎纸以及非负矩阵分解琋扔镆褰滴椒ù锏叫畔⒐和去除噪声的目的,实现原始“词语一文档矩阵姆纸猓竦迷季卣蟮慕滴逼近阵,从而实现借助牡岛痛视锏母呶硎就队暗降臀那痹谟镆蹇占中,缩小了问题的规模,得到不再稀疏的词汇和文档的低对于特定领域热缒掣隹蒲Ю砺刍蚣际醴椒ㄑ芯苛煊颉⑻囟üこ逃τ昧煊颉⑻定的企业业务领域等奈谋拘畔⒋砝此担鲜鲆庖迳系那痹谟镆宸治鱿缘糜任V计算、关联挖掘等深层处理的效率、精确率和准确率受到极大的限制。因而,
面向领域文本的潜在语义分析研究 来自淘豆网m.daumloan.com转载请标明出处.