上海大学
硕士学位论文
潜在语义分析理论研究及其应用
姓名:陈洁华
申请学位级别:硕士
专业:情报学
指导教师:山石
20050201
要摘随着计算机技术和信息技术的不断发展,尤其是互联网技术的日新月异,使得人们能获得信息成几何级飞速增长。但是面对着这些浩如烟海而又纷繁杂乱的信息资源,依靠人工的分析标引,甚至是单纯的匹配检索技术已经无法满足日益增长的变化的用户需求。从而需要计算机的智能处理技术来提高查找有用信息的效率,其中高效、准确的信息表示方式是各种后续智能处理的重要基础。基于文本关键词的向量空间模型孕畔⒓焖髦械奈谋静捎孟蛄勘硎痉法,为计算机处理文本信息提供了良好的表示方式。但是这种关键词的表示方法是基于词间关系相互独立的假设下,而在现实中往往同义词,近义词大量存在,同时忽视上下语境孤立地看待文本内容,势必影响查询结果的准确性和完整性。本文所论述的潜在语义分析,简称通过数学中的奇异值分解虺芐捶治鑫谋炯懈鞲龃驶之间,各个文本之间,文本与提问式之间的关系,是一种产生关键词一概念镆之间映射规则的方法。衔4视镌谖谋局械氖褂媚J侥诖嬖谧徘痹诘挠镆褰峁梗同义词之间应该具有基本相同语义结构,多义词必定具有不同的语义结构。过提取并量化这些潜在语义结构,进而消除同义词、多义词的影响,提供文本表示的准确性。而随后又出现的曰谄嬉值分解的纸辛送臣蒲Ъù笏迫还兰浦匦陆馐汀最初应用在文本信息检索领域,它有效地解决了同义词、多义词问题,随着应用领域的不断拓展,信息过滤、跨语言检索、认知科学和数据挖掘中的信息理解、判断和预测等众多领域中得到了广泛的应用。本文的创新之处是:采用奇异值分解数学方法对文本集进行潜在语义分析,对上海人学硕士学位论文
关键词:潜在语义分析,潜在语义索引,奇异值分解,空间向量模型文本与提问式,文本与文本,词汇与词汇之间进行比较分析,用妒晕谋炯滴程度进行度量,并尝试对潜在语义分析降维后的文本和词汇进行聚类分析。上海大学硕宦畚
琣,琣,琣籺.、Ⅳ琲疭甌甌琤琾——瓵瑃.,。汉4笱禝‘学位论文’
—..,上海大学硕士学位论文
签名:——导师签名:厶毽日期:原创性声明本论文使用授权说明本人声明:所呈交的论文是本人在导师指导下进行的研究工作。除了文中特别加以标注和致谢的地方外,论文中不包含其他人已发表或撰写过的研究成果。参与同一工作的其他同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。本人完全了解上海大学有关保留、使用学位论文的规定,即:学校有权保留论文及送交论文复印件,允许论文被查阅和借阅:学校可以公C艿穆畚脑诮饷芎笥ψ袷卮斯娑签名:日期布论文的全部或部分内容。
第一章绪论潜在语义分析樯虺芐约焖鞔室晃募卣蠼抵龋梢匀サ艟卣蟊硎镜氖菘庵图书馆里工作人员要把大量的图书和杂志进行分类,以便读者能够检索到所需要的资料;大型的学术会议上,组委会要对收到的论文组织分组,即阅读论文的摘要将相关的论文分成一组;互连网上每天要有几亿个网页要更新,等等。所有这些都涉及到对文件的检索和组织问题,而如此大量的工作利用手工是非常困难的。目前,大多数信息检索虺艻方法依据关键词匹配,即检索到的有关信息与使用者的信息需求檠具有共同使用的词,但是,由于多词一意宕的大量存在,使用者的查询可能不与相关文件匹配:另外,许多词具有~词多意嘁宕,因此使用者的查询又可能与不相关的文件匹配。即存在着多义、同义等现象。而英文等语言亦存在着词形变化,如不规则的单复数变化,此时若只依据几个制定的关键词进行检索就可能出现漏检。因此,往往在文献检索时必须考虑词的两两之间的语义关联。潜在语义分析,简称,又可以称为潜在语义索,简称是一种将检索词和文件表示成矩阵莆<索词一文件矩阵南蛄靠瘴誓P停揭杂镆逦;〉募焖鳎侵副患焖鞯降挠泄信息与使用者的查询不一定具有共同使用的词汇,通过奇异值分解的无关信息和噪声。利用椒ǹ梢缘贸隽礁龃驶阄视镆逑嘟词顾谴用挥在问一篇文章中共同出现:同样的,两篇文章可以被认为是语义相近的,即使它们中没一个词是一样的。潜在语义索引方法通过对大规模文档集中索引项进行信息的统计分析,利用词引搜О覫‘学位论文
潜在语义分析产生的背景汇一文档矩阵创建一个信息的多维语义空间,从而揭示文档集中词汇与词汇之问、词汇与文档之间存在的潜在语义关系。通过对索引项文档矩阵进行奇异值分解,生成一个只包含有若灰蜃拥慕抵瓤占洌每浙杂朐嫉乃饕钗牡稻卣笏逑值奶征信息保持一致,它同时还可以体现出整个文档集的语义结构,反映文档集中词汇信息的主要相关模式,从而剔除了其中因具体用词变化不定而带来的词汇噪声信息。用潜在语义索引方法进行信息检索或过滤不是基于文档集中表层的词汇信息,而是其潜在语义结构,其性能比关键词匹配方法要高出许多。词汇间同义性引起的弊端
潜在语义分析理论研究及其应用 来自淘豆网m.daumloan.com转载请标明出处.