形建模方法,提出一个新的文本特征抽取算法一局部鉴别索引文本挖掘中若干关键问题的研究摘要文本挖掘是指从文本数据中获取可理解的、可用的知识的过程,其涉及数据挖掘、模式识别、信息检索、自然语言处理等多个领域的内容。本文针对文本挖掘中的若干关键问题,例如文本分类的特征抽取、聚类分析以及查询扩展等,展开了如下的研究:诩鹩镆宸治龅奈谋咎卣鞒槿 1疚奶岢鲆桓鍪视糜诟维数据的鲁棒线性鉴别模型。该模型采用正则化方法提高传统鉴别分析模型的泛化能力,并引入能量自适应准则自动选择正则化参数,从而避免了复杂的模型参数选择问题。在≈希疚奶岢鲆恢旨鹩镆逄卣鞒槿惴ǎ盟惴ㄔ谖本的潜在语义空间内进行鲁棒鉴别分析,从而抽取出最能体现分类信息的语义特征。文本分类实验表明惴ㄐ阅苡庞诔S玫南咝约别分析算法,并且其性能不受潜在语义空间维度大小的影响,从而验证了穆嘲粜浴诰植考鹚饕奈谋咎卣鞒槿 1疚难芯棵嫦蚍掷嗟牧8盟惴ㄓ媒谕祭疵枋鲇镆蹇占中文本类内的局部邻近结构,同时提出入侵图的概念,并用其自适应地描述不同类别流形在局部区域内的交叠。惴ㄍü蠼夤阋逄征值问题得到一个在增强类内流形结构紧致性的同时减少不同类流形间交叠的最优线性子空间。惴ǔ晒Φ厥褂昧餍窝暗乃枷肜提高文本的类别可分性,文本分类实验结果表明局部鉴别索引算法优于其它基于流形学习的特征抽取算法。谧永嗪喜⒌奈谋揪劾唷U攵源尘劾嗨惴ㄎ薹ǚ⑾指丛文本类别结构的不足,本文提出一个新的自适应子类合并算法。该算法首先将文本集划分成若干个相似粒度的子类,而后根据类中心密度大于类边缘密度的假设将部分子类合并,从而得出聚类结果。在合成数据和文本数据上的聚类实验结果表明惴ǖ木劾嘤行悦飨杂庞谧畲蠓讲罹劾嗨惴ǎ
知识水坝***@pologoogle为您整理
词。而后,本文将统计分析得出的词语相关性与通过知识库——《知同时也避免了基于密度聚类算法的复杂的参数选择过程。诰植恳恢潞腿ň制交偕璧奈谋景爰喽骄劾唷N藜喽降聚类的结果很难与数据的真实类别结构一致。为了解决这一问题,本文提出一种基于局部一致和全局平滑的半监督聚类算法。算法将已知的少量标注信息用一个约束等式表示,将局部一致和全局平滑思想体现在目标函数中,从而将半监督聚类问题转化为一个带约束的二次优化问题,并最终得到一个全局最优的聚类结果。在文本数据上的实验表明当标注数据仅占数据总量的ナ保琇惴ǖ木劾嘤行跃涂杀任藜督聚类算法高%。诤洗视锵喙匦杂胗镆逑嗨贫鹊牟檠┱埂T谖谋炯焖飨低中,查询短小和查询词与索引词不匹配现象会降低系统的检索精度。为了解决这个问题,本文首先提出一种基于全局分析牟檠┱顾惴ā惴ㄍü臣朴锪霞写识缘幕バ息和距离得到索引词间的相关性,从而扩展出与原始查询最为相关的网》得到的语义相似度融合,提出基于相关性和相似度融合睦┱顾惴ǎ佣繁@┱勾不仅与查询相关并且与查询的主旨相近。实验结果表明算法的性能优于局部伪反馈算法,而惴ǖ募焖骶ǘ扔指哂贕惴ā关键词:文本分类特征抽取文本聚类半监督聚类文本检索查询扩展北京邮电人学博上学位论文摘要Ⅱ
知识水坝***@pologoogle为您整理
.甌甌,騈,,,,,琣琣瓵甎瑃.,琩..,,疭北京邮电大学博士学位论文
,:甌簉.:...瑃—●‘一。
%.,,·琿一,.,
本人签名:生№创新性声明:』。兰竺堕:生:兰丝关于论文使用授权的说明成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:本学位论文不属于保密范围,适用本授权书。本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究何贡献均已在论文中作了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切相关责任。日期:研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。本人签名:导师签名:
第一章绪论课题的研究背景机可处理的电子文档。本文的研究对象——“文本”指的是含有纯文本对象的电电子邮件、短信、博客等。当今是一个信息爆炸的时代,文本作为重要的信息载网页数量仍旧相对比例不高【俊4油臣票ǜ嬷械氖堇纯矗」芑チM闲畔⒌息也产生了诸多新的问题。例如,文档冗余严重,这主要是由网页间的不断转载造成的;信息查找困难,由于现有的查找手段较为有限,常无法精确找出淹没在网上黄色有害信息横行等等。这些问题导致了所谓的“信息爆炸但知识相对匮乏
文本挖掘中若干关键问题的研究(可复制论文) 来自淘豆网m.daumloan.com转载请标明出处.