南京理工大学
硕士学位论文
基于SOM算法的中文文本聚类
姓名:陈小丽
申请学位级别:硕士
专业:模式识别与智能系统
指导教师:於东军
20080601
摘要文本挖掘是数据挖掘领域中一个热门的研究方向。在文本挖掘领域中,文本聚类技术有助于缩小数据搜索空间,提高查询精度。作为一种无监督的机器学习方法,文本聚类技术已经成为对文本信息进行有效地组织、摘要和导航的重要手段,为越来越多的研究人员所关注。可以说,文本聚类的研究具有重要的理论意义和实际使用价值。自组织特征映射神经网络诰劾嘤τ弥芯哂凶宰橹成洹⒖墒踊谩⒓扑阈率高、聚类效果好等良好特性。因此,本文将窬缬τ玫街形奈谋揪劾嘀校研究其在文本聚类中的有关特性。取、文本向量表示。在此基础上,本文实现了文本的预处理模型:从已知词汇库中根据词性构造了一个初步的中文停用词表,用来对已分好词的文章进行停用词筛选。在剩下的那些词中,根据词的有效性评价,选取出一定数量的特征词。基于这些特征词,利用向量空间模型衙科N恼卤硎境杉扑慊芄淮淼氖凳蛄俊本文继而研究了对于类别已知的文本,利用绾鸵阎@啾鸨曜⒎椒ǎ迪先验类别知识指导下的文本聚类。针对传统惴ň劾嘈Ч患训那榭觯疚氖褂核惴ń懈慕⑶彝ü笛楸冉狭舜砈算法和核惴ㄔ谖谋揪劾如果文本的类别事先是未知的,单纯使用惴ㄊ俏薹ㄊ迪肿远劾嗟摹R虼耍本文将绾蚄均值聚类算法相结合,研究了类别未知文本的两阶段自动聚类。相比稻劾嗄P停呵罢呔劾嗨俣瓤欤劾嘟峁墒踊茫ň劾嗑ǘ纫览涤诘谝唤段缭谔囟ㄑ盗费炯系难盗沸Ч关键词:聚类,文本聚类,惴ǎ薙算法,本文首先介绍了中文文本聚类中几项预处理关键技术:分词、数据清洗、特征词选中的聚类精度和鲁棒性。硕士论文基于惴ǖ闹形奈谋揪劾
.,猵甅甒——.,.,篎瓵,瑆甋瑆:,硕士论文琾.,甌,簑,.—Ⅱ
研究生签名:二孳单≥。。孵哆辏露呷学位论文使用授权声明声明交并授权其保存、借阅或上网公布本学位论文的全部或部分内容。对本学位论文是我在导师的指导下取得的研究成果,尽我所知,在本学位论文中,除了加以标注和致谢的部分外,不包含其他人已经发表或公布过的研究成果,也不包含我为获得任何教育机构的学位或学历而使用过的材料。与我一同工作的同事对本学位论文做出的贡献均已在论文中作了明确的说明。南京理工大学有权保存本学位论文的电子和纸质文档,可以借阅或上网公布本学位论文的全部或部分内容,可以向有关部门或机构送于保密论文,按保密的有关规定和程序处理。占月日
第滦髀选题背景及意义国内外文本聚类研究现状自古以来,人们在日常的学习、工作和生活之中离不开外界提供的各种信息。随着科技进步,这些信息也以文字、图像、音频、视频等多种形式广泛存在。世纪年代以来,随着蚖技术的飞速发展和普及,信息获取己经从原始的纯手工获取,到通过计算机获取,以及到现在的通过网络进行信息获取。网络的不断发展导致网络数据的规模呈指数级增长,人们渴望在这浩如烟海的网络世界中找到所需信息,进而将信息加工和改造,形成知识。但传统的数据分析工具已不能满足要求,因为传统的数的内在关系和隐含的信息。人们被数据淹没,但对知识又非常贫乏,为了摆脱这种困境,人们迫切需要一种能够发现数据内部之间的、隐含信息的工具,数据挖掘技术应运而生。数据挖掘殖莆J菘庵械闹J斗⑾,褪谴哟罅渴葜谢袢∮行У摹⑿掠钡摹⑶痹谟杏玫摹⒆钪湛衫斫的模式的非平凡过程。简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识。它是一门很广义的交叉学科,汇聚了数据库、人工智能、机器学习、统计学、模式识别、可视化、并行计算和神经网络等不同学科和领域,近年来受到各界的广泛关注。在各种形式的信息中,大部分信息还是以文本形式存在的,所以文本挖掘成为数据挖掘中很重聚类是根据数据的不同特征,将其划分为不同的数据类。它的目的是使得属于同一类别的个体之间尽可能相似,而不同类别上的个体间尽可能不同。聚类技术是数据挖掘领域的重要分析手段之一,文本聚类技术是文本挖掘领域的重要研究方向。特别是在谋就诰蛑校芯课谋镜木劾嗉际蹩梢运跣∷阉骺占洌岣卟檠ǘ取N谋揪劾嗉术已经成为对文本信息进行有效地组织、摘要和导航的重要手段,为越来越多的研究人国外对英文文本聚类已经进行了大量的研究,并已将文本聚类应用在文本挖掘和信息检索等领域,典型应用如下:牡稻劾嗫梢宰魑6辔牡底远恼5茸匀挥镅源碛τ玫脑ご聿街琛F渲斜较典型的例子是哥伦比亚大学开发的多文档自动文摘系统将每天发生的重要新闻进行聚类处理,并对同主题文档进行冗余消除、信息融合、文本生据分析工具只能进行一些表层的处理绮檠⒉迦搿⑼臣频,而不能获得数据之间要的一个分支。员所关注。成等处理,从而生成一篇简明扼要的摘要文档。基于惴ǖ闹形奈谋揪劾硕士论文
另外,使用惴ǖ母慕惴āê薙算法改善上述文本聚类的效果,并本文工作及结构安排出了一
基于SOM算法中文文本聚类 来自淘豆网m.daumloan.com转载请标明出处.