摘要面对大规模的、高维的文本数据,如何建立有效的、可扩展的文本聚类算法是数据挖掘领域的研究热点。针对这些问题,本文对文本聚类分析所涉及的若干问题进行了较深入的研究,主要包括如下几个方面:提出了一种基于投影寻踪的文本聚类新算法,该方法利用遗传算法寻找最优投影方向,将文本特征空间投影到一维空间上,从而以直观的方式显示出数据的结构特征,实现文本聚类分析的可视化。针对文本特征向量维数高和确椒ㄐ枰Tは热范ň劾嗍奈侍狻L出了基于癗的文本聚类算法,先运用确椒ǘ文本特征矩阵进行降维处理,再运用算法进行文本聚类,这些新方法不仅可以有效地降维,还可克服确椒ㄐ枰Tは热范ň劾嗍睦选基于向量空间模型,提出了一种基于双词关联的文本特征选择新模型,这种模型在向量空间模型的基础上,增加了文本的双词关联信息,使得向量空间模型中所包含的文本特征信息更加丰富、更加准确,结合隐含语义分析方法降维后,不仅有效地降低了维数,还进一步减少噪声凸现文本的语义特征,从而提高文本挖掘的质量。基于文档标引图特征模型,提出了一种新的基于短语的相似度计算方法,并采用变换函数对文档相似度值进行调整以使其获得了更好的可区分特性,从而更加有利于文本的聚类分析、分类等处理。将基于后缀树的聚类方法用于中文文本聚类中,这种方法将文本看成是一些短语的集合,通过后缀表达文本的相似关系,实现文本聚类。这种方法可以解决多主题的文本聚类问题,并克服了扔簿劾嗨惴ń谋狙细窕掷问题,实现文本的软聚类。关键词:文本挖掘;文本聚类;特征表示;特征降维:竞争学习
曲瓹琾珻琑琣,,.,.,..—.—,.,,..·
;篢;籆
玩侈欠学位论文作者签名:南焱签字日期:少辍卧卵枞独创性声明学位论文版权使用授权书乞稚她签字日期:乙帅闕乙月泊发表或撰写过的研究成果,也不包含为获得墨鲞盘堂或其他教育机构的学本学位论文作者完全了解丞凄盘鲎有关保留、使用学位论文的规定。特授权墨连盘鲎可以将学位论文的全部或部分内容编入有关数据库进行检本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已签字日期:乞的易年谠隆日索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。在论文中作了明确的说明并表示了谢意。C艿难宦畚脑诮饷芎笫视帽臼谌ㄋ得学位论文作者签名:导师签名:’
第一章绪论弟一早本文选题背景与研究意义本章首先介绍本文选题背景和研究意义,然后重点阐述数据挖掘、文本挖掘尤其是文本特征表示、特征降维和文本聚类的基本概念、方法、技术、研究现状以及存在的问题,最后综述本文的主要研究工作和创新点。从数据库中发现知识,始于二十世纪八十年代,窃月在美国底特律市召开的第一届恃术会议上正式形成的。刚开始每两年召开一次国际趸嵋椋旰每年召开~次,规模也由原来专题讨论会发展到国际学术大会【年在加拿大召开了第一届知识发现与数据挖掘国际学术会议,由于把数据库中的数据形象地比喻成矿床,“数据挖掘’’一词很快流传开来。国外在数据挖掘方面的研究论文已经非常多,已形成了热门研究方向。国内对数据挖掘与知识发现的研究稍晚,年国家自然科学基金首次支持对该领域的研究项目。近年来,国内的许多科研单位和高等院校竞相开展数据挖掘的基础理论及其应用研究,涉及数据挖掘的各个不同研究领域和内容,并取得了很多有价值的成果。目前数据挖掘与知识发现的主要研究内容包括:基础理论、挖掘算法、数据仓库、可视化技术、定性定量互换模型、知识表示方法、发现知识的维护和再利用、半结构化和非结构化数据中的知识发现以及莺臀谋臼萃诰笙随着互联网技术的飞速发展,莺臀谋臼菥缭觥N谋就诰蚓褪且文本数据作为挖掘对象进行的数据挖掘。文本数据往往是以半结构化或非结构化的形式存在,不同于关系数据库的结构化形式,有其不同的特性,因而,造寸三百下匕
,在挖掘方法上往往需要采用不同的手段。文本挖掘已经成为数据挖掘中一个最为重要和繁荣的子领域。聚类分析作为数据挖掘的一个重要功能,在文本挖掘中有着非常重要的作用,被广泛地应用于文本挖掘和信息检索等领域中,可以用来改进信息检索系统的查准率和查全率,也可用于查找最接近的文本,还可用于对系奈谋进行分层次的聚类【康取N谋揪劾喾治鲆丫晌J萃诰蛄煊蛑幸桓龇浅;钤的研究课题【凇鉴于以上认识,在国家自然科学基金的资助下,本文针对数据挖掘中的文本聚类分析的若干问题进行了研究,为构建高效的文本聚类算法做出了自己的努歹,。.数据挖掘的概念数据挖掘就是从大量的数据中提取或“挖掘J丁R恢止鄣闳衔J萃掘就是耐宕剩欢硪恢止鄣闳衔J萃诰蛑皇荎过程中的一个基本步骤【,本
文本聚类分析若干问题的研究(可复制毕业论文) 来自淘豆网m.daumloan.com转载请标明出处.