中文摘要关键词:代表点聚类基于密度的聚类文本聚类层次聚类类的性能,使其更加适合数据和文本挖掘技术的要求,具有重要的理论和实践意义。本文对聚类算法中涉及代表点的密度聚类和层次聚类的问题进行了深入研究,提出了基于代表点和密度的聚类方法和基于代表点的文本层次聚类方法,主提出一种新的高效的基于代表点和密度的聚类方法。该方法首先寻找可以反殃数据空间的几何特征的代表点,然后计算每个代表点的密度,再按照本文提出的一种新的距离公式计算每两个代表点之间的距离。距离值最小的两个代表点为邻接代表点,用无向图来描述生成的代表点集,并利用图的广度优先搜索算法将处于同一连通子图中的代表点找出来,从而得到聚类结果。其中新的距离公式考中,从而使聚类结果更加精确。与传统的数据聚类方法相比,该方法无需预先给算法运行效率高,具有近线性时间复杂度,可适用于大规模及高维属性的数据聚划分的方法将数据分成原子簇,然后在数量大为减少的原子簇集—敌凶缘紫大加快了文本聚类的速度,而且能够识别任意形状和大小的类,并过滤噪声数据,更适合于高维文本向量的聚类。聚类是一种有效的数据挖掘和文本挖掘方法。进一步改进聚类算法,提高聚要包括以下两个内容:虑到代表点的密度和它们之间的距离同样重要,故将密度信息加入到距离计算之出类的个数,只需一个密度闽值问柚梅浅<虻デ叶跃劾嘟峁跋旌苄。类问题。提出一种新的文本聚类方法,基于代表点的文本层次聚类方法。该方法采用上的层次聚类得到最终的聚类结果。与传统的文本聚类方法相比,该方法不仅大
知识水坝为您整理
,畇.,..,.
知识水坝为您整理
导师躲磁学位论文作者签名:≥酣获延学位论文作者签名:功碗授签字日期:诳年学位论文版权使用授权书签字日期:》口。日独创性声明签字日期:。口年或撰写过的研究成果,也不包含为获得鑫注盘堂或其他教育机构的学位或证本学位论文作者完全了解盘洼盘茎有关保留、使用学位论文的规定。特授权鑫生盘鲎可以将学位论文的全部或部分内容编入有关数据库进行检向国家有关部门或机构送交论文的复印件和磁盘。∥∥、本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校C艿难宦畚脑诮饷芎笫视帽臼谌ㄋ得导师签名:每
第一章绪论本文的选题背景与研究意义本章首先阐明了本文所选课题的研究背景及其所具有的研究价值,对聚类数据挖掘的基本概念进行了简要介绍,然后着重评述了目前该领域的研究进展,最自被喻为信息时代的世纪年代以来,信息技术已成为最具活力的领域。信息技术的迅猛发展,使人们可以非常方便地获取和存储大量的数据。而对于已获得的数据进行一些表层的处理绮檠⑼臣频,已不能满足需要,因而深入挖掘数据之间的内在关系和隐含的信息,自然成为下一个目标。人们迫切需要~种能够智能地自动地把数据转换成有用信息和知识的技术和工具,这种对强有力数据分析工具的迫切需求使得数据挖掘技术成为了信息技术中的一个前沿的焦点。这是一个基于统计学、模式识别、人工智能、机器学习、数据库技术以及高性能并行计算等领域的交叉新学科,己在经济、商业、金融、天文等行业得到潮”N夜д咴谡飧隽煊蛞惨芽U沽撕芏嘌芯俊聚类分析是数据挖掘领域中最为活跃的研究课题之一。聚类是一种重要的数据分析技术,搜索并识别一个有限的种类集合或簇集合,从而描述数据。聚类分析作为统计学的一个分支,已经被广泛研究了许多年。而且,聚类分析也已经广泛地应用到诸多领域中,包括模式识别、数据分析、图像处理以及市场研究“通过聚类,人们能够识别密集的和稀疏的区域,因而发现全局的分布模式,以及数据属性之间的有趣的相互关系。在商务上,聚类能帮助市场分析人员从客户基本信息库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。在生物学上,聚类能用于推导植物和动物的分类,对基因进行分类,获得对种群中固有结构的认识。聚类在地球观测数据库中相似地区的确定,汽车保险单持有者的分组,及根据房屋的类型、价值和地理位置对一个城市中房屋的分组上也可以发挥作用。作为一个数据挖掘的重要功能,聚类分析能作为一个独立的工具来获得数据的分布情况,观察每个类的特点,集中对特定的某些类作进一步的分析。如对系奈牡到蟹掷啵苑⑾中畔ⅰ4送猓劾喾治鲆部梢宰魑F渌惴如后介绍了本文的主要研究工作和创新点。了成功的应用,在国际上掀起了一股空前的研究热潮此降摹笆萏越
⋯。鉴于以上认识,在国家自然科学基金的资助下,本文对聚数据挖掘概论未知的、具有潜在有用的信息或知识的非平凡过程”。其流程图如图所示。关联分
基于代表点的数据和文本聚类新方法的研究(可复制论文) 来自淘豆网m.daumloan.com转载请标明出处.