A Thesis Submitted in Partial Fulfillment of the Requirements for the Degree of Master of Engineering Research on Mixed Attribute Data Clustering Algorithm Candidate : Yu Yifei Major : Computer Application Technology Supervisor : Xu Haiyin Huazhong University of Science and Technology Wuhan, Hubei 430074, P. R. China January, 2014 万方数据独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名: 日期: 年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索, 可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。保密□, 在年解密后适用本授权书。不保密□。(请在以上方框内打“√”) 学位论文作者签名: 指导教师签名: 日期: 年月日日期: 年月日本论文属于万方数据 I 华中科技大学硕士学位论文摘要聚类分析是数据挖掘研究中的热点,但是传统的方法大多数只适用于静态且单一属性类型的数据聚类。随着网络的迅速发展,对实时产生的流式数据进行聚类分析的需求变得越来越重要。并且现实中的数据大多是同时具有数值属性和分类属性的混合属性数据,而目前对混合属性数据的聚类研究不多,现有的方法也在通用性和准确性上有很大的改进空间。因此,针对混合属性数据的聚类分析研究在数据挖掘领域中具有重大的意义。针对上述问题,首先对现有的聚类算法进行研究,介绍K-prototypes的相关定义和算法描述,分析算法在初始原型选择和K值确定的随机性和相异度计算的不准确性等缺点,为此提出了基于随机分组和基于K近邻的初始原型两种改进方法,以及基于面向维度距离和基于余弦相似度的相异度计算改进方法。然后介绍CluStream算法的双层聚类框架,分析算法的优点和缺点,提出了基于K近邻的在线微聚类改进算法和基于深度遍历的离线宏聚类改进算法,对离线部分的数据进行了标准化预处理,合并宏聚类中相似的类,调整聚类结果。通过测试人造数据和UCI公共数据集,比较聚类过程的迭代次数和聚类结果, 表明改进后的K-prototypes算法比原算法更加稳定,聚类结果也更加准确;而改进后的CluStream算法可以有效地聚类混合属性的流式数据,并且对属性维度的敏感性明显优于原算法。关键词:聚类分析;数据挖掘;混合属性;K-prototypes算法;CluStream算法万方数据 II 华中科技大学硕士学位论文 Abstract Clustering Analysis is an active research branch in data mining, but most of the traditional clustering method is only applicable to clustering for data with static and single the rapid development of network,clustering analysis for real-timedata streams is increasingly ing more and more important. Meanwhile, data from real application always turn out to be mixed attributesdatawhich contains both numeric attributes and categorical attributes. However, the current researchon clustering of mixed attributes data is rare. And the existing methods have much room for
混合属性数据聚类算法的研究 来自淘豆网m.daumloan.com转载请标明出处.