下载此文档

混合属性数据聚类算法的研究.pdf


文档分类:IT计算机 | 页数:约53页 举报非法文档有奖
1/53
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/53 下载此文档
文档列表 文档介绍
A Thesis Submitted in Partial Fulfillment of the Requirements for the Degree of Master of Engineering Research on Mixed Attribute Data Clustering Algorithm Candidate : Yu Yifei Major : Computer Application Technology Supervisor : Xu Haiyin Huazhong University of Science and Technology Wuhan, Hubei 430074, P. R. China January, 2014 万方数据独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名: 日期: 年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索, 可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。保密□, 在年解密后适用本授权书。不保密□。(请在以上方框内打“√”) 学位论文作者签名: 指导教师签名: 日期: 年月日日期: 年月日本论文属于万方数据 I 华中科技大学硕士学位论文摘要聚类分析是数据挖掘研究中的热点,但是传统的方法大多数只适用于静态且单一属性类型的数据聚类。随着网络的迅速发展,对实时产生的流式数据进行聚类分析的需求变得越来越重要。并且现实中的数据大多是同时具有数值属性和分类属性的混合属性数据,而目前对混合属性数据的聚类研究不多,现有的方法也在通用性和准确性上有很大的改进空间。因此,针对混合属性数据的聚类分析研究在数据挖掘领域中具有重大的意义。针对上述问题,首先对现有的聚类算法进行研究,介绍K-prototypes的相关定义和算法描述,分析算法在初始原型选择和K值确定的随机性和相异度计算的不准确性等缺点,为此提出了基于随机分组和基于K近邻的初始原型两种改进方法,以及基于面向维度距离和基于余弦相似度的相异度计算改进方法。然后介绍CluStream算法的双层聚类框架,分析算法的优点和缺点,提出了基于K近邻的在线微聚类改进算法和基于深度遍历的离线宏聚类改进算法,对离线部分的数据进行了标准化预处理,合并宏聚类中相似的类,调整聚类结果。通过测试人造数据和UCI公共数据集,比较聚类过程的迭代次数和聚类结果, 表明改进后的K-prototypes算法比原算法更加稳定,聚类结果也更加准确;而改进后的CluStream算法可以有效地聚类混合属性的流式数据,并且对属性维度的敏感性明显优于原算法。关键词:聚类分析;数据挖掘;混合属性;K-prototypes算法;CluStream算法万方数据 II 华中科技大学硕士学位论文 Abstract Clustering Analysis is an active research branch in data mining, but most of the traditional clustering method is only applicable to clustering for data with static and single the rapid development of network,clustering analysis for real-timedata streams is increasingly ing more and more important. Meanwhile, data from real application always turn out to be mixed attributesdatawhich contains both numeric attributes and categorical attributes. However, the current researchon clustering of mixed attributes data is rare. And the existing methods have much room for

混合属性数据聚类算法的研究 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数53
  • 收藏数0 收藏
  • 顶次数0
  • 上传人tggwft
  • 文件大小1.08 MB
  • 时间2016-08-27