基于结构相似性的k-modes算法.doc基于结构相似性的k-modes算法
黄苑华谢峰郝志峰蔡瑞初
广东工业大学应用数学学院佛山科技技术学院数学 与大数据学院广东工业大学计算机学院
摘要:
聚类是数据挖掘中重要的技术之一,它是按照相似原则将数据进行分类。然而分 类型数据的聚类是学习算法中重要而又棘于的问题。传统的k-modes算法采用简 单的0-1匹配方法定义两个属性值之间的相异度,没有将整个数据集的分布考 虑进来,导致差异性度量不够准确。针对这个问题,提出基于结构相似性的 k-modes算法。该算法不仅考虑属性值它们本身的异同,而且考虑了它们在其他 屈性下所处的结构。从集群识别和准确率两个方面进行仿真实验,表明慕于结构 相似性的k-modes算法在伸缩性和准确率方面更有效。
关键词:
聚类分析;分类型数据;相异度度量;结构相似性;k-niodeF算法;
作者简介:黄苑华(1989—),女,硕士,研究领域为机器学习、数据挖掘等;
作者简介:谢峰(1990—),男,硕士,CCF会员,研究领域为因果关系、机器 学习等;E-mai 1:******@foxmai 1. com;
作者简介:郝志峰(1968—),男,博士,教授,研究领域为机器学习、数据挖 掘等;
作者简介:蔡瑞初(1983-),男,博士,教授,CCF高级会员,研究领域为因 果关系、机器学习等。
收稿日期:2016-06-12
基金:国家自然科学基金(No. 61472089)
k-modes algorithm based on structural similarity
HUANG Yuanhua XIE Feng HAO Zhifeng CAI Ruichu
School of Applied Mathematics, Guangdong
University of Technology; School of Computer
Science, Guangdong University of Technology;
Abstract:
Clustering is one of the important technology in data mining, which is based on similar principles to classify data. However, categorical data clustering is an important and difficult issue among many learning algorithms. The traditional k-modes algorithm uses a simple 0~l matchi ng met hod to define dissimilarity between two att rib ute values, does not t ake the distribution of the entire data set into account, which results in inaccurate measurement differences. Aiming at this problem, a k-modes algorithm based on structure similarity is proposed. The algorithm not only considers the attribute values of their own similarities and differences, but also considers the structure of them in other attributes. The Simulation resuIts from two aspects of cluster identification and accuracy show that the k-modes algorithm based on strueture similarity is more effective in scalability and accuracy.
Keyword:
cl us ter Email ysis; categori cal data; dissimilarity measure; st rue tu ml sim订arity; k-modes algorithm;
Received: 2016-06-12
1引言
聚类分析是数据挖掘中的一种重要工具,被广泛应用于各种各样的科学领域, 如计算机科学、信息学、生物学、市场管理等等。聚类分析是根据同一个类别的 对象相似度高,不同
基于结构相似性的k-modes算法 来自淘豆网m.daumloan.com转载请标明出处.