第10章聚类分析
目录
聚类分析简介
个案间的距离
定距数据(Scale Mearsurement)距离定义方式
分类数据的频数数据(Count)
二分类数据
类之间的距离
系统聚类算法过程
系统聚类案例
K-均值聚类
K-均值法简介
K-均值法案例
两步法聚类
两步法简介
两步法案例分析
聚类分析注意事项
本章学习目标
理解聚类分析的基本概念;
了解个案之间距离的定义方式;
了解类之间距离的定义方式;
掌握系统聚类方法;
掌握两步法聚类方法;
掌握K均值聚类方法。
聚类分析简介
根据对象的某些属性把它们分到一些组中,使得同组内的对象尽可能地相似,不同组中的对象尽可能地不一样,即所谓的聚类分析。
聚类分析方法被称为“无监督的分析方法”,意即没有因变量。而另外一种分类的方法是判别分析,它是把样本归入到已知的事先已经确定下来的类中去, 它有因变量(即事先确定的类别),是“有监督的分析方法”。
聚类分析不必事先知道分类对象的结构,从一批样品的多个观测指标中,找出能度量样品之间或指标(变量)之间相似程度或亲疏关系的统计量,构成一个对称相似性矩阵,并按相似程度的大小,把样品或变量逐一归类。
根据对样品聚类还是对变量聚类,聚类分析分Q型聚类和R型聚类。对变量的聚类称为R型聚类,而对样品(即观测值)聚类称为Q型聚类。通俗讲,R型聚类是对数据中的列分类,Q型聚类是对数据中的行分类。
SPSS Statistics提供了3种聚类方法,它们是系统聚类法(又称层次聚类)、K-均值聚类(又称快速聚类法)和两步法聚类。
个案间的距离
定距数据距离定义方式
欧式(Euclidean)距离
平方欧式距离
余弦距离
皮尔逊(Pearson)相关性距离
切比雪夫(Chebychev)距离
块(Block)距离
闵考斯基(Minkowski)距离
幂(Power)距离
分类数据之间的距离
卡方度量
Phi方度量
类之间的距离
SPSS提供了7种计算两个类距离的方法。
组间连接法(Between-groups Linkage)
组内连接法(Within-Groups Linkage)
最近邻元素法(Nearest Neighbor)
最长距离法(Furthest Neighbor)
质心聚类法(Centroid Clustering)
中位数聚类法(Median Clustering)
离差平方和法(Ward’s Method)
SPSS数据分析教程聚类分析 来自淘豆网m.daumloan.com转载请标明出处.