本章内容
聚类分析的一般问题
层次聚类
K-Means聚类
聚类分析的一般问题
聚类分析的意义
聚类分析是统计学中研究“物以类聚”问题的多元统计分析方法。
聚类分析是一种建立分类的多元统计分析方法,它能够将一批样本(或变量)数据根据其诸多特征,按照在性质上的亲疏程度(各变量取值上的总体差异程度)在没有先验知识(没有事先指定的分类标准)的情况下进行自动分类,产生多个分类结果。类内部的个体在特征上具有相似性,不同类间个体特征的差异性较大。
2018/11/3
2
第10章 SPSS的聚类分析
例如,学校里有些同学经常在一起,关系比较密切,而他们与另一些同学却很少来往,关系比较疏远。究其原因可能会发现,经常在一起的同学的家庭情况、性格、学习成绩、课余爱好等方面有许多共同之处,而关系比较疏远的同学在这些方面有较大的差异性。为了研究家庭情况、性格、学习成绩、课余爱好等是否会成为划分学生小群体的主要决定因素,可以从有关这些方面的数据入手,进行客观分组,然后比较所得的分组是否与实际相吻合。对学生的客观分组就可采用聚类分析方法。
2018/11/3
3
第10章 SPSS的聚类分析
聚类分析中,个体之间的“亲疏程度”是极为重要的,它将直接影响最终的聚类结果。对“亲疏”程度的测度一般有两个角度:第一,个体间的相似程度;第二,个体间的差异程度。衡量个体间的相似程度通常可采用简单相关系数等,个体间的差异程度通常通过某种距离来测度。
为定义个体间的距离应先将每个样本数据看成k维空间的一个点,通常,点与点之间的距离越小,意味着他们越“亲密”,越有可能聚成一类,点与点之间的距离越大,意味着他们越“疏远”,越有可能分别属于不同的类。
聚类分析中“亲疏程度”的度量方法
2018/11/3
4
第10章 SPSS的聚类分析
例:下表是同一批客户对经常光顾的五座商场在购物环境和服务质量两方面的平均得分,现希望根据这批数据将五座商场分类。
2018/11/3
5
第10章 SPSS的聚类分析
欧式距离(Euclidean distance)
平方欧式距离(Squared Euclidean distance )
切比雪夫(Chebychev)距离
Block距离
1、定距型变量个体间距离的计算方式
2018/11/3
6
第10章 SPSS的聚类分析
2、计数变量个体间距离的计算方式
卡方(Chi-Square measure)距离
Phi方(Phi-Square measure)距离
姓名
选修课门数
(期望频数)
专业课门数
(期望频数)
得优门数
(期望频数)
合计
张三
9()
6(6)
4()
19
李四
8()
6(6)
5()
19
合计
17
12
9
38
2018/11/3
7
第10章 SPSS的聚类分析
3、二值(Binary)变量个体间距离的计算方式
简单匹配系数(Simple Matching)
雅科比系数(ard)
个体j
个体i
1 0
1 a b
0 c d
a为个体i与个体j在所有变量上同时取1的个数;d为同时取0的个数
特点:排除同时拥有或同时不拥有某特征的情况;取0和1地位等价,编码方案的变化不会引起系数的变化。
2018/11/3
8
第10章 SPSS的聚类分析
姓名授课方式上机时间选某门课程
张三 1 1 1
李四 1 1 0
王五 0 0 1
(张三,李四):a=2 b=1 c=0 d=0 d(x,y)=1/(1+2)=1/3
(张三,王五):a=1 b=2 c=0 d=0 d(x,y)=2/(1+2)=2/3
张三距李四近
2018/11/3
9
第10章 SPSS的聚类分析
品质型个体间的距离
根据临床表现研究病人是否有类似的病
姓名性别发烧咳嗽检查1 检查2 检查3 检查4
张三男 1 0 1 0 0 0
李四女 1 0 1 0 1 0
王五男 1 1 0 0 0 0
……..
2018/11/3
10
第10章 SPSS的聚类分析
SPSS的聚类分析 来自淘豆网m.daumloan.com转载请标明出处.