It is applicable to work report, lecture and teaching
spss聚类分析结果(jiē guǒ)解释
第一页,共77页。
聚类分析
根据事物本身的特性研究个体分uster:然后进行聚类分析
两种统计图:树形图(Dendrogram)和冰柱图(Icicle)
各类型数据的标准化、距离和相似性计算P348-354
定距变量、分类变量、二值变量
标准化方法p353:Z Scores、Range -1 to 1、 Range 0 to 1等
第八页,共77页。
用分层聚类法进行(jìnxíng)观测量聚类实例P358
对20种啤酒进行分类(data14-02),变量包括:Beername(啤酒名称)、calorie(热量)、sodium(钠含量)、alcohol(酒精含量)、 cost(价格)
Analyze→Classify →Hierarchical Cluster:
Variables: calorie,sodium,alcohol, cost 成分和价格
Label Case By: Beername
Cluster:Case, Q聚类
Display: 选中Statistics,单击Statistics
Agglomeration Schedule 凝聚状态表
Proximity matrix:距离矩阵
Cluster membership:Single solution:4 显示分为4类时,各观测量所属(suǒshǔ)的类
Method: Cluster (Furthest Neighbor), Measure-Interval (Squared Euclidean distance), Transform Value (Range 0-1/By variable (值-最小值)/极差)
Plots: (Dendrogram) Icicle(Specified range of cluster, Start-1,Stop-4, by-1), Orientation (Vertical纵向作图)
Save: Cluster Membership(Single solution [4])
比较有用的结果:根据需要进行分类,在数据文件中的分类新变量clu4_1等
第九页,共77页。
用分层聚类法进行(jìnxíng)变量聚类
变量聚类,是一种降维的方法,用于在变量众多时寻找有代表性的变量,以便(yǐbiàn)在用少量、有代表性的变量代替大变量集时,损失信息很少。
与进行观测量聚类雷同,不同点在于:
选择Variable而非Case
Save选项失效,不建立的新变量
第十页,共77页。
变量(biànliàng)聚类实例1 P366
上面啤酒分类问题data14-02。
Analyze→Classify →Hierarchical Cluster:
Variables: calorie,sodium,alcohol, cost 成分和价格
Cluster:Variable, R聚类
Method:
Cluster Method :Furthest Neighbor
Measure-Interval:Pearson Correlation
Transform Values:Z Score (By Variable)
Plots: Dendrogram 树型图
Statistics:Proximity matrix:相关矩阵
比较有用的结果:根据相关矩阵和树型图,可知calorie(热量)和alcohol(酒精含量)的相关系数最大,首先聚为一类。从整体上看,聚为三类是比较好的结果。至于热量和酒精含量选择(xuǎnzé)哪个作为典型指标代替原来的两个变量,可以根据专业知识或测度的难易程度决定。
第十一页,共77页。
变量(biànliàng)聚类实例2 P368
有10个测试项目,分别用变量X1-X10表示,50名学生参加测试。想从10个变量中选择几个典型指标(zhǐbiāo)。data14-03
Analyze→Classify →Hierarchical Cluster:
Variables: X1-X10
Cluster:Variable, R聚类
Method:
Cluster Method :Furthest Neighbor
Measure-Interval:Pearson Correlation
Plots: Dendrogram 树型图
Statistics:Proximity matrix相关矩阵
比较有用的结果:可以从树型图中看出聚类过程。具体
spss聚类分析结果解释 来自淘豆网m.daumloan.com转载请标明出处.