聚类分析又称群分析,它是研究分类问题的一种多元统计方法。所谓类,通俗地说,就是指相似元素的集合。那么要将相似元素聚为一类,通常选取元素的许多共同指标,然后通过分析元素的指标值来分辨元素间的差距,从而达到分类的目的。聚类分析可以分为:Q型(样品分类)分类、R型(指标分类)分类。这里介绍的是Q型(样品分类)分类。聚类分析聚类分析前的预处理步骤:1)确定聚类类型:对样品聚类称Q型聚类;对变量聚类称R型聚类。2)数据预处理原因:实际应用所使用的样本资料中,由于不同的变量具有不同的计量单位(或量纲),并且具有不同的数量级,为了使具有不同计量单位和数量级的数据能够放在一起进行比较分析,通常都要对数据进行变换处理。常用方法有:中心化变换;规格化变换(极差正规化);标准化变换;对数变换等3)研究样品之间的关系。通常有两种方法:相似系数。性质相近的相似系数的绝对值越接近于1,彼此不相关的相似系数的绝对值越接近于0。常用相似系数有:夹角余弦;相关系数;指数相似系数;非参数方法灯计算距离。将样品看作P维空间的一点,通过计算不同样品的距离,距离越接近的点归为一类,距离远的点归为不同类。常用距离有:明科夫斯基距离;欧氏距离;绝对值距离;切比雪夫距离;兰氏距离;马氏距离。4)计算距离矩阵或相似性系数矩阵D。聚类分析的一般步骤(Q-型分类)2)由距离矩阵或相似性系数矩阵D,找到当前最小的Dij,并将类Gi、Gj合为一类得到一个新类Gr={Gi、Gj}3)从新计算类间的距离,得到新的矩阵D。4)重复第2步直到全部合为一类。1)每个样本独自成类,进行聚类分析时,由于对类与类之间的距离的定义和理解不同,并类的过程中又会产生不同的聚类方法。常用的系统聚类方法有8种:最短距离法;最长距离法;中间距离法;重心法;类平均法;可变类平均法;可变法;离差平方和法。例:从21个工厂中抽出同类产品,每个产品测两个指标,欲将各厂的质量情况进行分类。工厂指标观测值工厂1234567891011指标**********-4指标265534312103工厂12131415161718192021指标1-2-3-3-5100-1-1-3指标222021-1-2-1-3-5dataex;inputx1x2factory$@@;/*$:表示字符型变量*/cards;/*数据省略*/;luster/*系统聚类*/data=exmethod=pseudoouttree=tree;idfactory;run;proctreedata=treehorizontal;/*水平树*/idfactory;/*工厂为样本*/c表示要计算半偏R2,立方聚类标准统计量,这三个统计量和下面的伪F和伪t2统计量,主要用于检验聚类的效果。当把数据从G+1类合并为G类时,半偏R2统计量说明了本次合并信息的损失程度,统计量大表明损失程度大。R2统计量反映类内离差平方和的大小,c统计量的值大说明聚类的效果好。Pseudo说明要计算伪F和伪t2统计量。一般认为,伪F统计量出现峰值时的所对应的分类是较佳的分类选择。当把数据从G+1类合并为G类时,伪t2统计量的值大,说明不应该合并这两类。ClusterHistory表示聚类的具体过程,NCL表示当前系统存在类的总个数,ClustersJoined表示当前加入的编号,例如NCL等于20时,是类1,2聚为一类,FREQ表示新类的元素个数。SPRSQ表示类与类间最短规格化最短距离,RSQ表示R2统计量,C统计量值。PSF为伪F统计量,PST2为伪t2统计量。Tie表示“节”,是指当前类间最小距离不止一个的时候,此时可以任意选择一对最短距离进行聚类,在计算其他类与新类的距离。统计量的结果可以看出,最大值对应的类数为4。从四类合并为三类时,伪t2统计量显著的增加,伪F统计量下降显著,综合各方面的结果,因此分4类最为合适。
多元统计 来自淘豆网m.daumloan.com转载请标明出处.