聚类分析实验报告
?应用多元统计分析?
课 程 实 验 报 告
实验名称:用聚类分析的方法研究山东省个市的产业类型的差异化
学
,变换后的数据,每个变量样本均值为,标准差为,而且标准化变换后的数据与变量的量纲无关。采用系统聚类的方法,用最长距离法计算欧氏距离,其中表示第i个样品的第t个指标的观测值,表示第j个样品的第t个指标的观测值,为第i个样品与第j个样品之间的欧式距离。假设越小,那么第i与j两个样品之间的性质就越接近。最长距离法求类与类之间的距离,设类和合并后,按照最长距离计算新类与其他类的类间距离,其递推公式为
方法二:用离差平方和法〔WARD〕对样品进行分类
离差平方和法是Ward〔〕提出的,也称为Ward法。它基于方差分析思想,如果类分得正确,那么同类样品之间的离差平方和应当较小,不同类样品之间的离差平方和应当较大。
假定已将n个样品分为k类,记为,,…,,表示类的样品个数,表示的重心,表示中第i个样品〔i=,…,〕,那么中样品的离差平方和为
,
其中,为m维向量,为一数值〔t=,,…,k〕。
k个类的总离差平方和为
.
当k固定时,要选择使到达极小的分类。
Ward法的根本思想是,先将n个样品各自成一类,此时=;然后每次将其中某两类合并为一类,因每缩小一类离差平方和就要增加,每次选择使增加最小的两类进行合并,直至所有样品合并为一类为止。
Ward法把某两类合并后增加的离差平方和看成为类间的平方距离,即令
表示类和的平方距离,其中,,,分别为,,类中样品的离差平方和。利用
的定义,可得
,
.
当样品间距离采用欧氏距离时,上式可表为
,
其中表示的重心与的平方距离:
.
这说明此时Word法定义的类间距离与重心法只相差一个常数倍。
当和合并为后,与其他类的距离有如下递推公式
上述两种方法都是将性质接近的样品划为一类。聚类分析依据的根本原那么是直接比拟样本中各事物之间的性质,将性质相近的归为一类,而将性质相差比拟大的分在不同类。也就是说,同类事物之间性质差异小,类与类之间的性质相差比拟大。
系统聚类分析是聚类分析中应用的最广泛的一种方法。首先将n个样品每个自成一类,然后每次将具有最小距离的两类合并成一类,合并后重新计算类与类之间的距离,这个过程一直持续到所有样品归为一类为止。分类结果可以画成一张直观的聚类谱系图。应用系统聚类法进行聚类分析的步骤如下:
①确定待分类的样品的指标
②收集数据
③对数据进行变换处理
④使各个样品自成一类,即n个样品一共有n类
⑤计算各类之间的距离,得到一个距离对称矩阵,将距离最近的两个类并成一类
⑥并类后,如果类的个数大于,那么重新计算各类之间的距离,继续并类,直至所有样品归为一类为止
⑦最后绘制系统聚类谱系图,按不同的分类标准或不同的分类原那么,得出不同的分类结果。
四、实验数据与实验结果
我们根据年山东统计年鉴的数据,运用SPSS软件进行分析,得到如下实验数据与结果:
,原始数据
表- 山东省城市生产总值原始数据
地区
X
X
X
X
X
X
X
X
济南市
.
青岛市
.
淄博市
.
枣庄市
.
东营市
.
烟台市
.
潍坊市
最新聚类分析实验报告 来自淘豆网m.daumloan.com转载请标明出处.