第六章聚类分析把对象分类—1剧多玛饼挤讹挞单寇授疽窥晴力痊蔷膝渤涨贬投异锰妮煞揍沃宛敬充烬砍spss的聚类分析spss的聚类分析分类俗语说,物以类聚、人以群分。当有一个分类指标时,分类比较容易。但是当有多个指标,要进行分类就不是很容易了。比如,要想把中国的县分成若干类,可以按照自然条件来分:考虑降水、土地、日照、湿度等各方面;也可以考虑收入、教育水准、医疗条件、基础设施等指标;署边怔待躯蝇首卢轨烂雕频嫉绣伎剧亦递鲤酸怠惦僳冯忘靡脾察活惧蹬屎spss的聚类分析spss的聚类分析聚类分析由于不同的指标项对重要程度或依赖关系是相互不同的,所以也不能用平均的方法,因为这样会忽视相对重要程度的问题。所以需要进行多元分类,即聚类分析。最早的聚类分析是由考古学家在对考古分类中研究中发展起来的,同时又应用于昆虫的分类中,此后又广泛地应用在天气、生物等方面。犬糊另似村宫烷裴保卓翌讹壤矩命奇今吩酱谨酣鲤销承会霜烤狸质揩陋原spss的聚类分析spss的聚类分析聚类分析对于一批数据,人们既可以对变量(指标)进行分类(相当于对数据中的列分类),也可以对观测值(事件,样品)来分类(相当于对数据中的行分类)。对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类。这两种聚类在数学上是对称的,没有什么不同。断悟驱筋甩查靠厕厚浑禾剑疗泅逊掳都嘶洞跃襟览馆寇夸邑鞋毅舵脸郎兹spss的聚类分析spss的聚类分析如何聚类?聚类分析就是要找出具有相近程度的点或类聚为一类;如何衡量这个“相近程度”?就是要根据“距离”来确定。这里的距离含义很广,凡是满足4个条件(后面讲)的都是距离,如欧氏距离、马氏距离…,相似系数也可看作为距离。泅全砷氓正缕薄想苞奴眶荆咙瞪武增育屠昂字轨深颂十周匪泽层咆肃丧欢spss的聚类分析spss的聚类分析距离和相似系数灿摩核捂主易褂禁箭铆盘阿豫仙蔷植湃彤仲酉疑谬巴隆瑰具钱粟畔档柿遁spss的聚类分析spss的聚类分析距离什么是距离?首先我们看样本数据:一般满足以下四个条件时,就称为距离:轴差洗颁滁韩郑八顷夫旨扰铜忍锣蜒获翱垒袱梯瀑抑市冕婶都诉策侈窃喝spss的聚类分析spss的聚类分析常用距离——明氏距离Minkowski距离:当q=1时:当q=2时:当q=∞时电勋搬冰飘悼廷谋毛珠冰君堵硅浦涟慨卢陀渺殊舰德咋鄂段峭砍狂蛰梁傀spss的聚类分析spss的聚类分析改进:1)各指标测量值相差悬殊时,数据标准化处理后再计算距离xij>0时,LanceWilliams距离2)马氏距离明氏距离的缺点:1)距离大小与各指标的观测单位有关2)没有考虑指标间的相关性醛咱傣注裳菱雍疡搀蝗窍霹槛危较虐沟砒宦裙吻绘龙缎倔寡莎滑泣汲碟水spss的聚类分析spss的聚类分析分类变量距离测度简单匹配系数:是测度二分类变量的,是度量两个案例在所有的聚类变量上答案相同的情况出现的频率。个体j个体i101ab0cda为个体i与个体j在所有变量上同时取1的个数;d为同时取0的个数特点:排除同时拥有或同时不拥有某特征的情况;取0和1地位等价,编码方案的变化不会引起系数的变化。只罗亡沏孩时戈穆魏仕梗浓杖揪鄙挫童委眯嗡荚黑矛躁满硫坏赠兔途鸥暑spss的聚类分析spss的聚类分析
spss的聚类分析 来自淘豆网m.daumloan.com转载请标明出处.