下载此文档

聚类分析原理及R语言实现过程.docx


文档分类:IT计算机 | 页数:约3页 举报非法文档有奖
1/3
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/3 下载此文档
文档列表 文档介绍
聚类分析原理及R语言实现过程
聚类分析定义与作用:
是把分类对象按照一定规则分成若干类,这些类不是事先设定的,而是根据数据的特征确 定的。在同一类中这些对象在某种意义上趋向于彼此相似,而在不同类中对象趋向于彼此不相似。 在经济、管理、地聚类分析原理及R语言实现过程
聚类分析定义与作用:
是把分类对象按照一定规则分成若干类,这些类不是事先设定的,而是根据数据的特征确 定的。在同一类中这些对象在某种意义上趋向于彼此相似,而在不同类中对象趋向于彼此不相似。 在经济、管理、地质勘探、天气预报、生物分类、考古学、医学、心理学以及制定国家标准和区 域标准等许多方面应用十分广泛,是国内外较为流行的多变量统计分析方法之一,在机器学习中 扮演重要角色。
聚类分析的类型
是实际问题中,如根据各省主要的经济指标,将全国各省区分成为几个区域等。这个主要 的经济指标是我们用来分类的依据。称为指标(变量),用X1、X2…Xp表示,p是变量的个数。 在聚类分析中,基本的思想是认为所研究的样品或者多个观测指标(变量)之间存在着程度不同的 相似性(亲疏关系)。根据这些相识程度,把样品划分成一个由小到大的分类系统,最后画出一张 聚类图表示样品之间的亲疏关系。根据分类对象的不同,可将聚类分析分为两类,一是对分类处 理,叫Q型;另一种是对变量处理,叫R型。
聚类统计量
聚类分析的基本原则是将有较大相似性的对象归为同一类,可进行聚类的统计量有距离和 相似系数。
聚类分析的方法:
系统聚类法、快速聚类法、模糊聚类法。
系统聚类
常用的有如下六种:
1、最短距离法;2、最长距离法;3、类平均法;4、重心法;5、中间距离法;6、离差平方和法 快速聚类
常见的有K-means聚类。
R语言实现系统聚类和K-means聚类过程详解
系统聚类R语言教程第一步:计算距离
在R语言进行系统聚类时,先计算样本之间的距离,计算之前先对样品进行标准变换。用scale() 函数。
R语言各种距离的计算用dist()函数来实现。具体用法为:
dist(x , method = " euclidean " , diag = FALSE, upper = FALSE, p = 2)
x:为数据矩阵或者数据框。
method:为计算方法,包括"euclidean"欧式距离,"maximum"切比雪夫距离,"manhattan"绝 对值距离,"Canberra"兰氏距离,"minkowski"闵可夫斯基距离,"binary"定型变量的距离。 diag是逻辑变量,当diag = TRUE时,给出对角线上的距离。
upper是逻辑变量,当upper = TRUE时,给出上三角矩阵的值(缺省值仅给出下三角矩阵的值)。
p:为minkowski距离的幂次
第二步:系统聚类
在R语言中用hclust()函数进行系统聚类。hclust具体用法为:
hclust(dist , method)
dist:为第一步计算出来的距离
method:为系统聚类方法,有"single"最短距离法,"complete"最长距离法,"median"中间距离 法,"mcquitty" Mcquitty 相似法,"average"类平均法,"centroid"重心法,"ward"离差平方
和法
第三

聚类分析原理及R语言实现过程 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息