下载此文档

《R语言数据挖掘》第九章-R的特色聚类:揭示数据内在结构.ppt


文档分类:IT计算机 | 页数:约22页 举报非法文档有奖
1/22
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/22 下载此文档
文档列表 文档介绍
第九章
R的特色聚类:揭示数据
内在结构
学习目标
理论方面,理解各种特色聚类方法的特点、核心原理和基本实现思路,掌握不同方法的适用性和应用场景
实践方面,掌握R的各种特色聚类方法的实现、应用以及结果解读,能够正确运用不同聚类方法解决实际应用中的数据全方位自动分组问题
BIRCH聚类概述
BRICH聚类借鉴层次聚类的思路,采用欧氏距离、绝对距离、组间平均链锁法以及类内离差平方变化度量观测与小类、小类与小类的距离,并依距离最近原则指派观测到相应的类中。适合于聚类变量均为数值型的情况。特色:
第一,有效解决了计算资源,尤其是内存空间有限条件下的高维大数据集的聚类问题
第二,能够实现在线数据的动态聚类
第三,以聚类角度进行噪声数据的识别
BIRCH聚类
聚类特征
第j个小类的聚类特征一般由3组数值组成
聚类特征具有可加性
BIRCH聚类
聚类特征树
利用树形结构反映聚类结果的层次关系
聚类特征树的规模取决于两个参数:分支因子B和阈值T
压缩数据存储空间,各个节点仅存储聚类特征
BIRCH聚类
BIRCH聚类过程: 采用逐个随机抽取和处理观测数据的方式,建立聚类特征树
初始化聚类特征树,对每个观测做如下判断处理:
BIRCH聚类
BIRCH认为,包含较多观测的叶节点为大叶节点,对应着一个观测分布的稠密区域。包含较少观测的叶节点为小叶节点,对应着一个观测分布的稀疏区域
当小叶节点包含的观测个数少到一定程度,如观测个数仅为大叶节点个数的很小比例时,小叶节点中的观测即为离群点。可剔除小叶节点后继续建树
BIRCH聚类的R实现
BIRCH聚类的函数
birch(x=矩阵, radius=聚类半径,keeptree=TRUE/FALSE)
(CF对象名)
动态新数据的聚类
(x=新数据集,birchObject=已有的CF对象名)
(birchObject=新CF对象名)
优化聚类解
(CF对象名,center=聚类数目,nstart=1)
(birchObject=CF对象名)
BIRCH聚类的R实现
模拟数据的BIRCH聚类
生成混合高斯分布的随机数
进行BIRCH聚类
将动态新数据添加到聚类特征树中,对比新数据添加前后聚类特征树的变化情况
利用K-Means聚类优化BIRCH聚类结果
利用分层聚类优化BIRCH聚类结果,并与K-Means优化方式进行对比
BIRCH聚类的R实现
BRICH聚类应用:两期岗位培训的比较

《R语言数据挖掘》第九章-R的特色聚类:揭示数据内在结构 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数22
  • 收藏数0 收藏
  • 顶次数0
  • 上传人Q+1243595614
  • 文件大小928 KB
  • 时间2021-07-29
最近更新