下载此文档

R语言的kmeans客户细分模型聚类.doc

文档分类：IT计算机 | 页数：约23页举报非法文档有奖

1/23

下载提示

1.该资料是网友上传的，本站提供全文预览，预览什么样，下载就什么样。
2.下载该文档所得收入归上传者、原创者。
3.下载的文档，不会出现我们的网址水印。

同意并开始全文预览

(约 1-6 秒)

1/23 下载此文档

文档列表 文档介绍

1 / 23
R语言的ｋｍｅａｎs客户细分模型聚类
　来源 | bｏuｒnelｉ（李伯韬)的技术博客

前言

kmeａns是最简单的聚类算法之一，但是运用十分广泛。最近在工作中也经常遇到这个算法。kmeans一般在数据分析前期使用,选取适当的ｋ,将数据分类后,然后分类研究不同聚类下数据的特点。
　
本文记录学习ｋｍeanｓ算法相关的内容,包括算法原理，收敛性，效果评估聚，最后带上R语言的例子,作为备忘。
2 / 23

算法原理
　
ｋｍeans的计算方法如下:
　
１　随机选取k个中心点

2　遍历所有数据，将每个数据划分到最近的中心点中
　
3 / 23
3　计算每个聚类的平均值，并作为新的中心点
　
4　重复2-3,直到这k个中线点不再变化(收敛了),或执行了足够多的迭代
　
时间复杂度:O(I*n＊k*m）

空间复杂度:O(n＊m)

其中m为每个元素字段个数,n为数据量，Ｉ为跌打个数。一般I,ｋ,m均可认为是常量,所以时间和空间复杂度可以简化为O(ｎ),即线性的。

4 / 23
　
　
算法收敛
　

　

也就是当前聚类的均值就是当前方向的最优解(最小值）,这与ｋｍｅanｓ的每一次迭代过程一样。所以,这样保证ＳSＥ每一次迭代时,都会减小,最终使ＳＳＥ收敛。
6 / 23
　
由于SSE是一个非凸函数(ｎｏｎ-cｏnveｘ functｉon),所以ＳSE不能保证找到全局最优解,只能确保局部最优解。但是可以重复执行几次kmｅａｎｓ,选取SSE最小的一次作为最终的聚类结果。

　
　
0-1规格化

由于数据之间量纲的不相同，不方便比较。举个例子,比如游戏用户的在线时长和活跃天数，前者单位是秒,数值一般都是几千，而后者单位是天,数值一般在个位或十位,如果用这两个变量来表征用户的活跃情况，显然活跃天数的作用基本上可以忽略。所以，需要将数据统一放到0～１的范围，将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。具体计算方法如下:
6 / 23
　

　
轮廓系数

轮廓系数(Ｓiｌｈoｕｅtte Cｏeｆficiｅｎt)结合了聚类的凝聚度（Ｃohesion)和分离度（Sepaｒａｔion)，用于评估聚类的效果。该值处于－1~１之间，值越大,表示聚类效果越好。具体计算方法如下：
7 / 23

对于第ｉ个元素x_i，计算ｘ_ｉ与其同一个簇内的所有其他元素距离的平均值,记作a_i,用于量化簇内的凝聚度。

选取x_ｉ外的一个簇b，计算x＿i与b中所有点的平均距离,遍历所有其他簇,找到最近的这个平均距离，记作b＿i,用于量化簇之间分离度。

对于元素x＿i，轮廓系数ｓ_i　= (b_i　– a＿ｉ)/ｍax(a_ｉ，b_i)

计算所有ｘ的轮廓系数,求出平均值即为当前聚类的整体轮廓系数
9 / 23

从上面的公式,不难发现若s＿i小于0，说明ｘ＿ｉ与其簇内元素的平均距离小于最近的其他簇,表示聚类效果不好。如果a_i趋于0,或者b＿i足够大,那么s_ｉ趋近与1,说明聚类效果比较好。
　

K值选取
　
在实际应用中，由于Ｋｍean一般作为数据预处理,或者用于辅助分类贴标签。所以ｋ一般不会设置很大。可以通过枚举,令k从2到一个固定值如１0，在每个ｋ值上重复运行数次kmｅanｓ(避免局部最优解），并计算当前ｋ的平均轮廓系数,最后选取轮廓系数最大的值对应的k作为最终的集群数目。
9 / 23

实际应用

下面通过例子(Ｒ实现,完整代码见附件)讲解kmeａnｓ使用方法,会将上面提到的内容全部串起来
　
1 ｌibrａｒy(fpc）　＃ ("fｐc")

10 / 23
２　dａtａ(ｉris)
　
３　hｅad（ｉriｓ)

加载实验数据ｉｒｉs,这个数据在机器学习领域使用比较频繁，主要是通过画的几个部分的大小，对花的品种分类,实验中需要使用fｐc库估计轮廓系数,。

R语言的kmeans客户细分模型聚类来自淘豆网m.daumloan.com转载请标明出处.

R语言的kmeans客户细分模型聚类.doc

聚类分析kmeans聚类

R语言的kmeans客户细分模型聚类

R语言的kmeans客户细分模型聚类

R语言的kmeans客户细分模型聚类

R语言的kmeans客户细分模型聚类

R语言的kmeans客户细分模型聚类

kmeans聚类算法

R语言的kmeans客户细分模型聚类

r语言地kmeans客户细分模型聚类

聚类分析Kmeans聚类