光环大数据--大数据培训&人工智能培训
-
K-Means++算法_光环大数据
一、K-Means 算法存在的问题
由于 K-Means 算法的简单且易于实现,因此 K-Means 算法得到了很多的应用,
但是从 K-Means 算法的过程中发现,K-Means 算法中的聚类中心的个数 k 需要事
先指定,这一点对于一些未知数据存在很大的局限性。其次,在利用 K-Means 算
法进行聚类之前,需要初始化 k 个聚类中心,在上述的 K-Means 算法的过程中,
使用的是在数据集中随机选择最大值和最小值之间的数作为其初始的聚类中心,
但是聚类中心选择不好,对于 K-Means 算法有很大的影响。对于如下的数据集:
如选取的个聚类中心为:
最终的聚类结果为:
为了解决因为初始化的问题带来 K-Means 算法的问题,改进的 K-Means 算法,
即 K-Means++算法被提出,K-Means++算法主要是为了能够在聚类中心的选择过
程中选择较优的聚类中心。
二、K-Means++算法的思路
K-Means++算法在聚类中心的初始化过程中的基本原则是使得初始的聚类中
心之间的相互距离尽可能远,这样可以避免出现上述的问题。K-Means++算法的
初始化过程如下所示:
在数据集中随机选择一个样本点作为第一个初始化的聚类中心
选择出其余的聚类中心:
光环大数据 -
光环大数据--大数据培训&人工智能培训
-
计算样本中的每一个样本点与已经初始化的聚类中心之间的距离,
并选择其中最短的距离,记为 d_i
以概率选择距离最大的样本作为新的聚类中心,重复上述过程,直
到 k 个聚类中心都被确定
对 k 个初始化的聚类中心,利用 K-Means 算法计算最终的聚类中心。
在上述的 K-Means++算法中可知 K-Means++算法与 K-Means 算法最本质的区
别是在 k 个聚类
K-Means++算法-光环大数据 来自淘豆网m.daumloan.com转载请标明出处.