下载此文档

K-Means++算法-光环大数据.pdf


文档分类:IT计算机 | 页数:约5页 举报非法文档有奖
1/5
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/5 下载此文档
文档列表 文档介绍
光环大数据--大数据培训&人工智能培训
-
K-Means++算法_光环大数据
一、K-Means 算法存在的问题

由于 K-Means 算法的简单且易于实现,因此 K-Means 算法得到了很多的应用,
但是从 K-Means 算法的过程中发现,K-Means 算法中的聚类中心的个数 k 需要事
先指定,这一点对于一些未知数据存在很大的局限性。其次,在利用 K-Means 算
法进行聚类之前,需要初始化 k 个聚类中心,在上述的 K-Means 算法的过程中,
使用的是在数据集中随机选择最大值和最小值之间的数作为其初始的聚类中心,
但是聚类中心选择不好,对于 K-Means 算法有很大的影响。对于如下的数据集:

如选取的个聚类中心为:

最终的聚类结果为:

为了解决因为初始化的问题带来 K-Means 算法的问题,改进的 K-Means 算法,
即 K-Means++算法被提出,K-Means++算法主要是为了能够在聚类中心的选择过
程中选择较优的聚类中心。
二、K-Means++算法的思路

K-Means++算法在聚类中心的初始化过程中的基本原则是使得初始的聚类中
心之间的相互距离尽可能远,这样可以避免出现上述的问题。K-Means++算法的
初始化过程如下所示:

在数据集中随机选择一个样本点作为第一个初始化的聚类中心

选择出其余的聚类中心:
光环大数据 -
光环大数据--大数据培训&人工智能培训
-

计算样本中的每一个样本点与已经初始化的聚类中心之间的距离,
并选择其中最短的距离,记为 d_i

以概率选择距离最大的样本作为新的聚类中心,重复上述过程,直
到 k 个聚类中心都被确定

对 k 个初始化的聚类中心,利用 K-Means 算法计算最终的聚类中心。

在上述的 K-Means++算法中可知 K-Means++算法与 K-Means 算法最本质的区
别是在 k 个聚类

K-Means++算法-光环大数据 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数5
  • 收藏数0 收藏
  • 顶次数0
  • 上传人陈潇睡不醒
  • 文件大小282 KB
  • 时间2021-03-23
最近更新