KNN算法总结计划.docxKNN算法总结计划
KNN算法总结计划
1 / 14
KNN算法总结计划
KNN 分类算法
简述
K 近来邻 (k-Nearest Neighbor ,KNN)分类算法,是一个理论上比较成熟的
方法,也是最简单的机器学习算法之一。 该方法的思路是: 假如一个样本在特色
空间中的 k 个最相像 ( 即特色空间中最周边 ) 的样本中的大多半属于某一个类型,
则该样本也属于这个类型。 KNN算法中,所选择的街坊都是已经正确分类的对象。
该方法在定类决议上只依照最周边的一个或许几个样本的类型来决定待分样本
所属的类型 [1] 。KNN方法固然从原理上也依靠于极限制理,但在类型决议时,只
与很少许的相邻样本有关。 因为 KNN方法主要靠四周有限的周边的样本, 而不是
靠鉴别类域的方法来确立所属类其余, 所以关于类域的交错或重叠许多的待分样
本集来说, KNN方法较其余方法更加适合。
KNN最周边规则,主要应用领域是对未知事物的辨别,即判断未知事物属于
哪一类,判断思想是, 鉴于欧几里得定理, 判断未知事物的特色和哪一类已知事
物的的特色最凑近。
KNN 原理
近来邻方法 (k-nearest neighbor, 简称 kNN)是一种简短而有效的非参数分类
方法,是最简单的机器学习算法之一,该算法最先由 Cover 和 Hart 提出的,用
于解决文本的分类问题。
K 近邻算法是近来邻算法的一个推行。该规则将是一个测试数据点 x 分类为与它最凑近的 K 个近邻中出现最多的那个类型。 K 近邻算法从测试样本点 x 开始生长,不停的扩大地区,直到包括进 K 个训练样本点为止,并且把测试样本点 x 归为这近来的 K 个训练样本点中出现频次最大的类型。 此中测试样本与训练样本的相像度一般使用欧式距离丈量。
假如 K 值固定,并且同意训练样本个数趋势于无量大,那么,所有的这 K 个
近邻都将收敛于 x。好像近来邻规则同样, K 个近邻的标志都是随机变量,概率
P(wi |x ),i=1,2, ⋯ ,K 都是相互独立的。假 P(wm|x )是 大的那个后 概率,那么依据 叶斯分 , 取 wm。而近来 以概率 P(wm|x ) 取 。而依据 K 近 , 只有当 K 个近来 中的大多半的 wm,才判断wm。做出 判定的概率
往常 K 越大, wm概率也越大 [2] 。
近 法是有 督学 方法,原理很 ,假 我 有一堆分好 的 本数据,分好 表示每个 本都一个 的已知 , 当来一个 本要我 判
断它的 是,就分 算到每个 本的距离,而后 取离 本近来的前K
个 本的 累 投票,得票数最多的那个 就 本的 。
下边我 用 影的分 来 述 KNN的原理例子( 影分 ) :
影分
中横坐 表示一部 影中的打架 个数, 坐 表示接吻次数。 我 要 中的 号 部 影 行分 ,其余几部 影的 数据和 如表所示:
表
Movie title
# of kicks
#of kisses
Type of movie
California Man
3
104
Romance
He’s Not Really into Dudes
2
100
Romance
Beautiful Woman
1
81
Romance
Kevin Longblade
101
10
Action
Robo Slayer 3000
99
5
Action
Amped II
98
2
Action
?
18
90
Unknown
从表中能够看出有三部 影的 是 Romance,有三部 影的 是 Action, 那如何判断 号表示的 部 影的 ?依据 KNN原理 , 我 需要在 所示的坐 系中 算 号到所有其余 影之 的距离。 算出的欧式距离如表所示:
KNN算法总结计划
KNN算法总结计划
2 / 14
KNN算法总结计划
表
Movie title Distance to movie
“?”
California Man
He’s Not Really into Dudes
Beautiful Woman
KNN算法总结计划 来自淘豆网m.daumloan.com转载请标明出处.