下载此文档

四大机器学习降维算法:PCA、LDA、LLE、Laplacian Eigenmaps.docx


文档分类:IT计算机 | 页数:约12页 举报非法文档有奖
1/12
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/12 下载此文档
文档列表 文档介绍
机器学习领域中所谓的降维就是指采用某种映射方法,将原高维空间中的数据点 映射到低维度的空间中。降维的本质是学习一个映射函数f : x->y,其中x是原 始数据点的表达,目前最多使用向量表达形式。y是数据点映射后的低维向量 表达,通常y的维度是映射后的 中心用来评估类间距,s (一瓢)就是映射后的点与中心的距离之和用来评估类 内距。J(a)正好就是从上述两个性质演化出来的。
因此两类情况下:
加上a'a=1的条件(类似于PCA)
Two Classes
可以拓展成多类:
x * aTSRa
aTSwa
Multi-classes 丿(a)=
=》Si二》》仪一险)(工一 Hi)r i=l (=1 xGa»i
c
亦星(如一仍(如一“卩
(=1
Ssa = ASra
以上公式推导可以具体参考pattern classification书中的相应章节,讲fisher discirminant 的
OK,计算映射向量a就是求最大特征向量,也可以是前几个最大特征向量组成 矩阵A=[a1,a2,....ak]之后,就可以对新来的点进行降维了: y = A'X (线性的一 个好处就是计算方便!)
可以发现,LDA最后也是转化成为一个求矩阵特征向量的问题,和PCA很像, 事实上很多其他的算法也是归结于这一类,一般称之为谱(spectral)方法。
线性降维算法我想最重要的就是PCA和LDA 了,后面还会介绍一些非线性的方 法。
局部线性嵌入(LLE)
Locally linear embedding (LLE)是一种非线性降维算法,它能够使降维后的数 据较好地保持原有流形结构。LLE可以说是流形学习方法最经典的工作之一。很 多后续的流形学习、降维方法都与LLE有密切联系。
见图1使用LLE将三维数据(b)映射到二维(c)之后,映射后的数据仍能 保持原有的数据流形(红色的点互相接近,蓝色的也互相接近),说明LLE有 效地保持了数据原有的流行结构。
但是LLE在有些情况下也并不适用,如果数据分布在整个封闭的球面上,LLE 则不能将它映射到二维空间,且不能保持原有的数据流形。那么我们在处理数据 中,首先假设数据不是分布在闭合的球面或者椭球面上。
图1 LLE降维算法使用实例
LLE算法认为每一个数据点都可以由其近邻点的线性加权组合构造得到。算法的 主要步骤分为三步:(1)寻找每个样本点的k个近邻点;(2)由每个样本点的近 邻点计算出该样本点的局部重建权值矩阵;(3)由该样本点的局部重建权值矩
阵和其近邻点计算出该样本点的输出值。具体的算法流程如图2所示:
L Cainpnte tEie lieigliboi -s of encli dafa pointf A'f,
2. Compute the iveiEilits 旳 that best recon struct each data point禹 from ks neigli- bflfs, mtnimtring flit- ccsr in Equation (1) by constrained Iln^Ar fits.
3』Compute the lectors B bfst tecon'itiiK^rt by 师比 ivf ights miHimiztiig
rhe qnadi itit fbim ui Equation (2) by fits bottom IIOEIZ^LO fig^inVCtQl 5 ・
图2 LLE算法步骤
歩骤L
算法的第一步思卜離出每个样本点的k个近鄂点。例如采用KNN的策略,护相对于所 来样本点距离(常用欧氐距离)巖诉的匕个样本妙定为所求样本也的个诉一邻点’箕是一 个预先给宦值.
歩骤2;
计媳出样本点的局部還建权龄障昭 首先議义就构溟総
咖)二习忆—£出乙『
减及局部协方差矩阵殆
c厂G-巧)心-瓦)
其中丈表示一个特定的烁 它的的"近邻点用77表示.
于是,冃标函数M
最小化二
耳护卜》図一2;%石
1
其中Sj wj = 1
得到乂
核社:这里可妣接计榇爾* 觀^砸耀爭中皆设用盤据墮构能用I的叔亟*和降
ft^hl中前规驗旅*显共享的【相同的人
将所有的样本点映射到怔维空剑札映財条件満足如下所示:
m尹①(①工『―工严£
上式町以转优为;
吩)吃M氐X)
其中占
M^(l-Wj(l-W)
辑加上限制条件’ S?=8
仲3th ='(单检曲方差)
可以得到般塑解的晟这样一个问邂’ A/y =ay
标准的特征分解问題 即取¥为IV!的就小m个非零特征釧对应前特征向蟄> 在处理 过程中,将慟的特征值从小到大并列,第一个

四大机器学习降维算法:PCA、LDA、LLE、Laplacian Eigenmaps 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数12
  • 收藏数0 收藏
  • 顶次数0
  • 上传人mazhuangzi1
  • 文件大小299 KB
  • 时间2022-05-14
最近更新