线性判别分析(LDA)与主成分分析(PCA)
重庆大学 余俊良
第一部分线性判别分析(LDA)
介绍
线性判别分析(Linear Discriminant Analysis, LDA),也叫做Fisher线性判别(Fisher Linear Discriminant ,FLD),是模式识别的经典算法,1936年由Ronald Fisher首次提出,并在1996年由Belhumeur引入模式识别和人工智能领域。
例子
举一个例子,假设我们对一张100*100像素的图片做人脸识别,每个像素是一个特征,那么会有10000个特征,而对应的类别标签y仅仅是0,1值,1代表是人脸。这么多特征不仅训练复杂,而且不必要特征对结果会带来不可预知的影响,但我们想得到降维后的一些最佳特征(与y关系最密切的),怎么办呢?
基本思想
线性判别分析的基本思想是将高维的模式样本投影到最佳鉴别矢量空间,以达到抽取分类信息和压缩特征空间维数的效果。投影后保证模式样本在新的子空间有最大的类间距离和最小的类内距离,即模式在该空间中有最佳的可分离性。因此,它是一种有效的特征抽取方法。使用这种方法能够使投影后模式样本的类间散布矩阵最大,并且同时类内散布矩阵最小。
LDA
要说明白LDA,首先得弄明白线性分类器(Linear Classifier)
:因为LDA是一种线性分类器。对于K-分类的一个分类问题,
会有K个线性函数:
当满足条件:对于所有的j,都有Yk > Yj,的时候,我们就说x
属于类别k。对于每一个分类,都有一个公式去算一个分值,
在所有的公式得到的分值中,找一个最大的,就是所属的分类
。
权向量(weight vector)
法向量(normal vector)
阈值(threshold)
偏置(bias)
LDA
上式实际上就是一种投影,是将一个高维的点投影到一条高维的直线上,LDA的目标是,给出一个标注了类别的数据集,投影到了一条直线之后,能够使得点尽量的按类别区分开,当k=2即二分类问题的时候,如下图所示:
红色的方形的点为0类的原始点、蓝色的方形点为1类的原始点,经过原点的那条线就是投影的直线,从图上可以清楚的看到,红色的点和蓝色的点被原点明显的分开了。下面我来推导一下二分类LDA问题的公式:
LDA
假设用来区分二分类的直线(投影函数)为:
LDA分类的一个目标是使得不同类别之间的距离越远越好,同
一类别之中的距离越近越好,所以我们需要定义几个关键的值:
类别i的原始中心点(均值)为:(Di表示属于类别i的点):
类别i投影后的中心点为:
衡量类别i投影后,类别点之间的分散程度(方差)为:
最终我们可以得到一个下面的公式,表示LDA投影到w后的目标优化函数:
线性判别分析LDA与主成分分析PCA 来自淘豆网m.daumloan.com转载请标明出处.