1、主成分分析的概念及基本思想
主成分分析(Principle Component Analysis, PCA)是最为常用的特征提取方法,被
广泛应用到各领域,如图像处理、综合评价、语音识别、故障诊断等。它通过对原
始数据的加工处理,分散的点大致形成为一个椭圆,若在椭圆长轴方 向取坐标轴Fi,在短轴方向聚F2,这相当于在平面上作一个坐标变换,即按逆时针 方向旋转8角度,根据旋转轴变换公式新老坐标之间有关系:
Fi = Xi cos日 + X2sin9
、F2 = -Xi sin9 + X2 cos9
矩阵表示为:
Ficos"sin" Xi
I =|I I = U • X
I2 一「sine cos i-X2」
显然UT=U-i且是正交矩阵,即UTU=I。
从上图还容易看出二维平面上的n个点的波动(可用方差表示)大部分可以归结 为在Fi轴上的波动,而在F2轴上的波动是较小的。如果上图的椭圆是相当扁平的, 那么我们可以只考虑Fi方向上的波动,忽略F2方向的波动。这样一来,二维可以 降为一维了,只取第一个综合变量
Fi即可。而Fi是椭圆的长轴。一般情况,p个 变量组成p维空间,n个样品就是p维空间的n个点,对p元正态分布变量来说, 找主成分的问题就是找P维空间中椭球体的主轴问题。
3、主成分分析的推导
在下面推导过程中,要用到线性代数中的两个定理:
定理一 若A是p*p阶实对称阵,则一定可以找到正交阵 U使
「% 0 IH 01
U,AU = °12 " 0.,其中瓦…,灰是A的特征根。 + +■
* iF
0 0山%.
定理二 若上述矩阵A的特征根所对应的单位特征向量为 ui, U2,…,Up令 Uii Ui2 IH Uip
u . .U2i U22 1H U2p
U =(Ui,U2,lll,Up)=...
i 1 ,,j
U pi U p2 III U pp _
则实对称A属于不同特征根所对应的特征向量是正交的,即
Ui Uj = 0= UU T = UTU = I
设 F =aiXi +22*2+惘+apXp =aTX ,其中 a=(ai,%,…,ap)T, X=(X i, X2,…, Xp)T,求主成分就是寻找X的线性函数aTX使相应得方差尽可能地大,即使
Var(F) = Var(aTX)= aTz a
达到最大值,且aTa=i 0
设协方差矩阵三的特征根为 Ai,九2,…, 汨 不妨假设Q2九2之…次p>0,相 应的单位特征向量为Ui, U2,…,Up。令
u11
U = (u1,u2 J I I,up )=
u21
u21
u12 III ulp I
u22 HI u2p
: :
* *
u22 HI u2p
由前面线性代数定理可知:UTU=UUT=I,且
p
2 u u u i i i
i"
10110
02 川 U0
* ♦ *
I・・山・I
_0011p
p
T T T
a 二a 八 ia uiui a
i 1
因此
pp
八i(aTui)(aTui)T =xNaTui)2
i 1i 1
所以
p
a : a (auj = ,1(aU)(aU) = ,〔aUU a='iaa='i i =1
而且,
主成分分析的概念及基本思想主成分分析 来自淘豆网m.daumloan.com转载请标明出处.