第五章第五章主成分分析主成分分析(ponent analysis) (ponent analysis) ?主成分分析?主成分回归本章内容问题来源在处理多变量问题时,由于变量太多, 变量之间往往存在着一定的相关性,。。。一种解决的思想: 降低变量个数,即用少数综合变量代替原来变量的信息,综合变量之间互不相关。将多个指标化为少数互相无关的综合指标的统计方法叫做主成分分析或者主分量分析. §1 主成分分析一什么是主成分分析?是将原来 p个指标线性组合,作为新的综合指标,分别记为 F 1 ,F 2,…,而这些新的线性组合必须满足: ?F 1尽可能的反映原来指标的信息(经典的方法是用方差来表达信息,即选取使 var(F 1)最大的线性组合) 称F 1为第一主成分.?如果 F 1不足以代表原来 p个指标的信息,再选取第二个线性组合即 F 2,同时要求 F 1已包含的信息不需要再出现在 F 2中(数学上表示为 cov(F 1 , F 2 )=0 ). 称F 2为第二主成分. 二二基本思想基本思想依次类推,可构造出第三,第四个主成分……. 三数学模型数学上的处理: 将原来 p个指标看作 p个随机变量:记 X 1,X 2,…,X p. 再寻求这 p个变量的线性组合 F 1,F 2,…F k(k≤p) ppp ppp pp ppXuXuXuF XuXuXuF XuXuXuF????????????????? 2211 2222 112 2 1221 1 11 1 满足 2 2 2 1 2 1, 1, 2, , i i pi u u u i p ? ????? ? pjijiFF Cov ji, , , , , , ) , (? 210???)()( 21pF Var F Var F Var ????) ( 2. 主成分之间互不相关,即无重叠的信息。即 1. 主成分的方差依次递减,重要性依次递减,即 3. 每个主成分的系数平方和为 1。即四几何解释 P个变量的线性组合从几何上看是把由 X1 ,…, Xp 构成的坐标系经旋转产生的新坐标系,而新坐标轴的方向具有最大的方差. 举例说明: P=2 , x l和x 2所确定的二维平面中, n个样本点的散布情况如椭圆状(见图) .由图可以看出 n个样本点无论是沿着 x l轴方向或 x 2轴方向都具有较大的离散性,其离散的程度可以分别用观测变量 x l的方差和 x 2的方差表示。如果只考虑 x l和x 2中的任何一个,那么包含在原始数据中的经济信息将会有较大的损失。 xU ?????????????????????? 2 1 2 1 cos sin sin cos x xy y????正交矩阵,即有为旋转变换矩阵,它是 U ?IUUUU?????, 1???????????? cos sin sin cos 211 211xxy xxy 如果取椭圆长轴和短轴方向取为 Fl和 F2 ,即相当于平面上的坐标变换:即将 xl 轴和 x2 轴先平移,再按逆时针方向旋转?角度,则新老坐标有以下关系: 从图上可看出: ?n个样本点的波动大部分可以归结为在 F l方向上的波动, 即F l的方差最大。?变量 F l代表了原始数据的绝大部分信息, F 2方向的波动不大.?F l,F 2具有不相关的性质.?如果椭圆是相当扁平的( x 1,x 2相关性越强),可以只考虑 F l方向上的波动, F 2可以忽略不计.
主成分分析ppt 来自淘豆网m.daumloan.com转载请标明出处.