主成分分析§:在对某一事物进行实证分析研究中,为了更全面准确反映出事物的特征及其发展规律,往往考虑与其有关系的多个指标,因此会产生的问题:(1)为避免漏掉重要信息而考虑尽量多的指标(2)随着考虑指标的增多增加了问题的复杂性,并且多指标之间不可避免会造成信息的大量重叠(相关性),这种重叠有时甚至会掩盖事物的真正特征与内在规律。目的:§(ponentAnalysis,PCA)也称为主分量分析,是一种数据降维技术,主成分分析正是研究如何将多个具有较强相关性指标化为少数几个综合指标来解释原来变量绝大多数信息的一种多元统计方法。把转化生成的综合指标称之为主成分。§:某厂商要做一件上衣,需要测量很多尺寸,如身长,体重,袖长,胸围,腰围,肩宽,肩厚等十几项指标将多种指标综合成几个少数的综合指标,作为分类的型号,可综合成3项指标:一项反映长度的指标,一项反映胖瘦的指标,一项反映特体的指标。例2:医学研究中常常需要对患者的健康状况等进行评价,而这类评价要求内容全面,多个测量指标,最后产出综合评价结果。将多个指标进行综合总会面临以下问题:,不能直接相加;,直接相加产生信息重叠;。主成分分析的基本思想:设法将用原来众多具有一定相关性的指标(比如p个)重新组合成一组新的相互无关的综合指标来代替原来指标,同时根据实际需要,从中取几个较少的综合指标(主成分)尽可能多地反映原来指标的信息。§:通常数学上的处理:新的综合指标是原来p个指标的线性组合。指标“信息量”的表达用方差来表示,方差越大,表示该指标包含的信息越多。因此,在所有的线性组合中选取方差最大的F1作为第一主成分,将方差次大的F2作为第二主成分,且要求Cov(F1,)=0,保证F1中的信息不出现在F2中,以此类推,构造第三、第四,…第p主成分。§§,挑选前几个最大的主成分代替原来的指标信息,虽然会损失一部分信息,但是由于我们抓住了主要矛盾,在实际问题的研究中得益比损失大,这种既减少了变量的数目又抓住了主要矛盾的做法有利于问题的分析和处理。原始指标的线性组合综合指标间不相关,且方差递减第一主成分,第二主成分,…第p主成分选取前几个最大的主成分代替原来指标的信息尽可能多地找出相关指标作为原始指标主成分分析流程图:§
主成分分析课件 来自淘豆网m.daumloan.com转载请标明出处.