ponentAnalysis题目:主成分分析PCA预习内容(1)均值的概念和定义,期望用来表示什么?(2)方差的概念和定义,方差用来表示什么?(3)协方差和协方差矩阵的概念和定义,协方差的作用及意义?请大家掌握:方差的数学运算,期望的数学运算,协方差矩阵的数学运算,方阵的特征值与特征向量的求解方法1前言假定你是一个公司的财务经理,掌握了公司的所有数据,比如固定资产、流动资金、每一笔借贷的数额和期限、各种税费、工资支出、原料消耗、产值、利润、折旧、职工人数、职工的分工和教育程度等等。实例1实例2你必须要把各个方面作出高度概括,用一两个指标简单明了地把情况说清楚。(1)如何作主成分分析?当分析中所选择的变量具有不同的量纲,变量水平差异很大,应该怎样选择?在力求数据信息丢失最少的原则下,对高维的变量空间降维,即研究指标体系的少数几个线性组合,并且这几个线性组合所构成的综合指标将尽可能多地保留原来指标变异方面的信息。这些综合指标就称为主成分。要讨论的问题是:(2)如何选择几个主成分。主成分分析的目的是简化变量,一般情况下主成分的个数应该小于原始变量的个数。应该保留几个主成分才能最大化的代表原始信息?6美国的统计学家斯通(Stone)在1947年关于国民经济的研究是一项十分著名的工作。他曾利用美国1929一1938年各年的数据,得到了17个反映国民收入与支出的变量要素,例如雇主补贴、消费资料和生产资料、纯公共支出、净增库存、股息、利息、外贸平衡等等。在进行主成分分析后,%的精度,用三个新变量就取代了原17个变量。实例1:经济分析7实例2:成绩数据100个学生的数学、物理、化学、语文、历史、英语的成绩如下表(部分)。8从本例可能提出的问题目前的问题是,能不能把这个数据的6个变量用一两个综合变量来表示呢?这一两个综合变量包含有多少原来的信息呢?能不能利用找到的综合变量来对学生排序呢?9PCA多变量问题是经常会遇到的。变量太多,,多个变量之间是具有一定的相关关系的。因此,能否在各个变量之间相关关系研究的基础上,用较少的新变量代替原来较多的变量,而且使这些较少的新变量尽可能多地保留原来较多的变量所反映的信息?事实上,
机器学习之降维—pca-lda 来自淘豆网m.daumloan.com转载请标明出处.