主成分分析
案例分析
数据集Employee data为Midwestern银行1969-1971年之间雇员情况的数据,共包括474条观测及如下10变量:Id(观测号)、Gender(性别)、Bdate(出生日期)、Educ(受教育程度(年数))、Jobcat(工作种类)、Salary(目前年薪)、Salbegin(开始受聘时的年薪)、Jobtime(受雇时间(月))、Prevexp(受雇以前的工作时间)、Minority(是否少数民族)。
下面我们用主成份分析的方法处理该数据,以期用少数变量来描述该地区居民的雇用情况。
具体操作步骤(1)
进入SPSS软件,打开数据Employee .
具体操作步骤(2)
结果的输出(1)
Communalities给出了该分析从每个原始变量中提出的信息,表格下的注释表明给分析是用主成份分析完成的。
可以看出除了受教育程度信息损失较大外,主成分几乎包含了各个原始变量的至少90%的信息。
结果的输出(2)
Total Variance Explained表显示了各个主成分解释原始变量总方差的情况。
SPSS默认保留特征根大于1的主成分。在本例中看到保留了3个主成份为宜,%,可见效果是比较好的。实际上,munalities表中计算得出,即(++++)/5=%.
结果的输出(3)
Component Matrix表中给出了标准化原始变量用求得的主成分线性表示的近似表达式,例如以表中Current Salary一行为例,不妨用prin1,prin2,prin3来表示各个主成分,ponent Matrix表可以得到:
标准化的salary≈++
注解(1)
在上面的主成分分析中,SPSS默认是从相关阵出发求解主成分,且默认保留特征根大于1的主成分。
实际上,对主成分的个数我们可以自己确定,方法为:
注解(2)
在实际进行主成分分析时可以先按照默认设置作一次主成份分析,然后根据输出结果确定应保留的主成份的个数,用该方法进行设定后重新分析。
几个基本的关系(1)
由Component Matrix中的结果可以得到:
主成分分析 来自淘豆网m.daumloan.com转载请标明出处.