多元线性回归分析
第一页,共二十七页。
主要内容
第一节:多元线性回归概念及统计描述
第二节:多元线性回归假设检验
第三节、多元线性回归自变量的筛选
第四节:多元线性回归应用
第五节:多元线性回归应注意问题
第六节:实例分析(;也不敢保证自变量之间是相互独立的,因而在建立多元线性回归方程时,需要使回归方程尽可能包含对解释因变量有较大贡献的自变量,而把贡献不大的或无贡献以及与其他自变量有密切关系的自变量排除。
第十四页,共二十七页。
自变量筛选的标准和原则
1、残差平方和(SS残)缩小或决定系数(R2)增大
R2=1- SS残/ SS总
2、残差均方(MS残)缩小或调整决定系数(R2ad)增大
MS残= SS残/(n-p-1)
3、Cp统计量减小
第十五页,共二十七页。
自变量筛选的方法
向前选择法
建模时没有自变量,逐个加入自变量。并通过F检验加入自变量对模型的影响是否显著。显著则保留此变量。
向后删除法
建模时加入所有自变量,通过F检验,逐个剔除在当前模型中最不显著的自变量,直到模型的变量都显著为止。
逐步筛选法
为上述两种方法的综合,即每次首先加入一个变量,如果其对模型影响显著,则保留,然后对当前模型中的所有变量进行检查,剔除不显著的变量。直到没有显著变量加入且没有不显著变量剔除为止。
最大R2改进法
最小R2改进法
R2选择法
修正R2选择法
Cp选择法
第十六页,共二十七页。
定量的建立一个反应变量和多个自变量之间的线性关系
筛选危险因素
通过较易测算的变量估计不易测量的变量
通过反应变量控制自变量
第四节:多元线性回归应用
第十七页,共二十七页。
第五节:多元线性回归应注意问题
多重共线性
除了LINE前提条件外,多元线性回归还需要注意自变量之间的关系。当自变量之间高度相关,则称自变量存在多重共线性。共线性可使回归系数极不稳定,表现为回归系数标准误很大,以至于本来非常重要的自变量无统计意义而不能进入方程,甚至使样本回归系数可大可小,可正可负,专业知识无法进行解释。
最简单的处理办法就是删除变量:在相关性较强的变量中删除测量误差较大的、缺失数据多的,专业角度看不是很重要的,也可采用主成分回归法。
第十八页,共二十七页。
交互效应
当回归模型中有多于2个的自变量,变量之间可能存在交互作用(一自变量对应变量的作用大小与另一个自变量的取值有关),此时可建立包含各自变量及其某些有交互作用的自变量的乘积( X1X2)的回归模型。
例如:A、B两种药物对帕金森综合症都有作用,而且相信联合用药效果更好,为探讨联合用药可行性,进行了随机对照临床试验。最终的得到的回归方程为:
Ỷ=49-++
第十九页,共二十七页。
非同质性资料合并
第二十页,共二十七页。
哑变量设置
多元线性回归分析中自变量可以是连续的(年龄、血压),也可以是二分类的(性别),不能把有序变量(高、中、低)和无序多分类变量直接纳入分析。必须先将有序变量或多分类无序变量转换成多个二分类变量,再进行回归分析。
第二十一页,共二十七页。
通径分析
当多元回归自变量较多时,相互间的关系十分复杂,有的自变量并不是直接对反应变量产生影响,而是通过对其他自变量的作用间接地影响反应变量。通径分析是一种在回归基础上的拓展,用以处理这种具有复杂变量关系的方法。
例如:回归模型后,自变量X1 、 X2对Y贡献甚微,但从专业知识考虑X1 、 X2是通过X3 、 X4影响Y的,这时就需要通径分析。
步骤:1、根据专业知识绘制变量间的通径图。2、按照通径图建立线性方程。3、将各系数添加到通径图上。4、根据通径图计算各变量对Y的直接、间接效应。
第二十二页,共二十七页。
第六节:实例分析(SAS)
为分析各大学附近房屋价格及其相关因素,统计了近期成交房屋售价和基本情况。试用回归分析方法确定哪些因素对价格有明显影响,并建立模型。
占地面积
税率
教师学生比
卧室间数
总间数
居住面积
价格
72
4
7
1850
152900
…
…
…
…
…
…
…
…
…
…
…
…
…
…
第二十三页,共二十七页。
SAS分析过程
采用REG过程对数据进行多元线性回归分析,编程如下:
data house; /*建立数据集house*/
input land tax ratio bedrooms rooms area price; /*要输入的变量*
多元线性回归分析详解 来自淘豆网m.daumloan.com转载请标明出处.