多重线性回归分析
例:由于改革开放政策,深圳特区中外来人口大幅度增加,为了考察特区中外来人口对本地经济发展的贡献,深圳特区统计局收集了所属的宝安县在1987年末18个镇的人口与工农业总产值数据()。此处把工农业总产值当作因变量(W),而把外地及本地人口数当作两个自变量(Z1,Z2)。
(有关统计方法的原理及计算参见孙尚拱,《医学多变量统计与统计软件》,北京医科大学出版社,2000)
?(估计回归方程)
?(影响因素分析)
?(自变量的相对重要性分析)
?(预测分析)
(一)多重回归分析的任务
(二)多重回归分析的适用条件
(突出点,outliers)
残差:实际测量值和预测值之间的差异
关于独立性:
所有的观测值是相互独立的。如果受试对象仅被随机观测一次,那么一般都会满足独立性的假定。但是出现下列情况时,观测值不是相互独立的:时间序列、重复测量(某种药物使用后1个月两个月三个月的疗效)等情况。
SPSS软件在“Linear Regression:Statistics”对话框中,提供了Durbin-Watson统计量d,以检验自相关系数是否为0。当d值接近于2,则残差之间是不相关的(此指标仅作参考。是否可使用多元分析主要依据实验设计)。
?(估计回归方程)
其中y为实测值, 为预测值(predicted value)
估计模型中系数的方法:最小二乘方法(Least Square,LS),即残差平方和最小。
b1, b2….. bm称为偏回归系数(partial regression coefficient) :当固定其他变量时(扣除其他自变量的影响,即Bm就是已经调整了其他影响因素后的回归系数,故名偏~),xm每增加一个单位,y的增加值都是bm。
(一)多重回归分析的任务
模型拟和的优良性指标
R:复相关系数,反映了Y与M个自变量的总体相关系数;
R2:决定系数(R Square)
R2c:调整决定系数(Adjusted R square ),是对决定系数的修正,是更客观的指标。(若要做预测分析的话,R值的要求较高,应>。,.,。)
这些指标越接近于1,说明回归模型拟合越好。
?(影响因素分析)
对回归模型的统计检验
当P<,则认为此回归模型有显著性。
对自变量的统计检验
当P<,则认为此自变量对因变量有影响。
自变量的筛选
实际应用中,通常从专业知识出发,建立一个简约(parsimonious)的回归模型,即用尽可能少的自变量拟合模型。
常用方法(最常用的是2和3,1仍然是单变量思想。注意,,)
(Forward):逐步增加变量到模型中(由少到多),对已经进入的变量不再剔除;。
(Backward):从模型中逐步剔除变量(由多到少),对已经剔除的变量不再进入;。
(Stepwise):结合了前进法和后退法,变量边进入边剔除。
?(自变量的相对重要性分析)
当自变量的量纲相同时,衡量自变量相对重要性的指标:
偏回归系数;若偏回归系数的绝对值越大,则相应自变量对因变量的影响就越大。
多重线性回归分析 来自淘豆网m.daumloan.com转载请标明出处.