回归分析下
第一页,共30页
本章内容
多元线性回归的回归诊断
曲线估计
线性回归的衍生模型
第二页,共30页
多元线性回归的回归诊断
检验模型假定是否成立
与一元线性回归一样,通过残差分析,检验有关假定是否成立,如正态性、独立性、等方差性等。
异常值探查
通过标准化残差来探察
影响点探查
所谓影响点,是指其非标准化残差并不大,但删去后回归直线发生很大改变的点。它们将导致拟合模型偏向该数据点。
影响点的检测主要包括以下几种方法:
(1)与杠杆率有关的检测
(2)逐步排除异常个案
(3)是否影响回归系数的方差
第三页,共30页
影响点的检测方法
与杠杆率有关的检测
LEVER centered leverage,是各观测自变量的各取值在模型中作用的度量。该值越大,表明影响力越大。一般认为超过2×(p/n),则影响力过大
COOK’s距离,用于衡量第i个观测被删除后,回归系数的改变。是残差和中心化杠杆率的函数。Cook’s 值越大,影响力越强。经验上,一般COOK’s距离大于1 ,通常认为是影响点
Mahanobis距离:为杠杆值的n-1倍,是自变量上个案的值与所有个案的平均值相异程度的度量。大的Mahalanobis距离表示个案在一个或多个自变量上具有极值
第四页,共30页
影响点的检测方法
逐步排除异常个案
回归系数的变化及其标准化
DfBeta,从模型中删去一个特定观测后,比较回归系数的前后变化。
标准化DfBeta,通常该值大于2/sqrt(n)时,认为是影响点。
预测值变化及其标准化
DfFit从模型中删除某个观测后引起的预测值的变化
标准化DfFit,通常默认的标准是该值大于2/sqrt(p/n)时,为影响点。其中p为包括常数项的参数个数
第五页,共30页
影响点的检测方法
是否影响回归系数的方差
协方差比例,指的是个案对参数估计的“方差-协方差矩阵”的影响度,等于删除后协方差矩阵行列式/全部个案的协方差矩阵的行列式、接近于1时,表明影响不大。经验上|协方差比例-1|>3×(p/n)的点可视为影响点
第六页,共30页
Save选项,该窗口将回归分析的某些结果以SPSS变量的形式保存到数据编辑窗口中,并可同时生成XML格式的文件,便于分析结果的网络发布。
(1)Predicted Values框中:保存非标准化预测值、标准化预测值、调整的预测值和预测值的均值标准误差。
(2)Distance框中:保存均值或个体预测值95%(默认)置信区间的下限值和上限值。
(3)Residual框中:保存非标准化残差、标准化残差等。
(4)Influence Statistics框中:保存剔除第i个样本后统计量的变化量。
第七页,共30页
总结回归模型的建立步骤
作出散点图,观察变量间的趋势。
考察数据的分布,进行必要的预处理,分析变量的正态性、方差齐等问题,进行必要变换。
进行直线回归分析,包括变量的选择,是否存在多重共线性等
残差分析,残差间是否对立(DW检验),残差是否正态和存在异方差,通过图示法观察。
强影响点的诊断和多重共线性问题的判断
只有5步全部通过才能认为是一个统计学上无误的模型,才能于实际应用结合进行分析和预测。
第八页,共30页
曲线估计
曲线估计概述
变量间的相关关系中,并不总是表现出线性关系,非线性关系也是极为常见的。变量之间的非线性关系可以划分为本质线性关系和本质非线性关系。本质线性关系是指变量关系形式上虽然呈非线性关系,但可通过变量变换为线性关系,并最终可通过线性回归分析建立线性模型。本质非线性关系是指变量关系不仅形式上呈非线性关系,而且也无法变换为线性关系。本节的曲线估计是解决本质线性关系问题的。
第九页,共30页
常见的本质线性模型有:
1、二次曲线(Quadratic),方程为
,变量变换后的方程为
2、复合曲线(Compound),方程为
,变量变换后的方程为
3、增长曲线(Growth),方程为
,变量变换后的方程为
第十页,共30页
回归分析下 来自淘豆网m.daumloan.com转载请标明出处.