第七章回归分析变量之间的联系确定型的关系:指某一个或某几个现象的变动必然会引起另一个现象确定的变动,他们之间的关系可以使用数学函数式确切地表达出来,即 y=f(x) 。当知道 x的数值时,就可以计算出确切的 y值来。如圆的周长与半径的关系:周长=2 πr。非确定关系:例如,在发育阶段,随年龄的增长,人的身高会增加。但不能根据年龄找到确定的身高,即不能得出 11 岁儿童身高一定就是 米公分。年龄与身高的关系不能用一般的函数关系来表达。研究变量之间既存在又不确定的相互关系及其密切程度的分析称为相关分析。回归分析如果把其中的一些因素作为自变量,而另一些随自变量的变化而变化的变量作为因变量, 研究他们之间的非确定因果关系,这种分析就称为回归分析。回归分析是研究一个自变量或多个自变量与一个因变量之间是否存在某种线性关系或非线性关系的一种统计学方法。回归分析线性回归分析; 曲线回归分析; 二维 Logistic 回归分析; 多维 Logistic 回归分析; 概率单位回归分析; 非线性回归分析; 权重估计分析; 二阶段最小二乘分析; 最优尺度回归。一、线性回归(一)一元线性回归方程直线回归分析的任务就是根据若干个观测( x i,y i) i=1 ~n 找出描述两个变量 x、y之间关系的直线回归方程 y^=a+bx 。 y^是变量 y的估计值。求直线回归方程 y^=a+bx, 实际上是用回归直线拟合散点图中的各观测点。常用的方法是最小二乘法。也就是使该直线与各点的纵向垂直距离最小。即使实测值y与回归直线 y^之差的平方和Σ(y-y^) 2达到最小。Σ(y-y^) 2 也称为剩余(残差)平方和。因此求回归方程 y^=a+bx 的问题,归根到底就是求Σ(y-y^) 2取得最小值时 a和b的问题。 a 称为截距, b为回归直线的斜率,也称回归系数。 1、一元线性回归方程的适用条件线形趋势:自变量与因变量的关系是线形的,如果不是,则不能采用线性回归来分析。独立性:可表述为因变量 y的取值相互独立,它们之间没有联系。反映到模型中,实际上就是要求残差间相互独立,不存在自相关。正态性: 自变量 x的任何一个线形组合,因变量 y均服从正态分布,反映到模型中,实际上就是要求随机误差项ε i服从正态分布。方差齐性:自变量的任何一个线形组合,因变量 y的方差均齐性,实质就是要求残差的方差齐。 2、一元线性回归方程的检验检验的假设是总体回归系数为 0。另外要检验回归方程对因变量的预测效果如何。(1)回归系数的显著性检验?对斜率的检验,假设是:总体回归系数为 0。检验该假设的 t值计算公式是; t=b/SE b,其中 SE b是回归系数的标准误。?对截距的检验,假设是:总体回归方程截距 a=0 。检验该假设的 t值计算公式是: t=a/SE a,其中 SE a是截距的标准误。(2)R 2判定系数在判定一个线性回归直线的拟合度的好坏时, R 2系数是一个重要的判定指标。 R 2判定系数等于回归平方和在总平方和中所占的比率,即R 2体现了回归模型所能解释的因变量变异性的百分比。如果 R 2 = ,则说明变量 y 的变异中有 %是由变量 X引起的。当 R 2=1时, 表示所有的观测点全部落在回归直线上。当 R 2 =0 时, 表示自变量与因变量无线性关系。为了尽可能准确的反应模型的拟合度, SPSS 输出中的 Adjusted R Square 是消除了自变量个数影响的 R 2 的修正值。?????)( ) ?( 2 22yy yyR i i(3)方差分析体现因变量观测值与均值之间的差异的偏差平方和 SS t是由两个部分组成: SS t =SS r+ SS e SS r:回归平方和,反应了自变量 X的重要程度; SS e :残差平方和,它反应了实验误差以及其他意外因素对实验结果的影响。这两部分除以各自的自由度, 得到它们的均方。统计量 F= 回归均方/残差均方。当 F值很大时,拒绝接受 b=0 的假设。(4) Durbin - Watson 检验回归模型的诊断中,要诊断回归模型中误差项的独立性。如果误差项不独立,那么对回归模型的任何估计与假设所作出的结论都是不可靠的。其参数称为 DW 或D。D的取值范围是 0<D<4,统计学意义如下: ①当残差与自变量互为独立时 D≈2; ③当相邻两点的残差为正相关时, D<2 ; ③当相邻两点的残差为负相关时, D>2
回归分析 来自淘豆网m.daumloan.com转载请标明出处.