(重点)一元线性回归分析.docx一元线性回归分析—.变量之间的关系:函数关系:确定性关系相关关系:不确定性关系相关关系的测度:散点图线性相关关系的测度:相关系数相关关系不等于因果关系回归的含义:回归这一术语最早来源于生物遗传学,由高尔顿(FrancisGalton)弓I入。回归的现代解释:回归分析是研究某一变量(因变量)与另一个或多个变量(解释变量、自变量)之间的依存关系,用解释变量的已知值或固定值来估计或预测因变量的总体平均值。因变量:Y自变量:X或XI,X2,...等高尔顿的兴趣在于寻找为什么总体身高分布趋向稳定。现在我们所关心的已不是这个问题,而是想知道在已知父亲身高的情况下,儿子的身高的平均变化如何。换句话说,就是已知父亲身高来预测儿子的平均身高。假设进行抽样试验,得以下结果:父亲身高(X) (Y) (5次),则对于同一个X值,会有多个Y值与之对应,即Y有多个取值。假设作出的散点图如下:为了找出X与Y的关联关系,一•个自然的想法是取X=Xi时,所有Y值的平均值作为对应X=Xi时Y的代表值,亦即取:研k)=e(k/x=xjE(Y2)=E(Y/X=X2)对于任何一个X的可能值X,.,我们都可以相应的取:E(Y,)=E(Y/X=Xj)当X变化时,上式左边是X的一个确定的函数,可以记为:E(K・)="/x=x,)=f(x,)于是,我们可以用一个确定的函数E0)=f(X)来大体描述Y与X之间的变化规律。”)=f(X)为Y对X的回归方程,它反映了X固定的条件下Y的平均状态的变化情况。Y对X的同归就是Y对X的条件期望函数。相关分析和回归分析之间的关系相关分析的主要目的在于度量两个变量之间的线性关系的程度。回归分析,已如前述,我们首先并不对这种度量有兴趣,而主要是想根据一些有关变量的已知值来估计或预测某一变量的平均值。相关分析与回归分析在技术上的区别:相关分析同等对待任何两个变量,无自变量和因变量的区别。两个变量都假定为随机变量。回归分析对自变量和因变量不同对待。因变量是随机变量,而自变量是非随机的,是给定(固定)变量。总体回归函数定义:每一个条件均值E(Y/X=Xi)(简写为E(Y/Xi)是Xi的一个函数,即:E(Y/Xi)=f(xi)/(a;):总体回归函数设E(Y/Xi)=f(Xi)=bl+b2Xi(线性总体回归函数)4 :截距(intercept)b2:斜率系数(slope)线性的意义:变量线性:变量的矗指数为1,没有两个不同变量的乘除运算,也没有自变量作为幕指数运用。参数线性:参数的慕指数为1。线性回归一般指的是参数的线性,而变量可能是线性,也可能是非线性。总体回归函数的整体设定:设各个K与其期望值的离差为: ui-E(y/x.)I即:Yi=E(Y/Xi)+ui:随机误差项,不可观察的随机变量,可以为正,也可为负。当E0/X,•时,则:匕=气+",+气随机误差项的性质:可能代表了模型中并未包括的变量的影响;反映了人类行为中的一些内在随机性;可能反映一些测量误差。样本回归函数:当未掌握总体资料时,以样本资料拟合的回归线是总体回归线的近似代表(估计),因此样本回归函数可以写为:(假设为一元线性回归模型)Yi=bi+b2Xi A总体回归参数以、b2的估计量 ►E(Y/Xj)的估计量样本回归函数也可以有随机设定的方程,设e=Y-Y- I ZZZx即:K=[+et••K=&+&2乂]+乌勺:残差项,简称残差,是的估计。回归模型的假定:回归模型的基本假定:线性假定:自变量与因变量是线性函数关系。即:Yi=b[+b2Xi+uiY;—/?,+b-)X)+ArX*+•••+U-I 1 JI JJI C解释变量X与扰动项u不相关假定:当X是非随机变量,即确定性变量时,该条件自动满足;当X是随机变量时,该假定要求X与u不相关。covgX』=0关于随机误差项(扰动项)的假定:零均值假定:给定解释变量的值,随机误差项的期望值为0。即:E(u/Xi)=0结合上一假定,该条件等价于:E(wz)=0同方差(homoscedasticity)假定:不同的扰动项具有相同的方差。艮供 var(wz.)=var(w)=c>\ij=J否则称为异方差。结合前面的假定,同方差假定等价于:var(K/X,)=var(〃/X,)=var(wf)=cr2/(«)/(无自相关或序列相关(noautocorrelation)假定:不同扰动项之间的协方差为零’即: cov(““".)=0J。j该假定等价于:COV(匕,七)=。,I。jJU) (b) (c)模型设定的假定:回归模型的设定是正确的,即模型不存在设定偏差(Specificationbias)或设定误差(specificat
(重点)一元线性回归分析 来自淘豆网m.daumloan.com转载请标明出处.