一元线性回归分析
变量之间的关系:
函数关系:确定性关系
相关关系:不确定性关系
相关关系的测度:散点图
线性相关关系的测度:相关系数
相关关系不等于因果关系
回归的含义:
回归这一术语最早来源于生物遗传学,由高尔顿(Fra ncis Galto n)引
入。
回归的现代解释:回归分析是研究某一变量(因变量)与另一个或 多个变量(解释变量、自变量)之间的依存关系,用解释变量的已知 值或固定值来估计或预测因变量的总体平均值。
因变量:Y
自变量:X或X1 , X2,…等
高尔顿的兴趣在于寻找为什么总体身高分布趋向稳定。现在我们所关 心的已不是这个问题,而是想知道在已知父亲身高的情况下, 儿子的
身高的平均变化如何。换句话说,就是已知父亲身高来预测儿子的平 均身高。
假设进行抽样试验,得以下结果:
父亲身高(X)
儿子身高(Y)
X
假设进行多次抽样(5次),则对于同一个X值,会有多个Y值与之
对应,即丫有多个取值。假设作出的散点图如下:
X
为了找出X与丫的关联关系,一个自然的想法是取X=Xi时,所有Y 值的平均值作为对应X=Xi时丫的代表值,亦即取:
E(Y1)= E(Y/X = Xi)
E(Y2) = E(Y/X = X2)
llllll
对于任何一个X的可能值Xi,我们都可以相应的取:
E(Y)= E(Y/X = Xi)
当X变化时,上式左边是X的一个确定的函数,可以记为:
E(Y)= E(Y/X = X j f (Xj)
于是,我们可以用一个确定的函数
E(Y「f(X)
来大体描述Y与X之间的变化规律。
E(Y)= f(X)
为Y对X的回归方程,它反映了 X固定的条件下Y的平均状态的变 化情况。Y对X的回归就是Y对X的条件期望函数。
相关分析和回归分析之间的关系
相关分析的主要目的在于度量两个变量之间的线性关系的程度。
回归分析,已如前述,我们首先并不对这种度量有兴趣,而主要是想
根据一些有关变量的已知值来估计或预测某一变量的平均值。
相关分析与回归分析在技术上的区别:
相关分析同等对待任何两个变量, 无自变量和因变量的区别。两个变 量都假定为随机变量。
回归分析对自变量和因变量不同对待。 因变量是随机变量,而自变量 是非随机的,是给定(固定)变量。
总体回归函数
定义:每一个条件均值E (Y/X=Xi )(简写为E (Y/Xi )是Xi的一个
E(Y/Xi厂 f(XJ
函数,即:E(Y/XJ 二 f (x)
f(xj :总体回归函数
设 E(Y/Xi)= f(Xi) = b b2Xi
(线性总体回归函数)
b :截距(intercept)
b2 :斜率系数(slope)
线性的意义:
变量线性:变量的幕指数为1,没有两个不同变量的乘除运算,也没 有自变量作为幕指数运用。
参数线性:参数的幕指数为1。
线性回归一般指的是参数的线性, 而变量可能是线性,也可能是非线 性。
总体回归函数的整体设定:
设各个y与其期望值的离差为: q = Y 一 e(y/Xi)
即: y 二 e(y/Xi) ui
Ui :随机误差项,不可观察的随机变量,可以为正,也可为负
E(Y/XJ 二 b b2Xi 时,则:
Y 二 D dXi Ui
随机误差项的性质:
可能代表了模型中并未包括的变量的影响;
反映了人类行为中的一些内在随机性;
可能反映一些测量误差。
样本回归函数:
当未掌握总体资料时,以样本资料拟合的回归线是总体回归线的近 似代表(估计),因此样本回归函数可以写为:
(假设为一元线性回归模型)
b? + 认
总体回归参数切、b2的估计量
E (Y/XJ的估计量
样本回归函数也可以有随机设定的方程,设 e二Y 一 Y?
即: y = Y?+ e
Y = ?釵 e
e:残差项,简称残差,是Uj的估计。
u
1
样本回归直线
总体回归直线
1
T
E(Y/X i)
Xi
回归模型的假定:
回归模型的基本假定:
线性假定:自变量与因变量是线性函数关系。
即: Y = E b2Xi ui
Y 二 b b>X2i bsX3i III Ui
解释变量X与扰动项u不相关假定:
当X是非随机变量,即确定性变量时,该条件自动满足;
当X是随机变量时,该假定要求 X与u不相关。
cov(ui, Xi p 0
关于随机误差项(扰动项)的假定:
0。即:
:给定解释变量的值,随机误差项的期望值为
E(u/XJ
一元线性回归分析 来自淘豆网m.daumloan.com转载请标明出处.