一元线性回归分析一.变量之间的关系:
函数关系:确定性关系
相关关系:不确定性关系
相关关系的测度:散点图
线性相关关系的测度:相关系数
相关关系不等于因果关系
二.回归的含义:
回归这一术语最早来源于生物遗传学,由高尔顿(Fi)
/(uj
(noautocorrelation)假定:不同扰动项之间的
协方差为零,即:cov(ui,uj)0,ij
该假定等价于:cov(Y,Yj)0,ij
U
(«)⑻
.模型设定的假定:回归模型的设定是正确的,即模型不存在
设定偏差(Specificationbias)或设定误差(specificationerror)。
.扰动项的假定:扰动项服从正态分布。
结合3和4即为:ui~N(0,2)
:最小二乘估计
最小二乘法则:所谓最小二乘法则,就是按照使残差平方和最小的原则来确定回归系数的估计量,从而建立拟合最佳的样本回归方程。O
eYY?
eiYi?i?2Xi
依据最小二乘法则确定参数,从而建立样本回归函数的方法,叫最小二乘法。
Qe2
(Yi?i?2Xi)2
f(?1,?2)min
要使Q最小,即求函数的极值。
为此,要求函数的偏导数,并令其为零:
bl Q b
(Y|?以)0
(Ybb2Xi)Xio
等价于:
eo
eXio
解正规方程组:
Yn[b2Xi
))2
YXibXib2Xi
q(XiX)(YY)xiyi
最后得参数的估计值为:b2(XX)2x2
b?Yb2X
其中:xiXiX;yiYY
用OLS法估计得到的估计量称为最小二乘估计量。
:利用不同的样本回归就得到不同的
回归系数,问题是最小二乘方法所得到的统计量,是否是一个理想的
统计量,因此有必要讨论一下回归系数的数学期望和方差。
回归系数是观测值Y函数
由于b2
(XiX)(YY)_XiY
22
(XiX)X
kiY
(1)
ki
这表明b2是y的一个线性函数,这是一个线性估计量,同理愣也是个线性估计量。
ki具有以下的性质:ki是非随机的,因为Xi是非随机的
ki0
k2-J—
ki2
Xi
kixikiXi1
以上性质均可从k的定义直接验证
现将
Yb1b2Xiui
直接带入(1)得:腺ki(bib?XiUi)
=Dkib2kiXikiui
=b2Ku(2)
对上式两边取数学期望,得:
E(b2)b2kiE(Ui)b2
因此,b2是b2的无偏估计量,同理可是b的一个无偏估计量。
愕的方差Var(?2)E(aE(愣))=^)
(Xi X)2
=E(b2b2)2
利用(2)的结果有:Var(a)E(ku)2
E(ki2u2k;u;..…k2u2……)
因为假定对每一i,E(u2)2,且对ij,E(um)0
2
2
(Xi X)2
故Var(b2)2ki2=2
X
故b2:(b2,
2
同样可得:
b1: (bi,— n
2X2
―X^)
-2)
(XiX)
随机扰动项的方差2的估计:?2
22
e2(YY)2
n~2nn.
祖产称为回归标准差
standarderroroftheregression,它为Y值
偏离Y1的标准差
十一、回归系数的区间估计
当用回归标准差估计扰动项方差时,可证明以下统计量服从t分布:
tib^〜《2)
Se(b1)
+&b2
t2~~~t(n2)
Se(b2)
当自由度一定时,对于给定的显著性水平
信区间为:
P(t。1
即:P(t_tt_)1
22
bibi
t/2t/2
kzb?b2
将t2
Se(b?2)
t_) 1
2 /
代入上式得:P(tb^b2
2Se(b?2)
所以参数b2的1—%的置信区间为:
(b?2),b?2t_Se(b2)
22
同理,参数bi的1置信区间为:
b?t_Se(R),Rt_Se(口)
22
十二、拟合优度的度量:拟合优度(程度)是指样本观测值聚集在样本回归线周围的紧
(重点)一元线性回归分析 来自淘豆网m.daumloan.com转载请标明出处.