方差分析线性回归
1 线性回归
原理分析
要研究最大积雪深度x与灌溉面积y之间的关系,测试得到近10年的数据如下表:
使用线性回归的方法可以估计x与y之间的线性关系。
线性回归方程式:
对应的估计方程式为
线性回归完成的任务是,依据观测数据集(x1,y1),(x2,y2),...,(xn,yn)使用线性拟合估计回归方程中的参数a和b。a,b都为估计结果,原方程中的真实值一般用α和β表示。
为什么要做这种拟合呢?
答案是:为了预测。比如根据前期的股票数据拟合得到股票的变化趋势(当然股票的变化可就不是这么简单的线性关系了)。
线性回归的拟合过程使用最小二乘法,
最小二乘法的原理是:选择a,b的值,使得残差的平方和最小。
为什么是平方和最小,不是绝对值的和?答案是,绝对值也可以,但是,绝对值进行代数运算没有平方那样的方便,4次方又显得太复杂,数学中这种“转化化归”的思路表现得是那么的优美!
残差平方和Q,
求最小,方法有很多。代数方法是求导,还有一些运筹学优化的方法
(梯度下降、牛顿法),这里只需要使用求导就OK了,
为表示方便,引入一些符号,
最终估计参数a与b的结果是:
自此,针对前面的例子,只要将观测数据带入上面表达式即可计算得到拟合之后的a和b。不妨试一试?
从线性函数的角度,b表示的拟合直线的斜率,不考虑数学的严谨性,从应用的角度,结果的b可以看成是离散点的斜率,表示变化趋势,b的绝对值越大,表示数据的变化越快。
线性回归的估计方法存在误差,误差的大小通过Q衡量。
误差分析
考虑获取观测数据的实验中存在其它的影响因素,将这些因素全部考虑到e~N(0,δ^2)中,回归方程重写为
y = a + bx + e
由此计算估计量a与b的方差结果为,
a与b的方差不仅与δ和x的波动大小有关,而且还与观察数据的个数有关。在设计观测实验时,x的取值越分散,估计ab的误差就越小,数据量越大,估计量b的效果越好。这也许能为设计实验搜集数据提供某些指导。
拟合优度检验及统计量
拟合优度检验模型对样本观测值的拟合程度,其方法是构造一个可以表征拟合程度的指标,称为统计量,统计量是样本的函数。从检验对象中计算出该统计量的数值,然后与某一标准进行比较,得出检验结论。
这是又会问了,最小二乘法不是保证了模型最好的拟合样本观测值了吗?为什么还要检验拟合程度?
最小二乘法保证的是同一个样本集使用最小二乘法拟合程度最好,而拟合优度检验结果表示的是多个不同样本集各自进行拟合后对拟合效果的比较。比如,下面的直线方程都是使用最小二乘法拟合的结果,但二者对样本观测值的拟合程度显然不同。
为构造统计量,先定义三个表达式:
通过推倒可以发现:
越大,则观测值表示观测值y1,y2,y3,...yn与它们的平均值的离差平方和,
的波动越大。因此称总离差平方和。
表示回归直线上点的纵坐标^y1,^y2,...,^yn与与观测值均值的离差平方和。所以称为回归平方和。反映出回归直线因素对的影响。
是最小二乘法中残差平方和Q的最小值,它是实际观测值yi与回归直线上的点(xi,^yi)的纵坐标^yi的离差平方和。
称为残差平方和。
显然,一个拟合得比较好的模型,与
因此,可以通过构造某种
是扣除线性影响外的剩余平方和,因此应该比较接近,而应该尽可能的小。与的表达式作为拟合优度检验中的统计量。构造统计量——相关系数
因此,构造相关系数
不同的r值有不同的线性相关表示,如下图
结论: 当|r|->0时,表示x与y之间的线性关系不明显,不适合使用线性回归建模。反之,当|r|越接近1时,表示x与y之间的线性关系越密切。
? 构造统计量——F
F值越小表示线性关系越密切,反之线性关系越弱。
? 构造统计量——t
|t|
越大,
x与y之间的线性关系越密切;反之,越小,x与y之间的线性关系越微弱。
不管是相关系数,还是F,或者t,都能用于描述x与y之间的线性相关程度。并且可以通过验证,这三种统计量用于下面的显著性检验是完全一致的。
显著性检验
显著性检验,
以开头“最大积雪深度x与灌溉面积y之间的关系”的线性关系是否显著为例,使用上面构造的统计量进行显著性检验的过程如下:
在当中,计算线性回归及显著性检验使用到如下的公式,下面的公式不用记住,使用时查询即可。
相关系数的查表参见相关系数显著性检验表
置信区间
回归系数α以1-α为置信度的置信区间为
回归系数β以1-α为置信度的置信区间为
其中S都为,
使用Matl
方差分析 线性回归 来自淘豆网m.daumloan.com转载请标明出处.