:㈠回归分析的定义:我们知道,函数关系是一种确定性关系,而相关关系是一种非确定性关系。回归分析就是对具有相关关系的两个变量进行统计分析的一种常用关系。㈡对具有相关关系的两个变量进行统计分析的步骤为:1)画散点图;2)求回归直线方程;3)用回归直线方程进行预报㈢样本中心:对于一组具有线性相关关系的数据x1,y1,x2,y2,⋯,(xn,yn)其中,(x,y)称为样本点的中心,回归直线y=bx+a过样本点的中心。回归直线方程为:y=bx+a㈣线性回归模型:由于两个变量组成的所有样本点不共线,而只是散步在一条直线的附近,所以常用线性回归模型来表示。这里的为模型的未知参数,e是y与bx+a之间的误差。1)通常e为随机变量,称为随机误差。,在回归模型中,y的值由x和随机因素e共同确定,即x只能解释部分y的变化,因此我们把x称为解释变量,把y称为预报变量。2)线性回归模型的完整表达式为:y=bx+a+eEe=0,De=σ2随机误差e的方差σ2越小,用bx+a预报真实值y的精度越高。随机误差是引起预报值y与真实值y之间存在误差的原因之一,其大小取决于随机误差的方差。 另一方面,b和a为斜率和截距的估计值,它们与真实值a和b之间也存在误差,这种误差是引起预报值y与真实值y之间存在误差的另一个原因。㈤残差:在线性回归模型中,是用预报真实值时产生的随机误差,它是一个不可观测的量。实际应用中,我们用回归方程中的来估计,由于随机误差,所以称e=y-y是随机误差e的估计量。对于样本点而言,它们的随机误差为随机误差估计值为称为相应于点xi,yi的残差。注意:与偏差区别开来。㈥残差图:可以通过残差发现原始数据中的可疑数据,从而判断所建立模型的拟合效果。可以利用图形来分析残差特性,作图时以残差为纵坐标,横坐标为样本编号(或身高数据或体重数据)这样作出的图形叫做残差图。1)注意检查残差较大的样本点,,应予以纠正,再重新利用线性回归模型拟合数据;如果没有错误,则需寻找其它原因。2)残差图中,当残差点比较均匀地落在水平的带状区域中时,就说明选用的模型比较合适。这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高。3)另外,还可以用来刻画回归效果。对于已经获取的样本数据,表达式中分母“偏差平方和”是一个确定的数。因此R2越大,意味着残差平方和越小,即模型拟合效果越好;R2越小,残差平方和越大,即模型拟合效果越差。在线性回归模型中,R2表示解释变量对于预报变量变化的贡献率,R2越接近于1,表示回归的效果越好。R2是常用的选用模型的指标之一,在实际应用中,应该尽量选择R2较大的回归模型。㈦一般地,建立回归模型的基本步骤:⑴确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;⑵画出解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等)⑶由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程)⑷按一定规则(如最小二乘法)估计回归方程中的参数;⑸得出结果后分析残差图是否有异常(如个别数据对应残差过大,残差呈现不随机的规律性等)。若存在异常,则检查数据是否有误,或模型是否合适等。㈧回归模型的适用范围:⑴回归方程只适用于我
128《统计案例》知识点总结 来自淘豆网m.daumloan.com转载请标明出处.