§,然后再根据变量的显著性检验把方程中不重要的变量逐一剔除,建立新方程。缺点:(1)首先在实际问题中,要提取合适的变量来建立回归方程本身不是一件很容易的事情,变量间可能存在高度的相互依赖性会给回归系数的估计带来不合理的解释;(2)其次变量的一次性引入方程,易导致计算量增大,运算效率降低,精度不够等问题。1为了得到一个稳健的、可靠的回归模型,这就需要给出一种方法,使得能从影响的因素中自动根据某种准则将对贡献大的变量(或者说对重要的变量)引入方程,不重要的变量从方程中剔除。最终在观测数据基础上建立最优的回归方程。§§,每一步选一个重要的变量进入回归方程。第一步是在所有可供挑选的变量中选出一个变量,使它组成的一元回归方程比其他变量有更大的回归平方和。第二步是在剩下的自变量中选这样一个变量,它与已选入方程的那个变量所组成的二元回归方程,比其他任一变量与已先选入方程的变量所组成的二元回归方程,有更大的回归平方和。3如此继续下去,假设已经进行到步,那第步是在未选的变量中选出这样一个变量,它与已选入回归方程的变量组成元回归方程,比其他余下的任何一个变量组成的元回归方程,有更大的回归平方和。逐步回归不仅考虑到按贡献大小逐一挑选重要变量,而且还考虑到较早选入回归方程的某些变量,有可能随着其后一些变量的选入而失去原有的重要性,这样的变量也应当及时从回归方程中剔除,使回归方程中始终只保留重要的变量。§,再引入,也许由的引入而的重要性反而变得不重要,应及时剔除。假设已有个自变量引入回归方程,即已知回归方程是:此时该方程相应的总离差平方和记为()§§,不妨记为,于是引入了一个自变量的回归方程可表示为现在用式()减去式(),并注意到式()与式()总离差平方和不变,可得()6令于是称为自变量对因变量的方差贡献。也就是,如果越大,则对的影响就越大,对回归方程就越显重要,应该引入。但是应大到什么程度,自变量才可被引入方程呢?这就需要给出的引入标准(或称引入门坎值)。7统计理论表明,用统计量可以检验自变量是否可以引入方程。式中,是样本容量,是已进入方程的自变量个数。对于给定水平,查分布表,可得临界值。如果,则表明可引入方程;8如果,则说明自变量不重要,不能引入方程。需要说明的是,实际问题可能有多个,由于每次只能引入一个变量进入方程,因此在算法上,我们是选最大的值所对应的变量考虑引入,即,先求然后将它与比较,如,相应的自变量入选;如,引入变量的步骤就到此为止。9§,即已知回归方程为此时该方程的总离差平方和可表示为现在已有的个自变量中剔除一个自变量,不妨剔除,于是可得剔除自变量后的回归方程,记为()()10
回归分析多元逐步回归(课堂ppt) 来自淘豆网m.daumloan.com转载请标明出处.