多元逐步回归方法的基本思路:自动地从大量的可供选择的变量中选取最重要的变量,据以建立回归分析的预测或者解释模型。变量选取的根据是自变量对因变量作用程度的大小:保留作用程度大的变量,剔除作用小的变量。是否选取一个变量,定量判据之一就是相关系数。假定有m个自变量,1个因变量(用y表示),则全部变量(包括自变量和因变量)之间的相关系数矩阵可以表作§“贡献”系数——按照贡献系数的大小决定一个自变量的去留。式中Pj表示第j个自变量对因变量的贡献系数,Rjy表示第j个自变量与因变量的相关系数,Rjj表示相关系数矩阵对角线上第j行第j列元素(j=1,2,…,m)。——第l步计算的贡献系数表示为在逐步回归分析过程中,我们不仅要引入贡献最大的自变量,同时要考虑剔除贡献最小的因变量。因此,变量的存留与否又涉及到另一个统计判据——F检验。设定一个显著性水平α,查F检验表,找到F检验的临界值Fα。在第l步计算中,假如第v个自变量的贡献系数最大,数值为根据F检验来判断该自变量是否应该被引入模型。式中h为尚且没有被引入模型的变量序号,v为选出的变量对应的原始变量序号(v=1,2,…,m)。计算变量引入的F值判断公式如下式中n为样品个数,l为计算步骤数,为第v个变量第l步的贡献系数,Ryy为因变量的自相关系数。如果Fin>Fα,则在这个显著性水平下,该变量可以被引入模型,否则不要引入。——在第l步计算中,如果第v个自变量的贡献系数为——则可以根据F检验来判断该自变量——包括已经引入的变量——是否应该被剔除。计算变量剔除的F值判断公式如下如果Fout≤Fα,则在这个显著性水平下,该变量应该被剔除,否则就要保留。在整个逐步回归计算过程中,变量的引入和剔除在两端同时进行。像这样循环往复地计算,直到所有该引入的变量都被引入,该剔除的变量均被剔除为止。§。问题是山东省淄博市旅游业的发展分析,我们想搞清楚哪些因素影响淄博市的旅游总收入(表6-2-1)。所能考虑的因素包括:国内游客数量、海外游客数量、第三产业的发展和人均GDP数量(m=4)。从1995年到2004年一共10个年份的数据(n=10)。这些因素都与旅游业总收入具有明确的关系。而且,作为自变量,它们彼此之间也有很强的关系。如果将这四个变量全部引入模型,就会导致多重共线性的问题。为了得到简约、可靠的模型,需要借助逐步回归分析技术。为了更为有效地说明问题,我们对表6-2-1的变量排列顺序稍作调整(表6-2-2)
逐步回归分析 来自淘豆网m.daumloan.com转载请标明出处.