“回归”一词的由来袁卫摘自《北京统计》1998年第9期在统计学中,相关与回归是经典的内容,也是应用最为广泛的统计方法之一。但是,国内教材却很少讲到回归方法的起源。英国著名遗传学家弗朗西斯·高尔顿爵士(SirFrancisGalton,1822-1911)在子女与父母相像程度遗传学研究方面,取得了重要进展。高尔顿的学生卡尔·皮尔逊(KarlPearson,1857-1936)在继续这一遗传学研究的过程中,测量了1078个父亲及其成年儿子的身高。他们之间的数量关系见图1(,“Onthelawsofinheritanceinman”Biometrika,partii(1903)-462)图11078对父子身高的散点图图中每一个点代表一对父子的身高关系。横轴的X坐标是父亲的身高,纵轴的Y坐标给出的是儿子的身高。我们看到,多数点子位于角平分斜线的两侧椭圆形面积之内,落在斜线上的点子极少,即儿子与父亲身高完全相同的极少。由点子落在斜线周围还说明,高个子的父亲有着较高身材的儿子,而矮个子父亲的儿子身材也比较矮。同时,我们也看到一些远离斜线的点子,这些点子反映的是父亲的身高与儿子的身高相差甚远的情况。比如高个子的父亲有矮儿子的情况,或者矮父亲有高个儿子的情况。图1中散点图给出父子身高的关系图,但图中给出的父亲身高和儿子身高两个变量的关系还是比较直观的,相关系数r就是对两个变量间线性相关关系紧密程度的度量。相关系数r的计算公式为:式中分子部分为X和Y两具变量的协方差,分母部分是X和Y两个变量标准差的乘积。由于协方差是X和Y两个变量与其均值离差乘积的数学期望,它受X和Y两个变量度量单位大小的影响,因而在分母上除以X和Y两个变量的标准差,就将相关系数r转化成从-1到1之间的相对数值。实际数据计算的结果为r=,表明高个子的父亲会有较高的儿子,矮身材的父亲其儿子身体也不会很高,但这一正相关的关系并不十分明显。那么,父子身高之间有什么规律呢?经过对1078对父子身高数据的计算,得到:父亲的平均身高=≈68英寸,标准差SX=≈=≈69英寸,标准差SY=≈(1英寸=)我们看到,儿子的平均身高比父亲高一英寸,表明下一代的平均身高比上一代要高。这样,我们会自然地猜测72英寸的父亲平均会有73英寸的儿子;64英寸的父亲平均会有65英寸的儿子,等等。那我们看一看图2中的情况:图2父子身高回归效应的图示图2中斜虚线是父子平均身高推测的关系线,即58英寸父亲有59英寸的儿子,59英寸的父亲有60英寸的儿子,等等。在父亲身高64英寸和72英寸处的两个条形虚线,表明64英寸高父亲和72英寸高父亲的儿子们身高的分布情况。首先来看64英寸高父亲的儿子们身高分布。我们看到,在这一条线虚线柱内的点子多数分布在斜虚线的上方,表明64英寸高父亲的儿子们的身高多数高于65英寸,即较矮父亲的儿子们多数比父亲身材要高。接下来再看72英寸父亲的儿子们身高分布,在这条虚线柱内的点了多数分布在斜虚线的下方,表明72英寸高父亲的儿子们的身高多数低于73英寸,甚至多数低于与父亲同样高度的72英寸,即较高父亲的儿子们多数比父亲身材要矮。高尔顿和波尔逊把这种现象称为“回归效应”,即回归到一
“回归”一词的由来 来自淘豆网m.daumloan.com转载请标明出处.