相关分析与回归分析
1、一元线性回归
2、多元线性回归
3、可线性化的非线性回归
第一节相关关系
变量之间的关系,一般可以分为两大类:
一类是变量之间有确定性的关系,例如:圆的面积与其半径之间的关系为:s=πr2,当有一个确定的时,对应的变量也是一个确定的值.
另一类是变量之间存在一定的制约关系,但这种关系没有密切到可由一个决定另一个的程度. 例如:受教育的年限和工资之间的关系:一般的,受教育年限较长的人,工资也较高,但并非对每个人都适用;又如产品的产量与价格之间的关系;人的身高与体重之间的关系都是如此,我们认为这些成对变量之间有一定的关系,但由其中的一个不能确定另一个,我们称这样的关系为“相关关系”.
变量间的关系
确定性关系或函数关系y=f(x)
人的身高和体重
家庭的收入和消费
商品的广告费和销售额
粮食的产量和施肥量
股票的价格和时间
学生的期中和期末考试成绩,…
非确定性关系
如果对于任何已知的 x 值,变量 y 按某个概率取某些特殊的值,则x 和 y 之间的关系为随机的.
x
Y
实变量
随机变量
非确定性关系
“相关关系”的产生一般可有以下几种情况:
,但由于测量误差(误差是随机性的)使测量结果之间呈现出相关关系.
、Y(也可以是多个变量)之间存在着因果关系,但影响Y的原因可能有很多,X只是其中的一个,它只能对Y的值起作用,并不能决定Y. 因此X、Y之间的关系必然是相关关系.
3. 变量表面上看有一定的关系,但它们可能都受另一个因素的影响,而这个因素与所考察的变量之间存在着相关性.
我们在研究实际问题中,以上各种情况都应该考虑到. 不同的情况,对数据的统计分析方法和结果的解释都会有一定的影响.
在统计学中研究相关关系已形成了两个重要的分支,即相关分析和回归分析. 在应用中,两种方法经常相互结合渗透,但它们研究的侧重点和应用面不同,差别主要有:回归分析中变量Y称为因变量,处于被解释的地位;在相关分析中,变量X、Y处于平等的地位,即研究X、Y的密切程度同研究X、Y之间的密切程度是一回事. 相关分析中所涉及的变量X、Y都是随机变量; 而回归分析中,因变量Y是随机变量,自变量X可以是随机变量,也可以是非随机的确定性变量. 通常的回归模型中,我们总假定X是非随机变量;相关分析的研究主要是为刻画两类变量间线性相关的密切程度. 而回归分析不仅可以揭示变量X对变量Y影响的大小,还可以根据回归方程进行预测和控制.
“回归”一词的历史渊源
“回归”一词最早由Francis Galton引入。英国著名人类学家Franics Galton(1822-1911)于1885年在论文《身高遗传中的平庸回归》中阐述了他的重大发现:子代的身高有向平均值靠拢的趋向。因此,他用回归一词来描述子代身高与父代身高的这种关系。随后,,分析出儿子的身高y与父亲的身高x大致可归结为一下关系:
y=+ (单位为英寸)
从而进一步证实了Galton的“回归定律”。这就是回归一词最初在遗传学上的含义。
回归的现代意义:
它要比其原始意义广泛的多。具体地说,回归分析的内容包括:
确定响应变量与预报变量间的回归模型,即变量间相关关系的数学表达式(通常称为经验公式);
根据样本估计并检验回归模型及未知参数;
从众多的预报变量中,判断哪些变量对响应变量的影响是显著的,哪些是不显著的;
根据预报变量的已知值或给定值来估计或预测响应变量的平均值并给出预测精度或根据响应变量的给定值来估计预报变量的值,即所谓的预报与控制问题。
第二节回归分析
一、确定回归函数的思想
要全面地考察两个变量 X、Y 之间的关系,我们就要研究Y 的条件分布 F (y | X=x ) 随 X 取值 x 的变化情况. 很自然我们会想到用 F ( y | X=x ) 的数学期望(平均值)来代替它,这样就可以通过研究 x 与 Y 的条件期望值之间的关系来代表 X 与 Y 之间的关系. 即:
f(x)就是 X= x 时随机变量Y的条件数学期望,它随 x 的变化而变化. 在直角坐标系中它是一条普通的曲线,称为回归方程或回归曲线.
二、确定回归函数的方法
实际中,回归方程是未知的,需要由试验或观察数据去估计它. 设有n次试验(或有n个观察),第i次试验中X,Y的取值分别是xi和yi(i=1,2,…,n).然后利用这些数据对回归方程f(x)进行估计.
f(x)具体的选择形式,可以根据所讨论问题的专业知识和对问题的了解程度出给出. 但在更多的情况下我们是借助于所考察数据在直角坐标系中绘出的 n个样本点(xi
回归分析与相关分析 来自淘豆网m.daumloan.com转载请标明出处.