该【128《统计案例》知识点总结 】是由【fengruiling】上传分享,文档一共【10】页,该文档可以免费在线阅读,需要了解更多关于【128《统计案例》知识点总结 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。统计案例
一•回归分析的基本思想及其初步应用:
㈠回归分析的定义:我们知道,函数关系是一种确定性关系,而相关关系是一种非确定性关系。回归分析就是对具有相关关系的两个变量进行统计分析的一种常用关系。
㈡对具有相关关系的两个变量进行统计分析的步骤为:
画散点图;
求回归直线方程;
用回归直线方程进行预报㈢样本中心:对于一组具有线性相关关系的数据门“
工(x-X)(y-y)工
Y1厶xy=_x
i,n
i=1
Yy
i
i=1
A i i ii 1
b=-i= =41 ,X—x
n n 甘中x—
Y(X-x)2 Yx2-nx2其中
i i
i—1 i—1
A A
a=y-bx
:.二耳称为样本点的中心,回归直线】过样本点的中心(x,y)。回归直线方程为:亍=t'X-S
㈣线性回归模型:由于两个变量组成的所有样本点不共线,而只是散步在一条直线的附近,所以常用线性回归模型y—+a+e来表示。这里的b;a为模型的未知参数,e是y与bx+a之间的误差。
1)通常e为随机变量,称为随机误差。它的均值E(e)=°,方差D(e)=&2
与函数关系不同,在回归模型中,y的值由x和随机因素e共同确定,即x只能解释部分y的变化,因此我们把x称为解释变量,把y称为预报变量。
2)线性回归模型的完整表达式为:
y=bx-fa+e
E(e)—0?D(e)—o2
随机误差e的方差b越小,用bx+a预报真实值y的精度越高。随机误差是引起预报值丫与真实值y之间存在误差的原因之一,其大小取决于随机误差的方差。
另一方面£和点为斜率和截距的估计值,它们与真实值a和b之间也存在误差,这种误差是引起预报彳直'与真实值y之间存在误差的另一个原因。
㈤残差:在线性回归模型中,+a预报真实值y时产生的随机误差,它是一个不可观测的
八 7 八 -j
量。实际应用中,我们用回归方程y=+a中的y来估计bx+a,由于随机误差
e—y-(+a),所以称2丫一令是随机误差e的估计量。对于样本点(x1,y1)(x2,y丿•••(x,y)
11 2 2 nn
而言,它们的随机误差为e=yi-bxi-a,1=1,2...兀;),2…n;
":;的残差。注意:与偏差y・—y区别开来。
㈥残差图:
可以通过残差发现原始数据中的可疑数据,从而判断所建立模型的拟合效果。可以利用图形来分析残差特性,作图时以残差为纵坐标,横坐标为样本编号(或身高数据或体重数据)这样作出的图形叫做残差图。
1) 注意检查残差较大的样本点,确认采集该样本点过程中是否有人为错误•如果数据采集有错误,应予以纠正,再重新利用线性回归模型拟合数据;如果没有错误,则需寻找其它原因。
2) 残差图中,当残差点比较均匀地落在水平的带状区域中时,就说明选用的模型比较合适。这样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高。
工(y—y)2
R2=1-
3)另外,还可以用
i i
来刻画回归效果。对于已经获取的样本数据,R2表达式
i=1
工(y—y)2
i
i=1
y-
中分母“偏差平方和”厶(乙—y)2是一个确定的数。
i=1
因此t越大,意味着残差平方和y(y.—y$越小,即模型拟合效果越好丁「越小,残差平方和越大,即i=1
模型拟合效果越差。在线性回归模型中表示解释变量对于预报变量变化的贡献率越接近于1,表示回归的效果越好。「是常用的选用模型的指标之一,在实际应用中,应该尽量选择「较大的回归模型。
㈦一般地,建立回归模型的基本步骤:
⑴确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量y;
⑵画出解释变量x和预报变量y的散点图,观察它们之间的关系(如是否存在线性关系等)
⑶由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程)
⑷按一定规则(如最小二乘法)估计回归方程中的参数;
⑸得出结果后分析残差图是否有异常(如个别数据对应残差过大,残差呈现不随机的规律性等)。若存在异常,则检查数据是否有误,或模型是否合适等。
㈧回归模型的适用范围:
⑴回归方程只适用于我们所研究的样本的总体;
⑵我们所建立的回归方程一般都有时间性;
⑶样本取值的范围会影响回归方程的适用范围;
⑷不能期望回归方程得到的预报值就是预报变量的精确值。
㈨一般地,比较两个函数模型的拟合程度的步骤如下:
(1)分别建立对应于两个模型的回归方禾呈二二二二"与 ,
Iy二f(X,a)+e Iy二g(x,b)+3
即模型1|e(e)二O,D(e) 2和模型2|E(w)二0,D(3)=◎2其中如分别是参数a和b的
1112
估计值
⑵分别计算两个模型的R2值⑶若工二玷,则模型1比模型2拟合效果更好;若工匚玷,则模型2比模型1拟合效果更好。
㈩相关系数与相关性检验:
散点图虽然能帮助我们观察两个变量之间的线性相关关系,但在实际应用中很难说这些点是不是分布在某条直线附近。鉴于此,我们必须对x与y作线性相关检验,简称相关性检验。
对于变量x与y随机抽取到的n对数据(現,儿)(x2,y丿•••(x,y),样本的相关系数为:
为(x-x)(y-y)
i i
i=1
Kxy-
ii
i=1
11 2 2 nn
r= ,
:(》(x-x)2)X(X(y-y)2) ;'(Xx2-nx2)x(为y2-ny2)
Z Z Z I
i=1 i=1 i=1 i=1
相关系数公式的作用在于:对一组数据之间的线性相关程度作出定量的分析,而不是仅凭画出散点图,肉眼直观地从散点图上的形状粗浅地得出数据之间的线性相关程度。
1)相关系数r具有下列性质:
⑴|r|<1;⑵|r|的越接近于1,线性相关程度越强;⑶|r|的越接近于0,线性相关程度越弱2)相关性检验的步骤:
:x与y不具有线性相关关系;
-2在附表中查出r的一个临界值厂亦;
;:如果|r|>r,这是表明有95%的把握认为:x与y具有线性相关关系;
如果|r|<r,这是表明假设成立,认为:x与y不具有线性相关关系,所求的回归直线方程是毫无意义的。
二独立性检验的基本思想及其初步应用:
㈠不同的“值”表示个体所属不同类别这样的变量叫做分类变量。
㈡列联表咧出两个分类变量的频数表称为列联表。常用等高条形图展示列联表数据的频率特征。
㈢两个事件独立的含义:如果事件A与B的发生彼此互不影响,或者影响可以忽略不计,就可以认为事件A与B是相互独立的。把相互独立事件A与B同时发生,记做“AB”,那么其概率为:
P(AB)=P(A).P(B)。
还有其它的公式:P(AB)二P(A).P(B);P(AB)二P(A).P(B);P(AB)二P(A).P(B)
㈣独立性检验:
利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验反证法原理与独立性检验原理的比较
反证法原理
在假设H0下,如果推出一个矛盾,就证明了H0不成立
独立性检验原理
在假设H0下,如果出现一个与H0相矛盾的小概率事件,就推断H0不成立,且该推断犯错误的概率不超过这个小概率
一般地,假设有两个分类变量X和Y,它们取值分别为{X],x2}和
凶居},其样本频数列联表(称为2X2列联表)为:
(事件B)Y的取值y1
(事件B)Y的取值y2
总计
(事件A)X的取值x1
a
b
a+b
(事件A)X的取值x2
c
d
c+d
总计
a+c
b+d
a+b+c+d
假设H0:X与Y没有关系,即X与Y独立。
则有P(XY)=P(X)P(Y);
根据频率近似于概率,故有
a 3+b a-|-c
丸 X
日十b+匚十da-|-b+u十da+b-|-c+d
化简得
因此, 越小,两者关系越弱「订:-'<■越大,两者关系越强;
基于以上分析,构造随机变量
n(ad-bc)2
,其中"「「「二为样本容量
K2的值越小则关系越小,K2的值越大则关系越大。(实际应用中通常要求a,b,c,d都不小于5)
计算K2的观测值k并与K2作比较。
统计学研究发现,在H0成立的情况下,
P(K2>)=
即在H0成立的情况下,,,是一个小概率事件。
,则有理由判定H0不成立,即“X与Y有关系”。但这种判断会犯错误,犯错误的概率不
.
*(这里概率计算的前提是H0成立,即H0:两个分类变量没有关系)
若要推断的论述为H“X与Y有关系”。可以通过频率直观地判断两个条件概率P(Y=yJX=X])和P(Y=yJX=x2)是否相等。如果判断它们相等,就意味着X和Y没有关系;否则就认为它们有关系。由上表可知在X=X]的情
a g
况下,丫=儿的频率为….;在X=x2的情况下,Y=y1的频率为土。因此,如果通过直接计算或等高条形图发
日 C
现二^和二7相差很大,就判断两个分类变量之间有关系。
P(K2>k。)
ko
⑴根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界a,然后查下表确定临界值k°
利用独立性检验原理可以进一步给出推断“两个分类变量有关系”犯错误的概率。具体做法是
⑵利用公式计算随机变量K2的观测值k.
⑶如果K2的观测值k大于判断规则的临界值k0,即kNk0,就推断“X与Y有关系”,这种推断犯错误的概率不超过a;否则,就认为在犯错误的概率不超过a的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”。
按照上述规则,把“两个分类变量之间没有关系”错误地判断为“两个分类变量之间有关系”的概率不超过
定义:
a+bc+d
则
Kz=W2.
n(a+b)(c4-d)
*(a+ -Fd)
若“X和Y没有关系”则有
P(Ka>kJ=
有L三V可推出
W>
(a+ d)
"*n(a+b)(c+d.)
即可取
(a+c)(b+d)
w0=
n(a+b)(c4-d)
于是有以下判断规则:
当W的观测值 时,就判断“X和Y有关系”;否则,判断“X和Y没有关系”。这里为正实数,且满
足在“X和Y没有关系”的前提下
P(W2>w(j)=
㈤2x2列联表:
假设有两个分类变量X和Y,它们的值域分另为{x,,X」和{y,y」,其样本频数2x2列联表为:
y.
1212
y2
总计
X
a
2
b
a+b
1
X
c
d
c+d
2
总计
a+c
b+d
a+b+c+d
若要推断的论述为H:“X与Y有关系”,可以利用独立性检验来考察两个变量是否有关系,并且能较精确地给出这种判断的可靠程度.
具体的做法是,由表中的数据算出随机变量K2的值K2二
n(ad-bc)2
(a+b)(c+d)(a+c)(b+d)
,其中
n二a+b+c+d为样本容量的值越大,说明“X与Y有关系”成立的可能性越大.
随机变量K2越大,说明两个分类变量,关系越强;反之,越弱。
㈥x2(卡方)统计量:
假设有两个分类变量X和Y,它们的值域分另为{X],x2}和{y「y2},其样本频数列联表为:
yi
y2
总计
x1
a
b
a+b
X2
c
d
c+d
总计
a+c
b+d
a+b+c+d
若要推断的论述为H]:“X与Y有关系”,可以利用独立性检验来考察两个变量是否有关系,并且能较精确地给出这种判断的可靠程度。具体的做法是,由表中的数据算出随机变量K2的值(即K的平方)
K2=n(ad-be)2/[(a+b)(c+d)(a+c)(b+d)],其中n=a+b+c+d为样本容量,K2的值越大,说明“X与Y有关系”成立的可能性越大。
K2<,X与Y无关;K2>,X与Y有95%可能性有关;K2>%可能性有关
高中数学选修2-3第三章统计案例知识点必记
什么是回归分析,它的步骤是什么?答:回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法。
其步骤:收集数据T作散点图T求回归直线方程T利用方程进行预报.
线性回归模型与一次函数有什么不同?答:一次函数模型是线性回归模型的特殊形式,线性回归模型是一次函数模型的一般形式.
什么是残差?
答:样本值与回归值的差叫残差,即J=yi一A厂
4•什么是残差分析?
答:通过残差来判断模型拟合的效果,判断原始数据中是否存在可疑数据,这方面的分析工作称为残差分析.
5•如何建立残差图?
答:以残差为横坐标,以样本编号,或身高数据,或体重估计值等为横坐标,,如果残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,模型拟合精度越高,回归方程的预报精度越高.
建立回归模型的基本步骤是什么?
答:⑴确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量;
⑵画出确定好的解释变量和预报变量的散点图,观察它们之间关系(如是否存在线性关系等);⑶由经验确定回归方程类型(如我们观察到数据呈线性关系,则选用线性回归方程尸bx+a);⑷按一定规则估计回归方程中的参数(如最小二乘法);
⑸得出结果后分析残差图是否有异常(个别数据对应残差过大,或残差呈现不随机的规律性等等),若存在异常,则检查数据是否有误,或模型是否合适等。
什么是总偏差平方和?
答:所有单个样本值与样本均值差的平方和,即SST=£(y-y)2
i=1
什么是残差平方和?答:回归值与样本值差的平方和,即SSE=£(y-y)2
iii=1
什么是回归平方和?答:相应回归值与样本均值差的平方和,即ssr=£(y-y)2.
ii=1
什么是相关指数?
若y-y)2
ii
答:
R2=1—i=i、
L(y—y)2
i
i=1
?y=ebx+a
?
答:①根据观测数据计算由K2=
n(ad—be)2
(a+b)(c+d)(a+c)(b+d)
给出的检验随机变量K2
的值k,其值越大,说明“X与Y有关系”成立的可能性越大.
②当得到的观测数据a,b,e,d都不小于5时,可以通过查阅下表来确定断言“X与Y有关系”的可信程度.
P(R2>k)
k
说明:当观测数据a,b,e,d中有小于5时,需采用很复杂的精确的检验方法.
?
得到K2的观察值k常与以下几个临界值加以比较:
如果k〉,就有9000的把握因为两分类变量X和Y是有关系;如果k〉,就有95o:的把握因为两分类变量X和Y是有关系;如果k〉,就有9900的把握因为两分类变量X和Y是有关系;如果低于k<,就认为没有充分的证据说明变量X和Y是有关系.
128《统计案例》知识点总结 来自淘豆网m.daumloan.com转载请标明出处.