第四讲回归分析回归诊断
第一页,本课件共有119页
通过简单回归和多元回归模型可以有了计算结果。
这些结果能做推断,需要建立在一些概述性统计量的基础之上,这些统计量由数据来计算。而只有当标准的回归假定满足时,所做的推断才有可能是换等内容,异常点的识别是处理统计诊断的重要内容之一,它进行的好坏通常影响到整个过程的诊断。
第十三页,本课件共有119页
第十四页,本课件共有119页
第十五页,本课件共有119页
第十六页,本课件共有119页
第十七页,本课件共有119页
异常值有时一个,有时多个
第十八页,本课件共有119页
在回归模型中,异常点是指对既定模型偏离很大的数据点。但究竟偏离达到何促程度才算是异常,这就必须对模型误差项的分布有一定的假设(通常假定为正态分布)。目前对异常点有以下两种较为流行的看法:
异常点
第十九页,本课件共有119页
把异常点看成是那些与数据集的主体明显不协调,使得研究者大感惊讶的数据点。这时,异常点可解释为所假定的分布中的极端点,即落在分布的单侧或双侧 分位点以外的点,而 通常取很小的值(如: ),致使观察者对数据中出现如此极端的点感到意外。
把异常点视为杂质点。它与数据集的主体不是来自同一分布,是在绝大多数来自某一共同分布的数据点中掺入的来自另一分布的少量“杂质”
第二十页,本课件共有119页
残差
在回归分析中,异常数据的发现或模型的检测、标准假设的检测的一个简单而有效的方法是研究残差图。
残差图能够指明哪个或哪些标准假定不成立。更重要的是,残差分析可能引导我们发现数据中的结构,也可能指出那些蕴涵在数据中的、在只用一些概述性统计量分析时容易被疏漏的信息。这些启发或线索可能帮助我们更好地理解所研究的问题,或者找到更好的模型。
对残差进行图形分析往往是回归分析中最重要的一部分工作。
第二十一页,本课件共有119页
残差
普通最小二乘法的残差:
学生化残差:
第二十二页,本课件共有119页
第二十三页,本课件共有119页
强影响点
强影响点和异常点是两个不同的概念,它们之间既有联系也有区别。强影响点可能同时又是异常点也可能不是;反之,异常点可能同时又是强影响点也可能不是。
第二十四页,本课件共有119页
已知20条河流流域的有关测量数据.
研究者感兴趣的是,河流周边地区土地的利用程度对水污染(平均氮浓度)有何影响
河流
农田覆盖率
森林覆盖率
住宅地占土地总面积百分比
工业及商业用地占总面积百分比
春夏秋冬各季度采集到的样本的平均氮浓度mg/升
River
Agr
Forest
Rsdntial
ComIndl
Nitrogen
Olean
26
63
Cassadaga
29
57
Oatka
54
26
Neversink
2
84
1
Hackensack
3
27
Wappinger
19
61
Fishkill
16
60
Honeoye
40
43
Susquehanna
28
62
Chenango
26
60
East Canada
6
84
Saranac
3
81
Ausable
2
89
Black
6
82
Schoharie
22
70
Raquette
4
75
Oswegatchie
21
56
Cohocton
40
49
第二十五页,本课件共有119页
利用三个数据集合获得的回归系数和其T检验统计量相差很大
(4)
(5)
第二十六页,本课件共有119页
回归统计
Multiple R
R Square
第四讲回归分析回归诊断 来自淘豆网m.daumloan.com转载请标明出处.