下载此文档

探索性数据分析简介.ppt


文档分类:IT计算机 | 页数:约29页 举报非法文档有奖
1/29
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/29 下载此文档
文档列表 文档介绍
探索性数据分析简介
4. 启示(Revelation)
EDA强调启示。
将中位数、极端数、四分数放在一起的五数总括可知:这11类病人生存百分率的典型值是58%,尽管生存率可以高达100%,低到36%,%~%
Date
15
试验优化技术
6. 展布(Spread)
展布是反映数据集中程度的一个指标,在EDA中,通常用两个分位点的差距来定义。如一个简单的耐抗量度是四分展布dF,它定义为
dF=Fu-Fl
它给出数据批的中间一半的宽度,简称四分展布或F展布。 F展布强调数据批中心部分的行为而不强调极端值,它是对边远值不敏感的展布,这一点极差和标准差都做不到。
当然,两个极端值之差即极差也是展布,但是离群值对极差影响太大,一般极差没有什么耐抗性。
Date
16
试验优化技术
7. 临界值(Critical value)
在EDA中,称Fl- Fl与Fu+ Fl分别为下、上内界值,称最接近它们的数据为临界值,将小于下内界值和大于上内界值的数据称为界外值或离群值。
进一步,又称Fl-3 Fl与Fu+3 Fl为下、上外界值,而称这之外的数据为远外值或异常值。
EDA要求总括统计量要对离群值特别是异常值具有耐抗性。
Date
17
试验优化技术
四、耐抗线性回归
传统回归使用最广泛的是最小二乘回归,但最小二乘回归不能提供耐抗性。耐抗线性回归避免了这一困难。它把数据分成3个组,用组内中位数达到耐抗性。基本思路是:首先把n个数据点(x1,y1),…,(xn,yn)分成3个组,每个组内用中位数形成一个总括点,再在这3个总括点的基础上得到一条线,然后通过迭代调整或平滑这条直线。
这种方法称为三组耐抗线法。
Date
18
试验优化技术
1. 形成3个组
首先把x的值排序,使得 ,在此基础上,把n个数据点 (xi,yi) 分成左、中、右3个组,使组的大小尽可能相等。当xi之间没有等值结时,组内的数据点数依赖于n除以3得到的余数:
组 n=3k n=3k+1 n=3k+2
左 k k k+1
中 k k+1 k
右 k k k+1
Date
19
试验优化技术
当xi之间有等值结时,各组数据点个数可能不能达到上述配置,因为有同样x值的点应该进入同一组。
Date
20
试验优化技术
2. 确定总括点
在所形成的3个组内,先求组内x值的中位数,然后单独求y值的中位数,得到总括点的x坐标和y坐标:
(xL,yL) (xM,yM) (xR,yR)
得到的这3个总括点可能是数据点,也可能不是数据点,因为x和y的中位数是单独确定的。
这种确定组内总括点的方法给了拟合直线耐抗性。
Date
21
试验优化技术
3. 计算斜率和截距或中心值
若回归直线为 ,
则,初始直线的斜率
初始直线的截距
当所有的数据点的x值都远离0时,用斜率和截距来表示拟合直线意义不大,以斜率和中心值来表示通常更有用。
Date
22
试验优化技术
以斜率和中心值来表示的初始直线是
式中,斜率b0的计算和前面一样,中心值(又称水平)a0*用下式计算:
Date
23
试验优化技术
4. 残差拟合与迭代
得到初始直线后,计算每个数据点的残差

按先前的分组找出eL,eM,eR,利用三个残差数据的总括点
用相同的方法拟合直线

探索性数据分析简介 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数29
  • 收藏数0 收藏
  • 顶次数0
  • 上传人电离辐射
  • 文件大小1.22 MB
  • 时间2022-04-09
最近更新