(ExplorataryDataAnalysis,简称EDA)的基本思想是:从数据本身出发,不拘泥于模型的假设来探究数据分布的大致情况,也可以为进一步结合模型的研究提供线索,为传统的统计推断提供良好的基础和减少盲目性。数据的计量与类型定性数据定量数据例:性别、种族、运动项目例:成绩、年龄、身高、产量定类数据→定类变量定序数据→定序变量例:教育程度、产品等级、满意度度量尺度的信息含量由弱到强排列:定类尺度→定序尺度→定距尺度→定比尺度得到数据后,可以通过图表和数据特征分析得到初步印象或初步结论——一、图表分析:频数直方图、饼图、茎叶图、箱线图、交叉表等二、数据特征分析:集中趋势、离散趋势、分布形状数据的探索性分析一、,按某个标志(或几个标志)把被研究的总体划分为若干个不同性质的组。例,收集到某班所有同学的考试成绩,为了研究需要划分优、良、及格、不及格四个成绩段,每个成绩段的范围分别是85-100,70-84,60-69,0-59,将每个成绩归入到相应的组中。对定量数据进行分组时,需要建立频数分布表,以便更有效地显示数据的特征和分布。频数分布表示例如下:原始数据:24,26,24,21,27,27,30,41,32,38组界(上界+下界)/2组距组别组中值频数15且<2520325且<3530535且<,有时要观察某一值以上或某一值以下频数或频率之和,这就需要在频数分布表基本分组的基础上绘出累积频数或累计频率。“向下累积”由表的上方向表的下方的频数或频率相加“向上累积”由表的上方向表的下方的频数或频率相加例1、2004年A题:奥运会临时超市网点设计为了得到比赛主场馆的人流量规律,在已经建设好的某运动场,通过对预演的运动会对观众进行问卷调查,了解观众(购物主体)的出行和用餐的需求方式和购物欲望。根据问卷调查数据,找出观众在出行、用餐和购物等方面的规律。(这里仅以前30个数据为例)No性别年龄消费额1女222男213男234男235男226男237女428女329男4210女2311男3412女2313女1214男1515女22No性别年龄消费额16女1317女1318男2319男4120男3421男1122女2323男4124女2225男2326男2127女2328女3329男2330男32
探索性数据分析培训课件 来自淘豆网m.daumloan.com转载请标明出处.