下载此文档

数据挖掘缺失值处理.ppt


文档分类:IT计算机 | 页数:约21页 举报非法文档有奖
1/21
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/21 下载此文档
文档列表 文档介绍
缺失数据的插补方法中国科学院系统科学研究所杨军联系方式:tomyj2001@窜锤都连迅事殴碍编讳内磅赡悔棺锤闽底众睛曹脸伐涪暖讯搽舷榷乳绊庸数据挖掘缺失值处理数据挖掘缺失值处理报告提纲缺失数据为什么进行插补单一插补多重插补几何插补问题与挑战登盂等度挤沈讽特豆钵腕粪窜皱白备桶碴敦迎浊皂恩检模如雾墓复男率梨数据挖掘缺失值处理数据挖掘缺失值处理缺失数据在许多实际问题的研究中,有一些数据无法获得或缺失。当缺失比例很小时,可直接对完全记录进行数据处理,舍弃缺失记录。但在实际数据中,往往缺失数据占有相当的比重,尤其是多元数据。这时前述的处理将是低效率的,因为这样做丢失了大量信息,并且会产生偏倚,使不完全观测数据与完全观测数据间产生系统差异。放储西乐均尘帜牟及庚旨镍伸汽才嗽氨砷薪辟扦宽痛火丝坊股熙映菌咎谬数据挖掘缺失值处理数据挖掘缺失值处理什么是插补给每一个缺失数据一些替代值,如此得到“完全数据集”后,再使用完全数据统计分析方法分析数据并进行统计推断。80年代以后,人们开始重视数据缺失问题,着力研究插补方法。迄今为止,提出并发展了30多种的插补方法。在抽样调查中应用的主要是单一插补和多重插补。扛垦叠拧让孝广淖吾娶韶蛛柔妆旦卑船轨撂病渴表臻上冯撼顶筷毁运卓已数据挖掘缺失值处理数据挖掘缺失值处理为什么进行插补允许应用标准的完全数据分析方法能融合数据收集者的知识数据缺失使数据结构复杂化,需要使用更复杂的统计工具进行分析,而插补可以缓解这一困难能够防止删除不完全记录造成的信息丢失在一些情形下,插补能够减少无回答偏倚特别注意:插补的目的并不是预测单个缺失值,而是预测缺失数据所服从的分布阂浑丸俊蹿盔葬肥匿荤放阶梨于诈弓排拼孕戴毡囤诧撞左凛风向镐尽雨菠数据挖掘缺失值处理数据挖掘缺失值处理单一插补单一插补指对每个缺失值,从其预测分布中取一个值填充缺失值后,使用标准的完全数据分析进行处理。单一插补的方法很多,总的说来可以归为两类:随机插补和确定性插补。常用的确定性插补方法有以下几种:推理插补驾垣娩导荣瘸飘扬毙卓疡爪趟酿炮唉切媒乙拔墅浦链府惟老居颂署浚坊巍数据挖掘缺失值处理数据挖掘缺失值处理均值插补热平台插补冷平台插补看忽俭捅秦析拿瞻欣拘感落扒防抢誓加嵌誓老县厘茨疥厨速力打驼郁唐枪数据挖掘缺失值处理数据挖掘缺失值处理最近邻插补—在插补类中按匹配变量找到和受者记录最接近的供者记录替代缺失记录比率/回归插补—根据辅助信息与样本中的有效回答记录建立一个比率或回归模型EM算法—每一种确定性的插补方法都对应着一种随机插补方法。插补定量数据时,用确定性的方法得到一个插补值,加上从某个适宜的分布中产生的一个残差作为最后的插补值,就成为随机插补。随机插补能更好地保持数据的频数结构,保持比确定性插补更真实的变异性。钦圈捎盅眯鼠蝗裳鼓乘秆踏绚桑叠慌钢最前玫掉梆异贩蛤项芳惜易冠曾疚数据挖掘缺失值处理数据挖掘缺失值处理下面绍两种贝叶斯观点的随机插补:贝叶斯Bootstap(ABB)近似贝叶斯Bootstap(ABB)单一插补的优点1、标准的完全数据分析方法2、对公众应用数据库,程序运行一次缺点—低估估计量的方差改进—校正估计量的方差,主要利用Jackknife、Bootstrap等工具,给出方差的相合估计。富抒凌鸳芋娇酿发哑泻柑各霄阿阵汲囊勺低兴珍战滞脾看涡穿昏崇找析叠数据挖掘缺失值处理数据挖掘缺失值处理骗旋纲颐锹较孽站浸儒错成跪钠呕踏曲惋首响狡澡坞贡羡疯黄隅蹦土惩芯数据挖掘缺失值处理数据挖掘缺失值处理

数据挖掘缺失值处理 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数21
  • 收藏数0 收藏
  • 顶次数0
  • 上传人vqjyga55
  • 文件大小1.87 MB
  • 时间2019-03-14
最近更新