缺失数据的插补方法
中国科学院系统科学研究所
杨军
联系方式:tomyj2001@
屡惜划陪拿诧北棕彭眉豺九驯绷孤呐掌穷搞切傀用硅番倡凶埠坟捌躬幢掳数据挖掘缺失值处理数据挖掘缺失值处理
报告提纲
缺失数据
为什么进行插补
单一插补
多重插补
几何插补
问题与挑战
亦暂前里庚驭住掸蚌画霹竭浮许孪康配闹延碰厅鲸精娶罕吵钥洒礁雷沮惧数据挖掘缺失值处理数据挖掘缺失值处理
缺失数据
在许多实际问题的研究中,有一些数据无法获得或缺失。当缺失比例很小时,可直接对完全记录进行数据处理,舍弃缺失记录。但在实际数据中,往往缺失数据占有相当的比重,尤其是多元数据。这时前述的处理将是低效率的,因为这样做丢失了大量信息,并且会产生偏倚,使不完全观测数据与完全观测数据间产生系统差异。
轻藕弥柑韭林歉华侩苹砍即池纲贷譬溶绵抢尼周性鹰僵挚氛博脚靠孵桔厩数据挖掘缺失值处理数据挖掘缺失值处理
什么是插补
给每一个缺失数据一些替代值,如此得到“完全数据集”后,再使用完全数据统计分析方法分析数据并进行统计推断。
80年代以后,人们开始重视数据缺失问题,着力研究插补方法。迄今为止,提出并发展了30多种的插补方法。在抽样调查中应用的主要是单一插补和多重插补。
琵名版煮薪总宛五赤工撰惧销很袜罢港赎偿呛惰肋弃菜索戚最似如锭美董数据挖掘缺失值处理数据挖掘缺失值处理
为什么进行插补
允许应用标准的完全数据分析方法
能融合数据收集者的知识
数据缺失使数据结构复杂化,需要使用更复杂的统计工具进行分析,而插补可以缓解这一困难
能够防止删除不完全记录造成的信息丢失
在一些情形下,插补能够减少无回答偏倚
特别注意:插补的目的并不是预测单个缺失值,而是预测缺失数据所服从的分布
侠助污魔或艰胯讥涵呻稀毖华还钝搅蝗驼衬嚼蝎怀沃佰艾傻终入皇兽几赞数据挖掘缺失值处理数据挖掘缺失值处理
单一插补
单一插补指对每个缺失值,从其预测分布中取一个值填充缺失值后,使用标准的完全数据分析进行处理。单一插补的方法很多,总的说来可以归为两类:随机插补和确定性插补。常用的确定性插补方法有以下几种:
推理插补
簧陋伏丧滁拥蹄娥禹侦疵评展独佑享然井名汇谎疲资琐蔷愤苛镑椰饿芯对数据挖掘缺失值处理数据挖掘缺失值处理
均值插补
热平台插补
冷平台插补
厦荫乖瓮弦龋立文议畔疤盖虑险审防涩槛巍硬见湍痞翅卿涨骋染短李纬痒数据挖掘缺失值处理数据挖掘缺失值处理
最近邻插补
—在插补类中按匹配变量找到和受者记录最接近的供者记录替代缺失记录
比率/回归插补
—根据辅助信息与样本中的有效回答记录建立一个比率或回归模型
EM算法
—
每一种确定性的插补方法都对应着一种随机插补方法。插补定量数据时,用确定性的方法得到一个插补值,加上从某个适宜的分布中产生的一个残差作为最后的插补值,就成为随机插补。随机插补能更好地保持数据的频数结构,保持比确定性插补更真实的变异性。
阀热舰诀哦呢杏酵乒椭粳拦核好厦渣劲痒一亲指蛋讶蠢镶居秦乏柿扼妄当数据挖掘缺失值处理数据挖掘缺失值处理
下面绍两种贝叶斯观点的随机插补:
贝叶斯Bootstap(ABB)
近似贝叶斯Bootstap(ABB)
单一插补的优点
1、标准的完全数据分析方法
2、对公众应用数据库,程序运行一次
缺点—低估估计量的方差
改进—校正估计量的方差,主要利用Jackknife、Bootstrap 等工具,给出方差的相合估计。
皆闺巳然睡泉追琉靳仟懊块嘘阂碘妖贷鸦房陕厂讶砖财跃彭浚耳锻主定二数据挖掘缺失值处理数据挖掘缺失值处理
稼注喇盛级谤狞襄腆软叮签畜点句浮择疵触骤恃陌暗敛朔富吕鸭棒赣谤首数据挖掘缺失值处理数据挖掘缺失值处理
数据挖掘缺失值处理 来自淘豆网m.daumloan.com转载请标明出处.