该【数据挖掘的清洗 】是由【7489238】上传分享,文档一共【46】页,该文档可以免费在线阅读,需要了解更多关于【数据挖掘的清洗 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。为什么需要数据预处理?
01
数据清洗
02
数据集成与转换
03
数据归约
04
数据离散化与概念层次的构建
05
本章小结
06
数据预处理
为什么需要数据预处理 ?
在现实社会中,存在着大量的“脏”数据
不完整性(数据结构的设计人员、数据采集设备和数据录入人员)
缺少感兴趣的属性
感兴趣的属性缺少部分属性值
仅仅包含聚合数据,没有详细数据
噪音数据(采集数据的设备、数据录入人员、数据传输)
数据中包含错误的信息
存在着部分偏离期望值的孤立点
不一致性(数据结构的设计人员、数据录入人员)
数据结构的不一致性
Label的不一致性
数据值的不一致性
为什么需要数据预处理 ?
数据挖掘的数据源可能是多个互相独立的数据源
关系数据库
多维数据库(Data Cube)
文件、文档数据库
数据转换
为了数据挖掘的方便
海量数据的处理
数据归约(在获得相同或者相似结果的前提下)
高质量的决策必须基于高质量的数据基础上
数据仓库是在高质量数据上的集成
没有高质量的数据,就没有高质量的挖掘结果
为什么需要数据预处理?
数据清理
填入缺失数据
平滑噪音数据
确认和去除孤立点
解决不一致性
数据集成
多个数据库、Data Cube和文件系统的集成
数据转换
规范化、聚集等
数据归约
在可能获得相同或相似结果的前提下,对数据的容量进行有效的缩减
数据离散化
对于一个特定的连续属性,尤其是连续的数字属性,可以把属性值划分成若干区间,以区间值来代替实际数据值,以减少属性值的个数.
数据预处理的主要任务
数据预处理的形式
数据清理
数据集成
数据转换
数据归约
01
为什么需要数据预处理?
02
数据清洗
03
数据集成与转换
04
数据归约
05
数据离散化与概念层次的构建
06
本章小结
主要内容
补充缺失数据
22%
处理不一致的数据
40%
识别孤立点,平滑噪音数据
38%
主要任务
数据清洗
缺失数据的处理
部分数据通常是不可用的
在许多元组中部分属性值为空。如:在客户表中的客户收入为空。
导致数据缺失的原因
数据采集设备的故障
由于与其它信息的数据存在不一致性,因此数据项被删除
由于不理解或者不知道而未能输入
在当时数据输入的时候,该数据项不重要而忽略
数据传输过程中引入的错误
缺失数据通常需要经过合理的推断予以添加
02
手工填入空缺的值
枯燥、费时,可操作性差,不推荐使用
03
使用一个全局的常量填充空缺数值
给定一个固定的属性值如:未知、不祥、 Unknown 、 Null等
简单,但是没有意义
忽略该记录(元组)
通常在进行分类、描述、聚类等挖掘,但是元组缺失类标识时
该种方法通常不是最佳的,尤其是缺失数据比例比较大的时候
01
缺失数据的处理方法
数据挖掘的清洗 来自淘豆网m.daumloan.com转载请标明出处.