数据挖掘流程
大数据应用基础——第三次课
魏炜
******@
大数据应用基础-数据挖掘流程
第1页
数据挖掘基本流程
数据预处理
2
每个变量值域区间(最大值和最小值)是否合理?全部值都落在期望区间内吗?
平均值与中位数是相等还是差异很大(这有利于说明变量是否符合正态分布)?数据是对称还是倾斜。
每个变量标准差是多少?(远离属性均值超出两个或三个标准差值可能是离群点)
有多少缺失值?
大数据应用基础-数据挖掘流程
第18页
直方图
箱图
箱图
散点图
经过直方图,能观察连续型变量分布是否靠近正态分布。对于离散型变量,则能够用频次分析。
经过箱图,能观察到离群值,比如识别出观察值尤其高个案。
经过散点图,能了解属性之间是否有相关性。
大数据应用基础-数据挖掘流程
第19页
数据清理(数据预处理)
“数据主要程度大过算法本身!”
不论教授多有经验,不论算法再完美,也不可能从一堆垃圾中发觉宝石。
人们往往没有那么好运气,有现成质量好数据能够直接用。现实世界数据是“杂乱”,其中总是有这么或那样问题。
“经常保持对客户数据怀疑之心!”“全部数据都是脏”
比如,有些数据是缺失(属性值是空值),有些是含噪声(属性值是错误,或有孤立点数据),有时一样信息采取了各种不一样表示方式(在编码或命名上存在不一致)。
大数据应用基础-数据挖掘流程
第20页
数据清理
对于在商业中比较主要字段,系统开发者和系统使用者会尽可能确保其正确性。然而,对于在商业中不太主要字段,人们往往不太重视确保其质量。
经过数据清理,能够确保留入数据仓库中信息是完整、正确和格式一致。
假如数据有误,那么所得到结果很可能有误导性。
不过,数据挖掘者不应该太挑剔,因为我们往往只能得到质量不好数据。
大数据应用基础-数据挖掘流程
第21页
数据清理
假如你企业中有数据仓库,应搞清楚这些数据是怎样搜集,这对了解数据质量很主要。最少应该知道每个字段取值来自哪里、合理取值范围、为何会有缺失值等。这对数据清理很有帮助。
大数据应用基础-数据挖掘流程
第22页
数据清理
数据清理也叫数据清洗。
这一步主要针对缺失值、数据噪声、离群值。
大数据应用基础-数据挖掘流程
第23页
缺失值
缺失值很常见。比如,在销售表中用户信息当中,可能除了名字外,其它各个属性都有缺失值。
我们尤其不希望主要属性存在缺失值。
大数据应用基础-数据挖掘流程
第24页
缺失值成因
分析师首先应该了解数据缺失原因。只有知道详细缺失原因后,才能有放矢。
产生缺失值原因很多,可能是:
这些数据并没被统计下来;
测量设备出现故障;
对数据错误地更新造成一些字段信息丢失;
被测量对象(头盖骨或植物)损坏或死亡了。
有时,还没来得及提供属性值。
大数据应用基础-数据挖掘流程
第25页
缺失值成因
有时,当你从外部数据源中追加人口统计信息到客户信息中时,你没能找到一部分客户这类信息。
很多时候,最初搜集数据时,有些变量被认为不太主要,所以留下空白。比如,银行并不尤其需要知道客户年纪,所以年纪变量会存在许多缺失值。
“被掩盖缺失值”:有时,用户不希望提交个人信息,就会有意向字段输入不正确值(比如把生日设置为1月1日)。一个类似例子是,数据中很多客户在19出生。为何呢?其实因为数据输入界面坚持要出生日期。所以客服人员在不知道这个日期时,就会键入6个“1”,从而输入1911月11日。
大数据应用基础-数据挖掘流程
第26页
缺失值处理方法
处理方式有各种:
有些有缺失值变量实际上并不需要处理,因为你其实知道缺失值实际值是什么。
删除缺失值较多(比如20%以上属性都存在缺失值)个案(即统计、行、实例、元组) ,尤其是关键属性值缺失个案。
剔除全部含有缺失值个案。此法适于有缺失值个案数量占比很小情况下。此法操作简单方便,而且留下来数据全是有完整统计,数据很洁净。不过,丢弃全部包含缺失值个案可能会引入偏差,因为这些个案不一定是随机分布。
删除有大量缺失值变量。此法适于那些缺失值占比(比如超出20%)较大变量。对于缺失值占比超出50%变量,则普通提议删除。
大数据应用基础-数据挖掘流程
第27页
缺失值处理方法
人工填写缺失值。此法工作量大,对于海量数据可行性极低。
使用属性中心度量来填充。这类指标有平均值、中位数、众数等。对于靠近正态分布变量来说,平均值是最正确选择;然而,对于偏态分布变量来说,中位数是更加好指标。此种方法偏差大,因为这种替换毕竟是人为替换,属于“不得已而为之”策略。但其简单、速度快,适合用于大数据集。
使用与给定个案同类样本属
大数据应用基础-数据挖掘流程 来自淘豆网m.daumloan.com转载请标明出处.