第四章数据质量管理
数据质量管理
通过计划、实施和控制活动,运用质量管理技术来度量、评估、改进和保证数据的恰当使用。
1-(1-e)n ,e表示单个步骤的错误概率()
——数据错误常常出自以讹传讹
——例如:人次和人数问题
——近似度(proximity),置信区间(confidence)
个人
家庭
家族
销售团体
合法的
销售的
统计的
置信区间
pleteness)
数据集之中有多少数据缺失了一个或多个详细数据
pliance)
无法在记录级别上满足业务规则的记录数
准确性(accuracy)
数据集中可能的错误
——真实性;可靠性;
——概率;置信水平;大数据
香农
H=log2N;256种状态可以用8个字节表示;26个字母,
H=-∑p(xi)log2p(xi)
信息熵
与质量管理大师定义的质量管理循环相类似:
计划——实施——学习——行动
计划——实施——监控——行动
数据质量管理过程
制定数据质量评估计划和识别数据质量度量关键指标
实施度量和提升数据质量的流程
监控根据业务预期定义的数据质量水平
执行解决数据质量问题的行动方案
数据质量的根本是“适用性”
数据质量的适用性就是要满足业务活动对数据质量的特定需求,而数据质量的需求也隐含在各项业务活动和业务政策之中,如管理法规、行业标准或标准的数据交换格式;还有就是市场、销售、佣金、物流等方面的规则
例如:行业标准要求药品行业要采用标准的药品编码
准确性(Accuracy)
是指数据准确反映其所建模的“真实世界”实体的程度。
度量数值与一个已经确定的正确信息参照源的一致性可以度量准确性,如将数据值与来自数据库或其他数据表的正确的数据集比较,有时也可能需要手工来检查数值的准确性。
(1)
收退货流程 来自淘豆网m.daumloan.com转载请标明出处.