数据质量管理
数据管理
演讲人: 部门: 职务:
数据管理
数据管理的难点与重点
2
数据质量控制方法论
3
案例介绍
4
数据管理的目标
1
目标一:安全
访问安全
存储安全
目标二:正确
数据精确
数据正确
目标三:效率
常规加载的效率
非常规加载的效率
数据管理的目标
数据管理
数据管理的难点与重点
2
数据质量控制方法论
3
案例介绍
4
数据管理的目标
1
数据质量管理的难点与重点
数据质量概念
1
数据质量的重要性
2
数据质量不高的主要原因
3
数据质量归类
4
数据质量示例
5
数据质量管理方法
6
数据本身的数据质量
数据的真实性:
数据必须真实准确的反映实际发生的业务。
数据的完备性:
数据的完备性是说数据是充分的,任何有关操作的数据都没有被遗漏。
数据的自治性
数据并不是孤立存在的,数据之间往往存在着各种各样的约束,这种约束描述了数据的关联关系。数据必须能够满足这种数据之间的关联关系,而不能够相互矛盾。
数据质量概念
数据的真实性、完备性、自洽性是数据本身应具有的属性,称为数据的绝对质量,是保证数据质量的基础。除了数据的绝对质量外,还有我们在利用和存贮数据的过程中所产生的数据质量,包括使用质量、存贮质量和传输质量,称之为过程质量。
数据的过程质量
数据的使用质量:
数据的使用质量是指数据被正确的使用。再正确的数据,如果被错误的使用,就不可能得出正确的结论。
数据的存贮质量:
指数据被安全的存贮在适当的介质上。所谓安全是指采用了适当的方案和技术来抵制外来的因素,使数据免受破坏,备份是我们常使用的技术,如异地备份和双机备份等,所谓存贮在适当的介质上是指当需要数据的时候能及时方便的取出。
数据的传输质量:
数据的传输质量是指数据在传输过程中的效率和正确性。在现代信息社会中,数据在异地之间的传输越来越多,保证传输过程中的高效率和正确性非常重要。
数据质量概念
关系建设系统成败
很多数据仓库应用程度不高或最后失败,归根结底都是数据质量不高造成的。
数据质量好坏关系到结果与预期是否一致
低下的数据质量往往造成开发出来的系统与用户的预期大相径庭
数据质量是决策正确的保障
数据信息是企业重要的战略资源,合理有效的使用正确的数据能指导企业领导作出正确的决策,提高企业的竞争力。不合理的使用不正确的数据(即差的数据质量)可导致决策的失败,正可谓差之毫厘、谬以千里。
数据质量是长期困扰开发的难题
数据质量不高已经成为困扰此类项目的开发人员与用户的一个严重问题。
数据质量重要性
数据质量不高的主要原因
数据质量归类
数据质量示例
数据质量管理方法
数据管理
数据管理的难点与重点
2
数据质量控制方法论
3
案例介绍
4
数据管理的目标
1
数据质量控制方法论
数据源检验方法
1
数据源检验适用规则
2
数据检验方法
3
数据检验适用规则
4
数据质量检验的顺序
5
数据源检验方法
分类
检验方法
检查范畴
异常处
理方式
说明
时效性
时效性检验
数据是否
按时到达
报警
正确性
完整性检验
代码一致性
记录条数检查
停止ETL
原则性检验
数据值检查
停止ETL
对单字段的数值检查。不符合原则性检验时该数据一定是错误的。
逻辑性检验
数据值检查
报警
对单表或多个表内字段间逻辑关系的检查
数据源检验是对HDS中的源表进行的数据质量检查。数据源检验分为时效性
检验和正确性检验两个大类,其中正确性检验又分为完整性检验、原则性检验、
逻辑性检验。
数据源检验方法
时效性检验
判断在约定的时间内,数据源的数据是否按时到达
完整性检验
HDS数据表与代码表的一致性检查
HDS数据表记录数检查
原则性检验
HDS数据表中字段的数值是否在合法的区间内
逻辑性检验
单表或多个表内字段间逻辑关系的检查
数据源检验适用的规则
时效性检验
√规则一:时效性检验适用于HDS中所有的代码表和数据表。
完整性检验
√规则二:包含外键字段的HDS数据表必须进行代码一致性检验。
√规则三:包含日期型字段且可以确定记录数范围的HDS数据表必须进行记录条数检验。
原则性检验
√规则四:HDS数据表中可以确定取值范围的字段必须进行原则性检验。
逻辑性检验
√规则五:单表或多个表内的字段具有相同的业务含义,不同的统计口径,且存在汇总关系。满足此条件时必须进行逻辑性检验。
√规则六:本表的字段与其他表中的字段的业务含义、统计口径相同。满足此条件时必须
数据质量管理 来自淘豆网m.daumloan.com转载请标明出处.