信息系统数据梳理方法浅析
作者: 吴世旗
2007-5-17 13:37:19
利用信息技术强化企业管理的新纪元已经开始了。ERP企业资源计划[1][2]和CRM客户关系管理[3][4]以及SCM供应链管理[5]建设的基础是充分利用企业的数据资源。如果缺乏有效的数据信息,其应用水平只能是“无效进、无效出”。为了提升管理效率,公司在存货、供货、客户、零售和其他重要的企业信息方面都需要高质量的数据。否则企业资源计划和客户关系管理的实施是难以成功的。数据梳理技术[6][7]是广泛实施数据应用项目(如实施DSS, CRM等)的基础,通过数据梳理,可以彻底搞清楚企业现有数据的内容、结构、模式、数据属性、数据质量等至关重要的内容,从而为构建新的数据模式和建立新的管理体系打下基础。
1. 数据梳理的内涵
一些业务和IT 经理们在研究公司的发展时,都会面对同样的问题。即由于得不到正确的数据,公司会在不完善和不可信的数据基础上做出错误的决策。
尽管数据梳理的重要性常常被忽视,可它是开展任何管理活动的基础,企业资源计划的实施、客户关系管理的使用、数据应用开发和管理软件的改写,实际上都应从数据梳理开始。
对企业资源计划和数据库应用的工业评估表明,这些项目要么失败,要么超出当时预算的65-70%。几乎在所有的情况下,项目的失败、超支和延长工期都是由同一个问题引起的,即对数据管理活动起关键作用的数据的质量、内容和完整性得不到正确的确认。这些问题在项目开始之前应引起高度重视并得到妥善解决。在数据管理活动最开始阶段就确认数据质量,可以大大降低项目失败的风险。
为了迎接信息化建设的挑战,数据梳理有助于了解公司数据的基础条件。数据梳理,也叫做数据剖析或数据审计,可以明确地展现公司数据现状及其特点。数据梳理主要是指对数据的结构、内容和关系进行分析,在关键的数据诊断阶段可以提供公司数据的质量信息。这些信息在帮助确定公司能提供什么样的数据和这些数据的有效性和实用性等方面起到重要作用。使用合理的数据梳理方法,可以随时透视公司业务过程和改善公司的业务流程。
一般数据问题
大多数公司都存在数据问题[8]。主要表现在数据难于管理,对于数据对象、关系、流程等难于控制。其次是数据的不一致性,数据异常、丢失、重复等,以及存在不符合业务规则的数据、孤立的数据等。在实施任何管理项目之前,需要了解支持管理活动的基本信息:
(1) 在本管理活动中使用的数据质量是否可靠,
(2) 现有数据能否支持项目功能,
(3) 本活动中的数据是否符合预期的业务规则,
(4) 公司推行的管理活动是否可以获得所需要的数据源。
如果没有清楚地了解这些事情就开始实施诸如ERP等管理项目,将导致开发成本超支或者可能的项目失败。据工业估计,商业智能和客户关系管理的成功率在30%——50%之间。
公司通常不了解数据质量问题对公司业务影响程度。公司内部的数据问题会导致销售额下降、支出浪费、不明智的决策、不规范的客户关系。最终导致经营失败。
数据结构分析
通过数据结构分析[9]来了解数据模式和元数据库[10],帮助确定在表中或者在栏中的数据是否一致或者是否符合公司业务要求。
元数据检验
大多数的数据都有与之相关联的元数据[11],或者具有可描述的数据特征。它可能存在于相关数据库、数据模型或文本文件中。元数据中所包含的信息可以指示出数据的类型、字段长度,数据是否唯一,或者字段是否为空或为零等。
元数据用于描述表格或者表格栏中的数据。数据梳理方法是对数据进行扫描并推断出相同的信息类型。通常,元数据和数据的性质完全不同。例如,在元数据中设计长度为255字符、行数1000万行的字段。如果实际数据中最长的数据元素为200个字符,则字段设计的长度明显大于要求的长度,那么意味着浪费了550MB的磁盘空间。表1 所示的是典型的产品字段元数据应该包含的信息的实例。
数据列分析
字段:产品__ 描述
定义类型:VARCHAR
定义长度:38 chars
公制名称
公制值
数据类型 VARCHAR
主键候选 no
唯一计数 8513
唯一性
模式计数 5790
最小值 #101 GEN…
最大值 ZOO ANIMA.
最小长度 5
最大长度 38
零计数 1
空计数 0
真
信息系统数据梳理方法浅析 来自淘豆网m.daumloan.com转载请标明出处.