ETL试验汇报
姓名:
学号:
创建数据源
在数据源/文件/文本文件-、、、。
创建工程、新建转换,并装载文本文件数据源,以下图所表示:
创建工程函数
calIDcard:实现由15位身份证到18位身份证转变
calAge:由身份证计算实际年纪
calSex:由身份证计算性别
calBirth:由身份证计算出生年月日
calPID:由身份证号计算省编号
calPhone:由手机号码计算运行商编号
calTime:把通话统计通话时长转换成以秒为单位数字
以上函数实现源码以下:
输犯错误数据
错误数据包含年纪缺失、年纪错误、性别缺失、性别错误。在过滤条件中利用自定义函数过滤即可,过滤条件为:is_empty(Age)==true || Age!=calAge(IDCard) || is_empty(Sex)==true || Sex!=calSex(IDCard),图所表示:
户籍信息修正
在高级清洗转换中利用自定义函数把15位身份证转换为18位,把年纪缺失、年纪错误、性别缺失、性别错误修正,以下图所表示:
删除反复行
原数据中可能存在反复数据,利用数据转换中删除反复行可删除反复数据,同时能够在错误输出中得到反复数据。
加载电话号码信息
加载电话号码信息,然后利用高级清洗转换把电话号码信息中15位身份证号码转换成18位身份证号码。
连接身份证号码和电话信息
利用内连接,把户籍信息和电话号码信息经过身份证号码连接起来,以下:
生成电话信息事实表
把户籍信息和电话号码信息连接起来以后,经过数据清洗和转换
ETL实验报告样稿 来自淘豆网m.daumloan.com转载请标明出处.