下载此文档

ETL实验报告样稿.doc


文档分类:行业资料 | 页数:约8页 举报非法文档有奖
1/8
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/8 下载此文档
文档列表 文档介绍
ETL试验汇报
姓名:
学号:
创建数据源
在数据源/文件/文本文件-、、、。
创建工程、新建转换,并装载文本文件数据源,以下图所表示:

创建工程函数
calIDcard:实现由15位身份证到18位身份证转变
calAge:由身份证计算实际年纪
calSex:由身份证计算性别
calBirth:由身份证计算出生年月日
calPID:由身份证号计算省编号
calPhone:由手机号码计算运行商编号
calTime:把通话统计通话时长转换成以秒为单位数字
以上函数实现源码以下:



输犯错误数据
错误数据包含年纪缺失、年纪错误、性别缺失、性别错误。在过滤条件中利用自定义函数过滤即可,过滤条件为:is_empty(Age)==true || Age!=calAge(IDCard) || is_empty(Sex)==true || Sex!=calSex(IDCard),图所表示:

户籍信息修正
在高级清洗转换中利用自定义函数把15位身份证转换为18位,把年纪缺失、年纪错误、性别缺失、性别错误修正,以下图所表示:

删除反复行
原数据中可能存在反复数据,利用数据转换中删除反复行可删除反复数据,同时能够在错误输出中得到反复数据。
加载电话号码信息
加载电话号码信息,然后利用高级清洗转换把电话号码信息中15位身份证号码转换成18位身份证号码。
连接身份证号码和电话信息
利用内连接,把户籍信息和电话号码信息经过身份证号码连接起来,以下:

生成电话信息事实表
把户籍信息和电话号码信息连接起来以后,经过数据清洗和转换

ETL实验报告样稿 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数8
  • 收藏数0 收藏
  • 顶次数0
  • 上传人业精于勤
  • 文件大小234 KB
  • 时间2020-11-13