下载此文档

工业大数据相似重复记录数据清洗关键技术研究.pdf


文档分类:IT计算机 | 页数:约56页 举报非法文档有奖
1/56
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/56 下载此文档
文档列表 文档介绍
分类号: 密级:公开
学校代码:11065 学号:2015020506
学术硕士学位论文
工业大数据相似重复记录数据清洗关键技术
研究
作者姓名 杨巧巧
指导教师 郭振波 教授
学 科 软件工程
培养单位 数据科学与软件工程学院
答辩日期 2018 年 5 月 14 日
工业大数据相似重复记录数据清洗关键技术研究
摘 要
工业大数据是支撑未来智能信息化的基础,企业在发展过程中积攒了大量珍贵
的数据信息,这些数据在企业的发展过程中起着举足轻重的作用。但由于存在不完
整数据、重复数据、缺省数据、冗余数据等数据质量问题,使得基于这些数据的分
析往往产生错误的结果,这就必须关注数据本身的质量问题,
本文主要对工业大数据中的相似重复记录进行研究,并进行相应的处理工作。
由于传统的清洗算法对相似重复记录清洗效果较差,本文结合工业大数据数据特点,
以及中西文表达不同的特点,针对传统编辑距离因属性缺失造成的重复记录误判情
况,提出模式编辑距离以及综合属性权值的概念,可以实现区分中西文表达差异同
时可以最大化合理考虑数据的领域特点,从而提高检测精度。工业大数据集中对整
个数据集进行相似记录匹配是没有必要的,故提出基于长度过滤和动态伸缩窗口的
概念,利用长度过滤(大于阈值)算法将不可能构成相似重复的记录进行筛除;通
过设置动态伸缩窗口,比较窗口内的记录间相似度,整个窗口在滑动过程中动态调
整其大小,减少了不必要的记录匹配。
本论文的目的在于深化相似重复记录识别方面的研究,并为相似重复记录检测
在工业大数据中的应用起到抛砖引玉的作用。实验证明,改进的 SNM 算法在识别
相似重复记录方面,检测精度和效率均有所改善,也验证了相似重复记录识别算法
在工业大数据中应用的价值性。
关键字:工业大数据;数据清洗;相似重复记录;SNM 算法;
Research on Technologies of Duplicate Record Data Cleaning under
Industrial Big Data
Abstract
Big data in industrial is supported the future intelligence information. A large
number of valuable data and information is essential for the development of enterprises.
However, data quality issues don’t get enough attention it deserves, there are data
incomplete, duplicated data, data invalid and other quality problems, which make the
work based on the analysis of data get error analysis results. Therefore, it must pay
attention to the quality problem of the data.
This paper mainly study the duplicated data in the industrial. Because the traditional
cleaning algorithm often has poor perfor

工业大数据相似重复记录数据清洗关键技术研究 来自淘豆网m.daumloan.com转载请标明出处.

非法内容举报中心
文档信息
  • 页数56
  • 收藏数0 收藏
  • 顶次数0
  • 上传人zhufutaobao
  • 文件大小2.86 MB
  • 时间2021-10-30