分类号: 密级:公开 学校代码:11065 学号:2015020506 学术硕士学位论文 工业大数据相似重复记录数据清洗关键技术 研究 作者姓名 杨巧巧 指导教师 郭振波 教授 学 科 软件工程 培养单位 数据科学与软件工程学院 答辩日期 2018 年 5 月 14 日 工业大数据相似重复记录数据清洗关键技术研究 摘 要 工业大数据是支撑未来智能信息化的基础,企业在发展过程中积攒了大量珍贵 的数据信息,这些数据在企业的发展过程中起着举足轻重的作用。但由于存在不完 整数据、重复数据、缺省数据、冗余数据等数据质量问题,使得基于这些数据的分 析往往产生错误的结果,这就必须关注数据本身的质量问题, 本文主要对工业大数据中的相似重复记录进行研究,并进行相应的处理工作。 由于传统的清洗算法对相似重复记录清洗效果较差,本文结合工业大数据数据特点, 以及中西文表达不同的特点,针对传统编辑距离因属性缺失造成的重复记录误判情 况,提出模式编辑距离以及综合属性权值的概念,可以实现区分中西文表达差异同 时可以最大化合理考虑数据的领域特点,从而提高检测精度。工业大数据集中对整 个数据集进行相似记录匹配是没有必要的,故提出基于长度过滤和动态伸缩窗口的 概念,利用长度过滤(大于阈值)算法将不可能构成相似重复的记录进行筛除;通 过设置动态伸缩窗口,比较窗口内的记录间相似度,整个窗口在滑动过程中动态调 整其大小,减少了不必要的记录匹配。 本论文的目的在于深化相似重复记录识别方面的研究,并为相似重复记录检测 在工业大数据中的应用起到抛砖引玉的作用。实验证明,改进的 SNM 算法在识别 相似重复记录方面,检测精度和效率均有所改善,也验证了相似重复记录识别算法 在工业大数据中应用的价值性。 关键字:工业大数据;数据清洗;相似重复记录;SNM 算法; Research on Technologies of Duplicate Record Data Cleaning under Industrial Big Data Abstract Big data in industrial is supported the future intelligence information. A large number of valuable data and information is essential for the development of enterprises. However, data quality issues don’t get enough attention it deserves, there are data incomplete, duplicated data, data invalid and other quality problems, which make the work based on the analysis of data get error analysis results. Therefore, it must pay attention to the quality problem of the data. This paper mainly study the duplicated data in the industrial. Because the traditional cleaning algorithm often has poor perfor