万方数据
异构数据库集成中相似重复记录清洗方法中图分类号:。册备荆籇鰄∞;緈诅咖Э驟樱琹泌口以卅白砌,θ鏽,胁,移施踟矗哪妇,凡占埃籇核咖伽‘№睞呻辌銮硉凼:緂∞=ń难г旱缱有畔⒖蒲аг海=ǜV摘要:异构数据库集成中产生了相似重复记录,如何消除这些记录进而提高数据质量是集成时必须解决的问题之一。提出在源数据库中进行第一次清洗,然后将所需数据抽取到临时数据库中,在临时数据库中进行格式等转换,再把数据导入数据仓库,最后在数据仓库中进行二次清洗。该清洗方案既可以提高源数据库数据质量,还可以减少数据仓库中的相似重复记录数量并提高二次清洗的效率。关键词:异构数据库;数据集成;数据仓库;相似重复记录;清洗文献标识码:恼卤嗪牛,蕊西眦,觚蓿在各类企事业单位中,由于开发时间不同,往往存在许多异构的运行于不同软硬件平台上的信息管理系统,由于采用不同的数据库开发技术,造成这些系统的数据库彼此独立,各个数据库系统之间无法融合与共享。随着互联网的不断发展与普及,企事业单位问信息交流的需求日益迫切,这就需要把不同数据源的异构数据库融合集成起来。Ⅲ异构数据库集成技术是指把分布于不同数据库的数据在物理上或者逻辑上进行有机集中,从而为企事业单位提供数据共享的一种技术。异构数据库是独立存在的,每个独立的数据库都有专属于自己的数据库管理系统,各个组成部分完全自治,如果直接把不同数据库合并形成一个大型的共用库显然是行不通的,目前可以采用的方式有基于联邦式、基于中间件或数据仓库等,其中基于数据仓库的方式是应用比较多的一种方法。数据仓库从不同数据源抽取所需的数据避免重新建设共用库而投人大量的人力、物力和财力成本,然而集成后的数据仓库产生了大量的脏数据和相似重复数据,如何消除脏数据和清洗相似重复数据就成了一个亟需解决的问题。。相似重复记录指同一个现实世界中的实体在数据库中拥有了多条记录,这些记录互为相似重第卷第郭文龙掼碊辢吐俊緄膇印,絜印】蕹鷇秂蛐膎鉶噦辵作者简介:郭文龙,男刈,福建仙游人,讲师,硕士,主要研究方向:数据清洗技术、数据库技术,年宜春学院学报衄吼舘—韙蕖辴遡耐∞咒膁收稿日期:一—基金项目:福建省教育厅嗫萍枷钅.,福建江夏学院青年科研人才培育基金项目甁。瑚篐礶瓾絜..眈,缸∞,篵··..·
万方数据
复记录,相似重复记录清洗是指删除构成相似重复的记录,只保留一条记录的过程。相似重复记录最常见的情况有同音字构成、格式不一致构成、地址采用简写构成等。如表荆锹糽的姓名字段和记录男彰侄喂钩赏糇窒嗨疲刂纷段由于简写构成相似,而出生日期则因格式不一样构成相似。对同音字构成相似重复记录的情况,李星毅等提出组成一个相似汉字表,供汉字比较时使用晃南譡研究了缩写造成的相似重复情况,也提出建立“相似汉字表”解决部分输人错误的问题;文献ü贫ㄖ形牡刂繁嗦牍则,利用编码规则对中文地址进行编码,最后再对其译码达到对中文地址清洗的目的。而对格式不一致构成的相似重复记录则可以通过设置统一的格式。在数据进人数据仓库之前统一转化为规定的格式,再进行清洗记录。综上,构成相似重复记录的原因各异,在清洗前必须综合考虑各种情况,提出一种异构数据库集成中相似重复记录清洗方法,在异构数据库中首先对数据记录进行初次清洗;之后根据共享库的要求,将符合条件的记录抽取到临时数据库中,在临时数据库中按照设置的统一规范对数据格式
异构数据库集成中相似重复记录清洗方法 来自淘豆网m.daumloan.com转载请标明出处.