: .
软件学报ISSN 1000-9825, CODEN RUXUEW ncomplete microdata. Most existing
algorithms simply delete records with missing values, causing large information loss. This paper proposes a novel data anonymization
approach called KAIM (k-anonymity for incomplete microdata), for incomplete microdata based on k-member algorithm and information
entropy distance. Instead of deleting any records, KAIM effectively clusters records with similar characteristics together to minimize
information loss, and then generalizes all records with local recording scheme. Results of extensive experiments base on real dataset show
that KAIM causes only % information loss compared with previous algorithms for incomplete microdata, validating that KAIM
performs much better than existing algorithms on the utility of anonymized dataset.
Key words: data anonymization; incomplete microdata; clustering; k-anonmity
数据采集和共享技术的快速发展,为各种组织机构间的合作和研究工作提供了巨大的便利,同时也增加了
,医院会把收集的诊疗信息发布给医疗研究机构,供其进行疾病分析和预测方面的研
∗ 基金项目: 国家自然科学基金(61272054, 61202449, 61003257, 61320106007); 国家重点基础研究发展计划(973) (2010CB
328104);国家高技术发展计划(863)(2013AA013503); 国家科技支撑计划(2010BAI88B03, 2011BAK21B02); 高等学校博士学科点专
项科研基金(201**********); 江苏省网络与信息安全重点实验室(BM2003201); 教育部网络与信息集成重点实验室(93K-9)
收稿时间: 2012-02-21; 定稿时间: 2013-04-022884 Journal of Software 软件学报 , , December 2013
究,,数据发布单位会消除个体标识符信息
和某些敏感数据,但是通过多个公开数据集之间的链接攻击(linking attack)[1],[1]
的研究表明,即使删除了标识符信息,攻击者仍然可以通过邮政编码、年龄和性别之类的准标识符属性与其他
数据集进行联合,,数据匿名技术得到越来越多的关注,大量数据
匿名模型和数据匿名算法也随之产生.
但是,现有数据匿名方法无法处理带有缺失的数据,在数据存在缺失的情况下会丢弃相关记录,而数据缺失
,如果用户拒绝提供某项具体数据,该属性上的数值就变为缺
,
面向缺失数据的数据匿名方法 来自淘豆网m.daumloan.com转载请标明出处.