基于数据敏感性的大数据存储安全技术
胡志达
【摘 要】
针对云环境下数据安全和数据集敏感元素无法自动识别、自动动态分级的问题,提出一种面向文档级别的敏感元素自动化识别与动态分级算法,利用大数据语义识别技术,对各类文档的数据价值元素进行自动化提取,采用向量化处理的方式得到文档的特征向量,结合特征向量相似度量化文档的敏感度从而实现文档的自动分类分级。实验表明,该算法能够比较准确地识别并分类任意规模、非结构化的文档敏感元素,该算法无须提前知道文档敏感元素的特征,敏感特征字典,兼顾了平台存储安全的效率和安全性。
【关键词】数据敏感性;语义识别;价值元素;存储安全
[Abstract]
In order to solve the problems of the inability to automatically identify and dynamically classify the data security and sensitive elements of data sets in cloud environment, this paper presents a document-oriented algorithm for automatic identification and dynamic classification of sensitive elements. Specifically
, the big data semantic recognition technology is used to automatically extract the data value elements of various documents, and the feature vector of the document is obtained by vectorization methods, and the sensitivity of the document is quantified by combining the similarity of the feature vector to realize the automatic classification and grading of documents. Experimental results show that the algorithm can accurately identify and classify the sensitive elements of unstructured documents with any scale. The algorithm does not need to know the characteristics of sensitive elements and sensitive feature dictionary in advance, which balances the efficiency and security of platform storage security.
[Key words]data sensitivity; semantic recognition; value element; storage security
0 引言
多租戶和虚拟化技术在促进了云计算快速发展的同时,也面临着数据存储的安全问题。2009年谷歌大批用户隐私文件泄露问题;2012年亚马逊的数据丢失;2014年iCloud泄露的明星隐私照片问题。上述问题加剧了用户对云计算存储安全的担忧。当前已经有很多学者针对数据敏感信息的安全存储方法进行了大量的研究。Shaikh等人[1]针对数据敏感属性提出了基于数据安全需求的分级模型。何文竹等人[2]提出一种面向结构化数据集的敏感属性识别与分级方法,但是该方法仅针对结构化数据集实现,而且敏感性属性也是提前设置的,因此不适用于云计算各种半结构化或者结构化数据的敏感识别与分级。马晓亭
[3]提出大数据环境下图书馆敏感数据的识别与保护,采用大数据语义识别技术来构建敏感数据挖掘模型,实现敏感信息的解析和内容的分类。周晨炜[4]针对大数据时代的隐私保护问题,提出一种对敏感属性约束的分级量化匿名模型。程永新等人[5]提出一种敏感数据字典和正在表达式匹配的敏感数据识别算法。王雷等人[6]提出一种基于数据字典的敏感数据识别方法。本文针对当前的敏感数据分级分类方法不适用于实际生产环境的敏感元素识别及分类等问题,提出一种面向文档级别的非结构化数据集敏感元素自动识别与分类方法。该方法采用大数据语义技术提取各类文档的价值元素,以文
基于数据敏感性的大数据存储安全技术 来自淘豆网m.daumloan.com转载请标明出处.