The Research of Detecting Image Spam Based on K-Labels Propagation Model Thesis Submitted to Nanjing University of Posts and Telecommunications for the Degree of Master of Engineering By Xiaoyan Qian Supervisor: Prof. Weifeng Zhang February 2014 摘要 随着网络信息技术的日益普及和迅速发展,使用电子邮件进行交流,极大地满足了人与 人之间的通信需求。但是,垃圾邮件作为互联网中具有争议的副产品,也愈演愈烈,尤其是 图像型垃圾邮件(Image Spam),它不仅严重地浪费了资源,而且可能会阻塞和瘫痪网络,影 响用户之间的正常沟通。因此,开发高效率的 Image Spam 检测技术是社会迫切需要的。 论文介绍了 Image Spam 检测技术的背景、目的和意义,阐述了 Image Spam 的定义、特 征、构造方法、检测难点,分析了比较常用的 Image Spam 检测方法,并指出了这些方法的优 势与不足,从而提出了基于 K 最邻近的标签传播模型(K-Labels Propagation Model,KLPM) 的 Image Spam 检测方法。论文的主要工作和贡献是: (1)提出了基于牛顿(Newton)稀疏表示的方法来消除图像的噪声:利用 Newton 法处理小 波变换后的系数,使系数稀疏化。该方法能够在消除图像噪声产生影响的同时,尽可能多地 保留图像的细节,从而提高检测方法的精度。 (2)提出了利用 SURF 算法来提取图像的尺度和旋转不变特征。该算法对图像旋转、仿射变 换、尺度缩放等图像的变化都能保持一定的不变性和可区分性。 (3)提出了改进的均值聚类算法来聚类图像的特征,构成特征向量,计算图像之间的相似性, 保证了图像之间的可比性。 (4)提出了标签传播模型分类器,基本思想是:将每幅图像视为一个节点,并打上标签,通 过在完全连接图上传播标签,从而对测试图像进行分类。并在此基础上,改进了该分类器, 从而设计了基于 KLPM 的 Image Spam 检测方法,基本思想是:先通过基于 Newton 稀疏法的 消噪模型来预处理图像,再获取图像聚类中心点信息;然后提取所有图像的加速鲁棒性特征 描述符信息,进行均值聚类;最后采用 KLPM 检测 Image Spam。此外,通过实验比较了多种 方法,证实了论文方法具有较好的分类效果。 关键词: 图像型垃圾邮件,牛顿法,稀疏表示,均值聚类,标签传播模型 I Abstract With the development of Internet technology, communication via email is becoming more and more essential in people's daily life. But the volume of spam has grown tremendously, and it became the most controversial byproduct of the Internet, especially in Image Spam. So it brings about the phenomenon that not only resources are wasted seriously, but also the network may is clogged and palsied, and the normal communication between users is affected.