AdaBoost algorithm and its application
research in object recognition
A Dissertation
Submitted for the Degree of Master
On Mechatronic Engineering
By Tang Chunyi
Under the Supervision of
Prof. Chu Jun
School of Aeronautical Manufacturing Engineering
Nanchang Hangkong University, Nanchang, China
June, 2011
南昌航空大学硕士学位论文 ABSTRACT
摘要
基金资助:本文得到国家自然科学基金项目(60954002)“基于空间不变量的自
然场景线性重建理论和方法研究”、航空基金项目(2010ZC56005)“面向无人机
任务的高精度三维地形获取理论和方法研究”的资助。
随着计算机软硬件技术和图像处理技术的飞速发展,基于图像的目标识别技
术在航空航天的科学探测和天文观测、民用领域的视频监控以及军事目标跟踪等
方面有着越来越广泛的应用。
AdaBoost 算法是一种在目标识别中使用比较广泛的集成学习方法。其基本
思想是通过设定所要训练的弱分类器数目,对同一个训练集训练弱分类器,然后
把这些弱分类器集合起来,构成一个更强的最终的强分类器。本论文主要在
AdaBoost 算法框架下,研究不平衡样本数据的分类算法和复杂场景下目标的识
别算法。
当样本数据不平衡时,针对传统 AdaBoost 算法进行过采样时会带来难以分
类的样本数据;以及在复杂的场景下进行目标识别时,传统的 AdaBoost 算法会
因特征噪声样本的存在而造成分类性能下降。基于以上问题进行研究,提出了一
种基于 Gentle AdaBoost 的过抽样算法和一种抑制错分样本的 AdaBoost 算法。
论文首先分析了 Boosting 算法和 AdaBoost 算法的理论和算法框架,在此基
础上,从 UCI 机器学习库中选择 Breast Cancer Wisconsin 数据集进行实验,对
Gentle AdaBoost 算法的稳定性进行了分析,并寻找 AdaBoost 算法最稳定的弱分
类器迭代次数,为论文后续工作提供理论依据。
其次,针对传统算法在处理不平衡样本数据分类时会引入难以分类的样本数
据,造成分类性能下降的问题,提出一种针对不平衡数据集分类问题的结合过抽
样和 Gentle AdaBoost 算法的新算法。算法首先考虑到 Gentle AdaBoost 算法的分
类器在训练时错分样本具有被赋予较大权重的特点,确定所要复制样本的权重阈
值;然后,在该阈值范围内选取一定数量的少数类样本进行复制;接下来采用上
述数据集进行分类器的训练,得到相应的弱分类器;重复上述步骤进行迭代,这
样在完成平衡数据集的同时得到强分类器。整个过程可以避免对数据过抽样时引
入奇异样本的问题。算法在 UCI 数据库中的数据进行实验,并与多种算法进行
实验对比,并对实验结果进行分析。实验证明了本文算法的有效性。
最后,在分析了传统 Gentle AdaBoost 算法框架和存在的问题的基础上,针
I
南昌航空大学硕士学位论文 ABSTRACT
对传统 Gentle AdaBoost 算法在复杂场景目标识别时,存在的错分样本在训练过
程中权重过大而造成分类性能下降的问题,在经典的 Gentle AdaBoost 算法框架
下,提出一种新的、能抑制错分样本的、复杂场景目标识别的 AdaBoost 算法。
算法首先利用损失函数构建一个特征样本的错分率矩阵,并寻找矩阵错分率最大
的样本作为阈值,剔除部分对分类器性能有影响的错分样本。并在 MIT 提供的
LabelMe 数据库中的真实复杂场景图像上进行实验。实验表明,与传统算法相比,
我们提出的算法提高了复杂场景目标检测的稳定性。
本文算法都以 UCI 数据库和 MIT 的 LabelMe 数据库中的数据以及复杂场景
图像作为实验对象,完成对数据的实验分析和对比。实验环境为:硬件环境为
Intel(R) Core(TM)2 Quad CPU Q8400 处理器,4G 内存,操作系统为 Microsoft
Windows7 Service Pack1,实验开发环境是 Matlab-。
关键词:机器学习;目标识别;A
AdaBoost算法及其在目标识别中应用地研究 来自淘豆网m.daumloan.com转载请标明出处.