下载此文档

结合马氏距离的smote改进算法研究.docx


文档分类:论文 | 页数:约11页 举报非法文档有奖
1/11
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/11 下载此文档
文档列表 文档介绍
结合马氏距离的smote改进算法研究
 
 
徐湘君 刘波涛
摘要:传统的smote算法应用于非平衡数据集研究领域,它可以将少数类样本按照一定的条件进行扩充,以达到让非平衡数据集中少数类样本和多数类样本达到平衡这一目的。但是它在对于边界元素的选择生成数据的时候具有盲目性,使得生成的新的数据降低少数类样本的质量。针对这种情况,提出了将马氏距离结合SMOTE算法的改进算法Maha-smote,让生成的新元素更加靠近样本集中心,提高生成的数据集的总体质量。本文分别使用传统SMOTE、Pychon的sklearn库中的SMOTE算法以及Maha-smote算法对所选用的3个不平衡数据集进行过采样数据预处理然后使用决策树和高斯朴素贝叶斯GNB分类器对预处理后的数据集进行预测,选择F-Measure、AUC作为分类性能的评价指标,实验表明
Maha-smote算法预处理的不平衡数据集的分类效果更好,证明了该算法的有效性。
关键词:非平衡数据集;上采样;SMOTE算法;马氏距离;边界样本
:TP311 :A
:1009-3044(2020)29-0028-04
1 引言
现如今常见的数据分类方法通常假设数据之间是平衡的,认为不同样本之间的数据数量是相差不多的,但是在我们的日常生活中还存在着许多非平衡的数据。例如医疗领域的病症方面的识别、金融方面的信用卡欺诈检测以及关于贷款方面的贷款检测[1]等。通常我们把数量大的类型成为多数类,数量少的类型成为少数类,在这些领域通常少数类与多数类之间的比例为1:10、1:100甚至为1:10000或更大[2],这种情况下,传统的分类方法就不适用于非平衡的数据,因为他们通常会将少数类当作噪声处理掉,这样分类的话结果也不是我们想要的,在现实生活中也会带来不好的影响。
关于非平衡数据现如今有很多的研究,目前基本上是分为两个层面进行研究,分别为数据层面和算法层面。从数据层面出发就是改变数据之间的分布将不平衡的数据通过采样方法变成平衡的数据,]等人提出了最经典的SMOTE(Synthetic Minority Over-sampling TEchnique)过采样技术,Tor-res F Rc4]等人提出使用少数类k近邻样本的均值点来合成新样本的SMOTE-D算法,han hc5]等人提出来一种是自适应上采样方法Borderline-SMOTE。
从算法层面主要通过对算法进行优化来提高分类器的性能,例如徐丽丽[6]等人提出一种新的不平衡数据加权集成学习算法,主要是通过为各类别分配不同的权重将加权支持向量机模型WSVM(Weighted Support Vector Machine)与模糊聚类相结合。Nghe等[7]为降低不平衡数据集误分类的成本将采样技术与使用支持向量机SVM的代价敏感学习算法相结合。
本文主要从数据层面出发,对其中的上采样方法方面进行研究,提出一种基于马氏距离的SMOTE改进算法Maha-smote算法,以少数类样本为中心,选择k个近邻,通过比较元素与元素之间的马氏距离来判断生成的新元素应当更加靠近哪个元素,从而让生成的新元素更加的靠近整个集群的中心,而不会像传统的SMOTE算法一样,在边界上的离群点附近也会随机生成许多的新元素,从而使得新的平衡样本尽量少的产生质量较差的数据。
2 基础算法简介
SMOTE算法
SMOTE算法[1]的原理是通过相邻的两个少数类之间线性插值生成一个新元素,最终使得少数类与多数类数量达到一个数据之间的平衡。算法流程如下:
(1)对于少数类中每一个样本x,计算它的近邻的欧几里得距离,按照从小到大的顺序排序,将前k个近邻合并为k近邻集合;
(2)根据多数类和少数类样本的不平衡比例设置上采样倍率N,对于每一个少数类样本x,从其k近邻集合中随机选择几个样本,近邻样本为x。;
(3)对于每一个随机选出的近邻x。,分别与样本x按照合成新样本的公式构建新的样本。
Xnew=x+rand(0,1)×(xn-x)
SMOTE算法避免了随机过采样算法中造成分类器模型过拟合的问题,但是其在生成新样本的时候关于样本边界方面并没有进行考虑,因而在生成新样本还存在着些许的问题。

马氏距离(Mahalanobis distance)是由印度统计学家马哈拉诺比斯提出的,它可以用来计算一个点与一个分布之间的距离。相对于欧氏距离,马氏距离对于样本的计算会考虑到特征的联系,但是却不会受到特征的尺度影响。
假设身高和体重,这两个变量拥有不同的单位标准,也就是有不同的尺度。比如身高用mm计算,而体重用kg计算,显然差lOmm的身高与差lOkg的体重是完全不同的。但在普通的欧氏距离计

结合马氏距离的smote改进算法研究 来自淘豆网m.daumloan.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数11
  • 收藏数0 收藏
  • 顶次数0
  • 上传人科技星球
  • 文件大小190 KB
  • 时间2021-11-28