侦查欺诈交易
郝召 马骁
1
精选课件ppt
为什么研究欺诈交易
数据挖掘的结果有助于公司的事后检查活动
数据挖掘过程能够提供某种欺诈概率排序作为输出结果,可以使公司以最佳方式来利用其事后检查资源
应用方面:信用卡交易、税务申报检验等
本章新的数据挖掘主题:
离群值活异常值检验、聚类分析、办监督预测模型
2
精选课件ppt
问题的描述与目标
欺诈行为通常与异常的观测值相关联,因为这些欺诈行为是偏离常规的。在多个数据分析领域,这些偏离常规的行为经常称为离群值
3
精选课件ppt
问题的描述与目标
本案例使用的数据时某公司的销售员所报告的交易数据。这些销售员负责销售该公司的产品并定期报告销售情况。
销售员可以按照自己的策略和市场情况来自由设置销售价格。月末,向公司报告销售情况。
数据挖掘应用的目的是根据公司过去发现的交易报告肿的错误和欺诈企图,帮助公司完成核实这些销售报告的真实性的工作。提供一份欺诈率排名报告,这个欺诈率排名将允许公司把有限的检验资源分配给系统提示的更“可疑”的那些报告
4
精选课件ppt
可用的数据
数据来自一个未公开的渠道
共401 146行,每一行包括来自销售员报告的信息。包括:
ID:说明销售员ID的一个因子变量
Prod:说明销售产品ID号的一个因子变量
Quant:报告该产品销售的数量
Val:报告销售记录的总价值
Insp:有三个可能值的因子变量——ok表示公司检查了该交易并认为该交易有效;fraud表示发现该交易为欺诈;unkn表示该交易未经过公司审核。
5
精选课件ppt
加载数据
library(DMwR)
data(sales)
head(sales)
得到一个名为sales的数据框
6
精选课件ppt
探索数据集
Summary()函数可以使人们出不了解数据的统计特征
summary(sales)
数据中有大量的产品和销售人员信息
7
精选课件ppt
探索数据集
还可以用nlevels( )来确认这一点
nlevels(sales$ID)
nlevels(sales$Prod)
8
精选课件ppt
探索数据集
如果在同一个交易中Quant列和Val列有大量的缺失值,就会产生比较严重的问题,这回导致一条销售交易中的有关销售量的关键信息缺失。检验如下:
length(which((sales$Quant) & (sales$Val)))
sum((sales$Quant) & (sales$Val))
9
精选课件ppt
探索数据集
欺诈行为的比例对于总体而言是很低的
table(sales$Insp)/nrow(sales)*100
绘制每个交易人员的交易数量和每个产品的交易数量图形
totS <- table(sales$ID)
totP <- table(sales$Prod)
barplot(totS,main='Transactions per salespeople',='',xlab='Salespeople',
ylab='Amount')
barplot(totP,main='Transactions per product',='',xlab='Products',
ylab='Amount')
10
精选课件ppt
《侦查欺诈交易》PPT课件 来自淘豆网m.daumloan.com转载请标明出处.