2015 年深圳杯数学建模竞赛论文
医保欺诈行为的主动发现
参赛队员:
姓名
学号
学院
所在系
联系电话
戴鑫
10131629
信息学院
自动化
**********
吴倚天
10132376
理学院
数学与应用数学
**********
马先强
10131048
药学院
制药工程
**********
2015 年 5 月 30 日
摘要
中国医保体系覆盖面的不断扩大帮助了无数身患重病但无钱救治的家庭,但随之而来的是某些不法分子利用医保服务的漏斗进行骗保的违法行为,这使得国家医疗体系支出增多,医疗体系经济压力增大。要解决这一问题,防止医疗骗保, 医疗体系必须全面掌握病人的行为记录和背景信息。但是由于医疗体系面对的病人信息太过庞大,且变化十分迅速,不可能使用传统的方法逐一检查病人的行为记录和背景信息,而必须使用高效和自动化的数据库挖掘工具,扫描病人行为, 找出那些高度可疑的潜在违规用户进行调查,及时制止这部分用户的违规行为, 防止危害的进一步扩大。
数据挖掘是很好的处理大量数据,从中挖掘信息和知识的工具。对骗保行为来说,这一违规行为的病人在整个病人数据库中所占比例较小,且这部分病人的拿取药时间和开药金额等信息往往表现异常,与正常用户很不一样。就开药金额单张处方费用问题来说,如果将整个病人数据库视为一个点集,这部分病人就可以被视为“孤立点”。数据挖掘中的孤立点挖掘方法可以通过辨别孤立点和正常点之间的差异性找到他们。
本论文采用基于分辨率的孤立点挖掘算法(RB 算法),建立了病人评估模型。 RB 算法最主要的优点是适用于海量的数据库,并且无需引入参数。但是 RB 算法仅从数据集全局出发寻找孤立点,会导致孤立点的寻找过程中忽略了数据点所在的类的密集程度对孤立点的影响。所以在 RB 算法的基础上提出了密集度加权的分辨率孤立点挖掘算法(WRB 算法),WRB 算法计算每个孤立点相距最近的类的稠密度测度作为分辨率的权重。从全局和局部出发,综合考虑数据点周围的点的个数以及每个孤立点与距离本身最近的类的密集度对比来计算每个数据点的孤立程度。
就病人取药时间的问题,将病人的取药时间看作一个个点,将点的个数以及密集程度赋值,将一个病人的取药时间量化成一个值,使用一维格子分布密集度算法对其密集度进行度量,从而排序,最后结合实际,进一步提出了混合密度算法。
最后我们将病人数据代入模型,通过 MATLAB,利用 RB 算法、WRB 算法以及密集度算法得出可疑病人,RB 算法以及 WRB 算法的交集即为可能用高额处方骗保的病人,而利用混合密度算法得出的孤立程度较大的点,即为可能存在骗保的病人。最后我们给出了每个科室的孤立程度最大的前十名,供有关部门进行调查, 同时也给出总体前 10 名,在人力物力不足情况下,可优先调查。
本文的创新点在于从孤立点挖掘的 RB 算法出发,考虑密集程度对孤立点的影响,在 RB 算法的基础上引入权重参数,构造了 WRB 算法。同时在考虑费用的基础上,考虑了拿药时间,从多角度验证嫌疑用户的欺诈行为。
关键词:医疗骗保,数据挖掘,孤立点,孤立因子,密集度
一、问题重述
医疗保险欺诈,是指公民、法人或者其他组织在参加医疗保险、缴纳医疗保
险费、享受医疗保险待遇过程中,故意捏造事实、弄虚作假、隐瞒真实情况等造
成医疗保险基金损失的行为。骗保人进行医保欺诈时通常使用的手段,一是拿着
别人的医保卡配药,二是在不同的医院和医生处重复配药。下面这些情况都有可
能是医保欺诈:单张处方药费特别高,一张卡在一定时间内反复多次拿药等。我们已经拥有了病人资料、费用明细表、费用费表等核心的一些数据,我们需要在
这些数据中找到可疑的病人或处方。
二、数据处理与分析
数据预处理
输入数据是孤立点挖掘的一个重要特征。模型的输入,一般是数据记录的整合,每个数据实例可以用一组属性值(也称特征,变量,维度等)来描述。属性值可以有不同的类型,如布尔型,连续型和离散型等。每个数据可以包含一个或多个类型相同或不同的属性。属性的性质决定了孤立点挖掘技术的适用性。比如, 对于基于统计学的挖掘模型必须输入连续型或离散型额数据。
本次的实验数据来自附件的 excel 中,由于数据存在着不完整,不规范,不匹配等问题,为了提高数据挖掘的质量,去除会对结果产生影响的因子,需要对数据进行预处理,数据预处理的过程包括三个步骤: (1)数据清洗:对于数据缺失项,根据其余各表补充,若无法补充关键要素则删除该数据。去除前后属性明显矛盾可能是由于记录错误而引起的数据项,如药品单价与费用为负值。(2)目标数据提取:第一题研究的单张处方药费特别高,而材料只给出了账单中的一个个条目,通过对 30 万条记
医保欺诈行为的主动发现-数学建模论文 来自淘豆网m.daumloan.com转载请标明出处.