医保欺诈行为的主动发现-数学建模论文.docx初Wh EASTCKWWIVER5ITY0FSOME帅TOTOOGT2015年深圳杯数学建模竞赛论文医保欺诈行为的主动发现参赛队员:姓名学号学院所在系联系电话戴鑫10131629信息学院自动化**********吴倚天10132376理学院数学与应用数学**********马先强10131048药学院制夯工程1872**********年5月30日摘要中国医保体系覆盖面的不断扩大帮助了无数身患重病但无钱救治的家庭,但随之而來的是某些不法分子利用医保服务的漏斗进行骗保的违法行为,这使得国家医疗体系支出增多,医疗体系经济压力增大。要解决这一问题,防止医疗骗保,医疗体系必须全面掌握病人的行为记录和背景信息。但是由于医疗体系面对的病人信息太过庞大,且变化十分迅速,不可能使用传统的方法逐一检查病人的行为记录和背景信息,而必须使用高效和口动化的数据库挖掘工具,扫描病人行为,找出那些高度可疑的潜在违规用户进行调查,及时制止这部分用户的违规行为,防止危害的进一步扩大。数据挖掘是很好的处理大量数据,从屮挖掘信息和知识的工具。对骗保行为來说,这一违规行为的病人在整个病人数据库中所占比例较小,且这部分病人的拿取药时间和开药金额等信息往往表现异常,与正常用户很不--样。就开药金额单张处方费用问题来说,如果将整个病人数据库视为一个点集,这部分病人就可以被视为“孤立点”。数据挖掘中的孤立点挖掘方法可以通过辨别孤立点和正常点之间的差异性找到他们。本论文采用基于分辨率的孤立点挖掘算法(RB算法),建立了病人评估模型。RB算法最主要的优点是适用于海量的数据库,并且无需引入参数。但是RB算法仅从数据集全局岀发寻找孤立点,会导致孤立点的寻找过程屮忽略了数据点所在的类的密集程度对孤立点的影响。所以在RB算法的基础上捉出了密集度加权的分辨率孤立点挖掘算法(WRB算法),WRB算法计算每个孤立点相距最近的类的稠密度测度作为分辨率的权重。从全局和局部岀发,综合考虑数据点周围的点的个数以及每个孤立点与距离本身最近的类的密集度对比來计算每个数据点的孤立程度。就病人取药时间的问题,将病人的取药时间看作一个个点,将点的个数以及密集程度赋值,将一个病人的取药时间量化成一个值,使用一维格子分布密集度算法对其密集度进行度量,从而排序,最后结合实际,进一步捉出了混合密度算法。最后我们将病人数据代入模型,通过MATLAB,利用RB算法、WRB算法以及密集度算法得出可疑病人,RB算法以及WRB算法的交集即为可能用高额处方骗保的病人,而利用混合密度算法得岀的孤立程度较大的点,即为可能存在骗保的病人。最后我们给出了每个科室的孤立程度最大的前十名,供有关部门进行调查,同时也给出总体前10名,在人力物力不足情况下,可优先调查。木文的创新点在于从孤立点挖掘的RB算法出发,考虑密集程度对孤立点的影响,在RB算法的基础上引入权重参数,构造了WRB算法。同时在考虑费用的基础上,考虑了拿约时间,从多角度验证嫌疑用户的欺诈行为。关键词:医疗骗保,数据挖掘,孤立点,孤立因子,密集度一、问题重述医疗保险欺诈,是指公民、法人或者其他组织在参加医疗保险、缴纳医疗保险费、享受医疗保险待遇过程屮,故意捏造事实、弄虚作假、隐瞒真实情况等造成医疗保险基金损失的行为。骗保人进行医保欺诈时通常使用的手段,一是拿着别人的医保卡配药,二是在不同的医院和医生处重复配药。下面这些情况都冇口J能是医保欺诈:单张处方药费特别高,i张卡在一定时间内反复多次拿药等。我们已经拥有了病人资料、费用明细表、费用费表等核心的一些数据,我们需要在这些数据屮找到可疑的病人或处方。二、。模型的输入,一般是数据记录的整合,每个数据实例可以用一组属性值(也称特征,变量,维度等)来描述。属性值可以冇不同的类型,如布尔型,连续型和离散型等。每个数据可以包含一个或多个类型相同或不同的属性。属性的性质决定了孤立点挖掘技术的适用性。比如,对于基于统计学的挖掘模型必须输入连续型或离散型额数据。本次的实验数据来自附件的excel中,由于数据存在着不完整,不规范,不匹配等问题,为了提高数据挖掘的质量,去除会对结果产生影响的因子,需要对数据进行预处理,数据预处理的过程包括三个步骤:(1)数据清洗:对于数据缺失项,根据其余各表补充,若无法补充关键要索则删除该数据。去除前后属性明显矛盾可能是曲于记录错误而引起的数据项,如药品单价与费用为负值。(2)目标数据提取:第一题研究的单张处方药费特别高,而材料只给出了账单中的一个个条目,通过对30万条记录的比对,我们发现一张处方对应一个账单号,于是我们以同一账单号为条件,对数据进行条件加和,得到一个个对应一定费用的账单。此外我们对于每个病人的取药次数与分布也进行了提取。(3)数
医保欺诈行为的主动发现-数学建模论文 来自淘豆网m.daumloan.com转载请标明出处.