统计与数据挖掘实验报告——:企业管理姓名:王艺霖学号:时间:2014-12-12一、实验目的:1、理解对大型的、复杂的和信息丰富的数据集进行分析的必要性;2、了解数据挖掘软件Spss-clementine的基本功能。3、通过案例了解决策树和人工神经网络技术的实际应用。二、实验环境:1、实验设备:华硕A40J计算机2、软件系统:Windows-7、:作为一个数据挖掘平台,Clementine结合商业技术可以快速建立预测性模型,进而应用到商业活动中,帮助人们改进决策过程。强大的数据挖掘功能和显著的投资回报率使得Clementine在业界久负盛誉。同那些仅仅着重于模型的外在表现而忽略了数据挖掘在整个业务流程中的应用价值的其它数据挖掘工具相比,Clementine其功能强大的数据挖掘算法,使数据挖掘贯穿业务流程的始终,在缩短投资回报周期的同时极大提高了投资回报率。三、研究问题:这次实验内容来源于一个药物应用问题,以往有大批患有同种疾病的不同病人,在服用五种药物中的一种(Drug,分为DrugA、DrugB、DrugC、DrugX、DrugY)之后都取得了同样的治疗效果。这里的数据是随机挑选的部分病人服用药物前的基本临床检查数据,包括血压(BP,分为高血压High、正常Normal、低血压Low)、胆固醇(Cholesterol,分为正常Normal和高胆固醇High)、唾液中钠元素(Na)和钾元素(K)含量,以及病人年龄(Age)、性别(Sex,包括男M和女F)等。现在需要通过数据分析发现以往处方适用的规律,给不同临床特征病人更适合服用哪种药物的建议,为未来医生填写处方提供参考。四、数据来源及变量说明本案例的数据是Clementine软件自带的一份关于药物研究的数据DRUG4n,一共有1000条数据,包含7个字段分别是Age(年龄)、Sex(性别)、BP(血压)、Cholesterol(类胆固醇含量)、Na(Na含量)、K(K含量)、Drug(药品种类)。数据描述:变量名称变量含义备注Age年龄Sex性别BP血压分为高(high)、低(low)和正常(normal)三种Cholesterol胆固醇含量分为高(high)、低(low)和正常(normal)三种Na钠含量K钾含量Drug最适合药物以下五种之一:drugA、drugB、drugC、drugX、drugY五、实验步骤与分析过程:本次实验,首先对DRUG4n中的数据进行了一个简单的分析和解释,比如说Drug的分布情况、Na和K的含量等的分析,接着决策树分析的方法和人工神经网络方法对数据进行分类和分析。。,新建一个流命名为“Drug分析”。从数据源中选择“可变文件”,双击使之出现在工作框中,右击选择“编辑”,添加Demos里面的DRUG4n。。在“输出”选项卡中选择“表”节点加到数据流中,执行该节点,所生成的数据表名将列在流管理窗口的输出选项卡中,。在“输出”选项卡中选择“数据审核”节点加到数据流中,执行该节点,所生成的数据表名列在流管理窗口的输出选项卡中,如图3图3可以看到,该数据有1000个样本,对Age、Na、K这三个数值型变量,计算且输出最小值、最大值、均值、标准差、偏态系数等基本描述统计量。数据显示,病人的年龄差距比较大。同时,输出了各个变量的直方图或柱状图。图形表明,病人中的Age、BP、Cholesterol水平的分布都比较均匀,差异不大,但服用药物DrugY的病人数明显高于服用其他药物的人数。。这里,希望通过散点图反映。在“图形”卡中选择“散点图”节点加到数据流中,设置节点参数,指定Na为X轴,K为Y轴,服用不同Drug的病人数据采用不同颜色的点,如图4-1,执行该节点,所生成的图形文件名列在流管理窗口的输出选项卡中,如图4--1图4-2图形显示,服用DrugY的病人,其唾液中的钾含量明显低于其他类病人,但钠含量有的较低有的较高。单纯的钾含量较低的病人选用DrugY应该比较理想。。为更准确地评价药物状况,单纯观察钾含量是不全面的,应观测钠与钾的浓度比值指标,它能够更准确反映病人肾上腺皮质的功能状态。该指标是原始数据中没有的,应首先计算生成,然后观察其分布特征。在“字段选项”选择卡中选择“导出”节点加到数据流中,设置节点参数指定生成的新变量名为Na/K,计算公式为Na/K,如图5-1。在“图形”选项卡中选择“直方图”节点,设置节点参
统计与数据挖掘实验报告 来自淘豆网m.daumloan.com转载请标明出处.