精品文档
流失模型
是典型的学习模型,有几个常用方法可以选决策树、逻辑回归(或者尝试神经网络,不利于
应用和解释,也可以试试看)。
决策树的特点:适用布尔、分类和连续的变量(对连续变量也会内部转化小值、1/100区间、1/10区间、1/4区间、多维
交叉表、相关系数。
这些基本统计手段常用于:对数据的集中度和离散度等分布特征进行简单的描述;对数据的质量进行稽核;对
数据间的关系进行初步的探索;产生直观的报表。
优点:直观了解数据的特征;简单明了容易使用;对数据质量检查有很强大的功能。
缺点:对数据分析和探索停留在初步阶段;反映的信息是一维的,不能对信息进行系统化地综合。
二、对变量进行栏位划分和信息转化的技术
适用于连续性变量、类别性变量。转化后可以计算log(odds)。
优点:有效捕捉数据中蕴藏的非线性关系;有效捕捉数据中蕴含的非单调性关系;有效将变量标准化,使原始数值规模不相同的变量取得一致的统计数值;有效将类别性变量包括到模型中;有效处理缺失值和特殊值;有效提高模型的“抗震荡性”;有效提高模型的可解释性。
缺点:劳动密集性的过程,劳动量大;资源密集性的过程,耗费多的计算机资源和人力资源;有一定主观判断的成分(划分成多少个栏位、如何划分、每个栏位的样本量、划分后的表现是否合理等);会损失部分有用的信息;对模型的实施有额外的要求。
三、主成分分析、因子分析、变量类聚分析
这3种统计方法主要是用来减少变量数目的统计技术。
优点:迅速从大量的候选变量中选择有限数目的变量代表;在极大程度上保留有用的信息;降低了模型最终候选变量的相关性,提高模型的“抗震荡性”和稳定性。
缺点:不能处理缺失值和类别性变量,必须通过信息转换手段把缺失值或类别性变量值转换成数量值后才能使用这3种统计方法;对“信息维度”的解释存在一定的主观性。
四、类聚分析
常用的类聚分析方法有等级性类聚(呈树型)和非等级性类聚(类聚内的数据观察点之间的总距离最小化)。
优点:对数据的统计分布不需要作任何假设;不需要任何表现变量的信息;容易使用。
缺点:多数类聚分析技术对极端值比较敏感;多数受“初始种子”的影响较大;不能处理缺失值或类别性变量,需转换成数量值后才能适用;对类聚结果和“相似性”的解释存在一定的主观性。
五、逻辑回归模型
适用于二元性目标变量。
优点:预测结果是介于0和1之间的概率;可以适用于连续性或类别性自变量;容易使用,容易解释。缺点:对模型中自变量的多维相关性较为敏感,需要利用因子分析或变量类聚分析等手段来选择代表性的自变
量,以减少候选变量之间的相关性;预测结果的概率转换呈“S”型,因此从log(odds)向概率转化的过程是非线性的,在两端随着log(odds)值的变化,概率的变化很小,而在中间概率的变化很大。
六、神经网络模型
神经网络模型是一种把各种投入要素通过复杂的网络转换成产出的信息加工结构。在智能型交易欺诈预测模型中有应用。
优点:有效捕捉数据中非线性、非可加性的数量关系;适用于二元性、多元性和连续性的目标变量;能处理连续性和类别性的预测变量。
缺点:一个黑箱方案,难以理解,难以得到直观的解释;如果不经过仔细控制,容易微调于样本数据,从而不具备充分的“抗震荡性”和稳定性。
七、判别分析
是一种用来区分、判断个体所属类别的统计技术。判别分析在市场营销分析、信用风险评分模型等领域都可以应用。
优点:适用于二元性或多元性目标变量,能够判断、区分个体应该属于多个不同小组中的哪一组,而逻辑回归只能预测二元性的目标变量。
.
精品文档
缺点:假设自变量的分布为正态分布,而实践中的数据往往不是完全的正态分布。尽管判别分析时对轻微的偏
离正态分布具有一定的抗震荡性,但严重的偏离可能导致统计结果的不可靠性;如果使用stepwise功能,则有过分微调的可能;多维相关性可能导致模型的不稳定性和不可靠性。
八、决策树模型
是对总体进行连续的分割,以预测一定目标变量的结果的统计技术。
优点:浅层的决策树视觉上非常直观,而且容易解释;对数据的结构和分布不需作任何假设;可以容易地转化成商业规则;可以捕捉住变量间的相互作用。
缺点:深层的决策树视觉上和解释上都比较困难;决策树容易过分微调于样本数据而失去稳定性和抗震荡性;决策树对样本量的需求比较大;处理缺失值的功能非常有限。
九、共性过滤分析
一种用来预测个体偏好的技术。被广泛应用于电子商务和网络营销中,推荐。
优点:非常直观,容易理
银行客户流失 来自淘豆网m.daumloan.com转载请标明出处.