评 分 卡 开 发 流 程 文 档
一、数据集切分
将数据集依照 70% 与 30% 比率切分为训练集和测试集两部分;
二、分别对训练集与测试集进行数据预办理
1.
衍生变量箱:
分箱原则:最大分箱组数为 5 组,分箱保证了组内元素的卡方值差别最小,
行分箱归并:
3) 获得初步分箱组
a) 检查每一组分箱中坏客户比率能否存在二 0 的组,假如存在,需要对其进
行归并,直到不存在为止。
b ) 检查分箱组中,组间所对应的坏客户比率能否单一;假如不但一,依据
卡方分箱原则,将分箱组数进行减少,直到单一。
a) 检査分箱后某一组超出变量整体个数比率 90%, 假如存在,则删除该变 崑
4) 经过以上步骤后获得的类型变量,计算类別变量的 WOE 和 IV 值;
进
三、 将训练集原数据用 WOE 值代替;
四、 训练集单变量及多变量挑选(剔除多重共线性)
1、 单变量挑选:
1) IV 值挑选标准: IV >;
、 多变量挑选
2
1) 计算 WOE 代替后变量间的有关系数,假如变量间有关系数〉,比较该组变量
IV
值,删除 IV 值小的变虽 ::
2) 经过对不一样变量线性回归获得的
R:,计算 VIF 值,剔除 VIF = 1/
(1 -
R= )> 10 的变量;
五、建立及评估逻辑回归模型
、利用上述步骤挑选获得的变量,建立逻辑回归方程;
1
、 采纳后向逐渐回归,经过剔除逻辑回归方程
P
值最不显着的变量
(P
值<),重
2
复以上步骤,直到全部变量均显着,或许最后没有可剔除变量。
3、 最后获得的逻辑回归方程即为所训练的最后模型。
4、 经过计算 KS、AR 指标评估模型;
45%
训练集 KS and AR for the scorecard in the test dataset are 57% and
45%
变量
类型
WOE
Intercept
Cofficient
WOE*Coff+
Factor
Offset
Score
Intercep/
信用评分卡开发流程报告 来自淘豆网m.daumloan.com转载请标明出处.