评分卡模型
评分卡模型
数据导入
使用kaggle上的Give Me Some Credit数据
1 |
|
数据预处理
缺失值处理
1 |
|
1 |
|
月收入缺失比:19.82%,家属数量缺失比:2.62%。
家属数量对应的缺失比例低于5%,可直接删除;月收入缺失比比较高,不能直接删除,利用填充平均值的方法进行补充。
1 |
|
异常值处理
用箱形图判断异常值,再过滤异常值。
1 |
|
特征选择
过滤掉一些对于目标变量影响权重较小的特征变量,这里使用IV值进行特征筛选。
WOE分箱
WOE(Weight of Evidence)即证据权重,可以将logistic回归模型转化为标准评分卡格式,WOE是对原始自变量的一种编码形式,要对一个变量进行WOE编码,需要首先把这个变量进行分组处理(也叫离散化、分箱)。WOE=ln(坏样本占比/好样本占比)
WOE分箱就是将连续变量离散化, 即切分成不同的区间段,离散化后的变量具有很好的稳定性,比如年龄这个连续变量,如果是连续值的时候21和29就是两个不同的值,对模型的效果可能就不一样,如果离散化成20-30的时候,这两个年龄对模型的效果就是一样,更加稳定。
1 |
|
1 |
|
计算IV值
IV(Information value,IV)信息值,IV值衡量一个变量的信息量,计算公式为SUM((好样本占比-坏样本占比)* 迹象权数)
1 |
|
可以看到[“负债率”,“月收入”,“信贷数量”,“固定资产贷款量”,“家属数量”]这几个特征的IV值过低,对目标变量的影响较小,将其过滤掉。
用WOE值代替原始数据
1 |
|
模型训练
1 |
|
1 |
|
计算得分
约定:当odds增加一倍,分数增加20分;当odds = 1,分数为600分。
1 |
|
1 |
|
获得评分卡
变量 | 分箱类别 | 分数 |
---|---|---|
基础分数 | - | 521.32931339 |
可用额度 | 0 - 0.02953715 | -22.0 |
0.02953715 - 0.1480833 | -21.0 | |
0.1480833 - 0.52137127 | -5.0 | |
0.52137127 - 1 | 19.0 | |
年龄 | 21 - 35 | 8.0 |
35 - 41 | 5.0 | |
41 - 47 | 4.0 | |
47 - 52 | 3.0 | |
52 - 57 | -0.0 | |
57 - 63 | -6.0 | |
63 - 70 | -13.0 | |
70 - 107 | -16.0 | |
逾期30-59天笔数 | -1 - 0 | -8.0 |
0 - 1 | 14.0 | |
1 - 3 | 27.0 | |
3 - 5 | 37.0 | |
5 - 13 | 42.0 | |
逾期60-89天笔数 | -1 - 0 | -3.0 |
0 - 1 | 24.0 | |
1 - 3 | 35.0 | |
3 - 12 | 39.0 | |
逾期90天笔数 | -1 - 0 | -6.0 |
0 - 1 | 34.0 | |
1 - 3 | 48.0 | |
3 - 5 | 57.0 | |
5 - 20 | 57.0 |
上面得到的是不同特征值对应的分数,评分越高表明该用户越有可能相应目标变量,成为坏用户;特征划分区间是依次递增的,特征区间值与得分是相对应的,年龄越大,坏账的可能性越低;逾期笔数越多,坏账可能性越高,得分越高;最后将所有的变量对应的得分相加,就是每个用户的得分。
评分卡模型
https://wangyinan.cn/评分卡模型