LR的预测概率值转分数
LR的预测概率值转分数(评分卡)
背景:在互联网金融中,一般用LR模型来预测一个借贷用户的好坏,但是LR模型得到的结果是逾期的概率值,如何仅仅给出预测概率值,人一般很难判断这个概率值代表的用户质量好坏,但是如果能够给出分数就比较理解了。而我们一般要把逾期概率转为分数来供公司进行决策,那么如何将逾期概率转化为用户质量的得分,例如0-100呢?
评分卡的分数转化
逻辑回归(Logistic Regression)是一种因变量与事件发生的概率之间的一种映射关系。其中的p/(1-p),称为odds,即事件成功的概率除以事件失败的概率。
对几率取对数得到对数几率(log odds,亦称logit):
设定当每增加1倍时,增加的分数PDO(point of double odds),即比率翻番的倍数
求解A和B
要算出系数A、B的话,需要从业务角度先预设两个前提条件:
- 在某个特定的比率设定特定的预期分值
- 指定比率翻番时分数的变动值(PDO)
解释:
- 比如根据业务经验,消费金融信贷的客户违约率4.8%算正常()。预设评分卡的分值为0-100分,那取预期分值为50分,并指定当Odds按双倍上下浮动时(比如2.5%或10%),分值则对应上下变动10分(比如60分或40分)。
- 这里是根据业务经验来的,没有数学依据;
- 0-100分是根据做评分卡的需要来的,没有数学依据。要是想做成600-1000分的评分卡也可以,修改对应的和PDO就行;
- 分是根据0-100分来的,也可以取45分或73分,不重要。重要的是随着Odds翻番变动时,分数也随之变动的联动变化体系(你翻番我就变PDO=10分)
评分卡的好处
评分卡不使用概率转换分数,而是用线性部分转换成分数,这样做的好处是,每一个特征的分数和就是总分,而如果用概率转分,则单个特征增加s分,总分并不增加s分。
是基础分数,是每个变量对应分配的分数,求和得到总分数。
分箱
如果之前步骤中每个变量都有进行分箱操作,就把每个变量对应的分数,分别乘以变量中每个分箱的WOE,得到每个分箱的评分结果。
WOE(Weight of Evidence)即证据权重,可以将logistic回归模型转化为标准评分卡格式,WOE是对原始自变量的一种编码形式,要对一个变量进行WOE编码,需要首先把这个变量进行分组处理(也叫离散化、分箱)。WOE=ln(坏样本占比/好样本占比)
以上步骤都完成后,假如新产生一个新样本,我们只需将此用户每个变量对应到各分箱中得到其对应的WOE值,再根据上面的公式计算出这个样本在每个变量下的分数。最后将所有变量对应的分数相加,即为最终评分结果。
参考资料
LR的预测概率值转分数
https://wangyinan.cn/LR的预测概率值转分数