评分卡中的A卡、B卡、C卡是指

贷前:请求评分卡(Application score card),称为A卡

贷中:行为评分卡(Behavior score card),称为B卡

贷后:催收评分卡(Collecappointmenttion score card),称为C卡

WOE(依据权重)

Weight of Evidence,依据权重

是自变量的一种编码,常用于特征转化用来衡量自变量与因变量的相关性

Week11 评分卡

B代表危险客户,G代表正常客户

关于某一变量某一分组的WOE,衡逻辑回归的原理和应用量了这组里面的好坏客户的apple占比与整体样本好坏样本占比的差异

Thinking:关于二分类问题共100条记载,一个自变量只要两个值value1, value2,怎样核算value1, value2对应的woe1, woe2?

value1有50条记载,其中40条对应label逻辑回归spss操作 1,其他10条对应label 0

value2有50条记载,其中25条对应label 1,其他25条对应label 0

Week11 评分卡

Thinking:WOE差异越大,对危险差异才华=差异越大,对危险差异越明显

WOE核算:

关于连续型变量,分红N个bins

关于分类型变量坚持类别group不变

核算每个bin or g逻辑回归等于roup中evappreciateent和逻辑回归spss操作non-event的百分比

Week11 评分卡

WOE逻辑回归模型的效果:

能够将连续逻辑回归等于型变量转化为woe的分类变量

能够对相似的bin或group进行吞并(woe相似)

核算woe需求留意:

每个bin or grapplicationoup记载不能过少,至少有5%的记载

不要用过多的bin or group,会导致不稳定性

对bin or groupapplication中全为0或许1的特列,用 批改的woeWeek11 评分卡避免分母为0的情况

IV(Information Value)

woe只考虑了危险差异的才华,没有考虑能差异的用户有多少

IV衡量一个变量的危险差异才华,即衡量各变量对y的猜测才华,用于选择变量

Week11 评分卡

IV的核算,能够认为是WOE的加权和

IV是与WOE密切相关的逻辑回归和线性回归的区别一个政策,在运用实践中,点评规范可参看如下:

Week11 评分卡

评分卡模型开发步骤:

Step1,数据获取,包括获取存量客户及潜在客户的数据

存量客户,已翻开applicationapple资事务的客户,逻辑回归包括个人客户和安排客户;

潜在客户,即将翻开事务的客户

Step2,EDA,获取样本整体情况,进行直方图、箱形图可视化

Step3,数据预处理,包括数据清洗、缺失值处理、失常值处理

Step4,变量选择,经过统计学的办法,选择出对违约状况影响最明显的政策。主要有单变量特征选择和依据机器学习的办法

Step5逻辑回归,模app装置下载型开发,包括变量分段、变量的WOE(依据权重)转化和逻辑回归预算三个部分

Step6,模型点评approve,点评模型的APP差异才华、猜逻辑回归的原理和应用想才华、稳定性,并形成模型逻辑回归剖析点评陈说,得出模型是否能够运用的定论

Step7,生成评分卡(许诺评分),依据逻辑回归的系数和WOE等确定许诺评分的办法,将Logistic模型转逻辑回归模型换为规范评分的办法

Step8,树立评分体系(安置上线),依据生成的评分卡,树立主动逻辑回归原理许诺评分体系

Week11 评分卡

变量分箱

变量分箱是对连续变量进行离散化,分箱后的特征对失常数据有很强的鲁棒性

比方 age>30 为1,不然0,假定特征没有离散化,杜宇失常数据“年纪300岁”会逻辑回归丢失函数给模型形成很大的干扰

逻辑回归归于广义线性模型,表达才华受限,单变量离散化为N个后,相当于为模型引入了非线性,能够进步模型表达才华

离散化后能够进行特征交叉,由M+N个变量变为M*N个变量,进一步引入非线性,进步表达才华

能够将缺失作为独立的一类带入模型

app装置下载全部变量转化到相似的尺度上

缺失值处理方appreciate

针对字段X,存在缺失值的处理:

直接删去含有缺失值的样本

​假定缺失的样本占总数很大,能够直接放弃字段X(假定将X作为特征appear参与,噪音会很大)

选用简略规则进行补全:

删去:删去数据缺失的记载;

均值:运用当前列的均值;

高频:运用当前列出现频率最高的数据。

选用猜测进行补全:

依据样本之间的相似性添approach补缺失值

依据变量之间的相关联系添补缺失值

To Do:选用随机森林对Titanic乘客生计猜测中的Embarked, Age进行补全

1)经过Sappointmenturvived,Pclass, Sex, SibSp, Parcappearanceh, Fare字段猜测Embarappreciateked字段中的缺失值

2)经过Survived,Pclass, Sex, SibSp, Parch, Fare,Embarked字段,猜测Age字段中的缺失值