评分卡中的A卡、B卡、C卡是指
贷前:请求评分卡(Application score card),称为A卡
贷中:行为评分卡(Behavior score card),称为B卡
贷后:催收评分卡(Collecappointmenttion score card),称为C卡
WOE(依据权重)
Weight of Evidence,依据权重
是自变量的一种编码,常用于特征转化用来衡量自变量与因变量的相关性
B代表危险客户,G代表正常客户
关于某一变量某一分组的WOE,衡逻辑回归的原理和应用量了这组里面的好坏客户的apple占比与整体样本好坏样本占比的差异
Thinking:关于二分类问题共100条记载,一个自变量只要两个值value1, value2,怎样核算value1, value2对应的woe1, woe2?
value1有50条记载,其中40条对应label逻辑回归spss操作 1,其他10条对应label 0
value2有50条记载,其中25条对应label 1,其他25条对应label 0
Thinking:WOE差异越大,对危险差异才华=差异越大,对危险差异越明显
WOE核算:
关于连续型变量,分红N个bins
关于分类型变量坚持类别group不变
核算每个bin or g逻辑回归等于roup中evappreciateent和逻辑回归spss操作non-event的百分比
WOE逻辑回归模型的效果:
能够将连续逻辑回归等于型变量转化为woe的分类变量
能够对相似的bin或group进行吞并(woe相似)
核算woe需求留意:
每个bin or grapplicationoup记载不能过少,至少有5%的记载
不要用过多的bin or group,会导致不稳定性
对bin or groupapplication中全为0或许1的特列,用 批改的woe避免分母为0的情况
IV(Information Value)
woe只考虑了危险差异的才华,没有考虑能差异的用户有多少
IV衡量一个变量的危险差异才华,即衡量各变量对y的猜测才华,用于选择变量
IV的核算,能够认为是WOE的加权和
IV是与WOE密切相关的逻辑回归和线性回归的区别一个政策,在运用实践中,点评规范可参看如下:
评分卡模型开发步骤:
Step1,数据获取,包括获取存量客户及潜在客户的数据
存量客户,已翻开application融apple资事务的客户,逻辑回归包括个人客户和安排客户;
潜在客户,即将翻开事务的客户
Step2,EDA,获取样本整体情况,进行直方图、箱形图可视化
Step3,数据预处理,包括数据清洗、缺失值处理、失常值处理
Step4,变量选择,经过统计学的办法,选择出对违约状况影响最明显的政策。主要有单变量特征选择和依据机器学习的办法
Step5逻辑回归,模app装置下载型开发,包括变量分段、变量的WOE(依据权重)转化和逻辑回归预算三个部分
Step6,模型点评approve,点评模型的APP差异才华、猜逻辑回归的原理和应用想才华、稳定性,并形成模型逻辑回归剖析点评陈说,得出模型是否能够运用的定论
Step7,生成评分卡(许诺评分),依据逻辑回归的系数和WOE等确定许诺评分的办法,将Logistic模型转逻辑回归模型换为规范评分的办法
Step8,树立评分体系(安置上线),依据生成的评分卡,树立主动逻辑回归原理许诺评分体系
变量分箱
变量分箱是对连续变量进行离散化,分箱后的特征对失常数据有很强的鲁棒性
比方 age>30 为1,不然0,假定特征没有离散化,杜宇失常数据“年纪300岁”会逻辑回归丢失函数给模型形成很大的干扰
逻辑回归归于广义线性模型,表达才华受限,单变量离散化为N个后,相当于为模型引入了非线性,能够进步模型表达才华
离散化后能够进行特征交叉,由M+N个变量变为M*N个变量,进一步引入非线性,进步表达才华
能够将缺失作为独立的一类带入模型
将app装置下载全部变量转化到相似的尺度上
缺失值处理方appreciate法
针对字段X,存在缺失值的处理:
直接删去含有缺失值的样本
假定缺失的样本占总数很大,能够直接放弃字段X(假定将X作为特征appear参与,噪音会很大)
选用简略规则进行补全:
删去:删去数据缺失的记载;
均值:运用当前列的均值;
高频:运用当前列出现频率最高的数据。
选用猜测进行补全:
依据样本之间的相似性添approach补缺失值
依据变量之间的相关联系添补缺失值
To Do:选用随机森林对Titanic乘客生计猜测中的Embarked, Age进行补全
1)经过Sappointmenturvived,Pclass, Sex, SibSp, Parcappearanceh, Fare字段猜测Embarappreciateked字段中的缺失值
2)经过Survived,Pclass, Sex, SibSp, Parch, Fare,Embarked字段,猜测Age字段中的缺失值