评分卡模型在信贷风控中的应用与优化策略

文摘社会 2024-07-01 08:28 广东

评分卡是我们在风控模型建设中经常采用的一种方式，最为熟悉的A卡（申请评分卡）、B卡（行为评分卡）、C卡（催收评分卡）便是非常典型的模型代表。一般情况下，评分赋予的意义是某用户的结果分数越高，则相应的综合资质表现越好。因此，评分卡不仅便于对模型响应数据的量化分析，而且在实际场景中具有很好的业务解释性，这样使评分卡在风控模型实践中具有非常重要的应用价值。

评分卡最终的业务效果是以分数区间形式进行呈现的，并且在各个连续区间附带相关的业务指标，例如数量、占比、响应率等，具体分布样例如图1所示。其中，good_cnt、bad_cnt、total_cnt分别代表评分区间（score_bin）的好样本数、坏样本数、总样本数；percent为区间样本占比（total_cnt/sum(total_cnt)），此指标可直接作为通过率的理解；badrate为样本的坏账率（bad_cnt/total_cnt），也是业务分析非常关心的违约率。

图1 评分卡效果分布
上图是我们在建立贷前风控模型后经常输出的结果，从图中展示的分布信息可知，随着分数score的逐渐增加，坏账率badrate呈现下降的趋势，这也符合实际场景对评分模型分布的理解。在贷前授信环节的风控应用中，我们假定以分数400作为决策阈值，高于400分以上的用户予以通过，低于或等于400分的用户则拒绝，这样便实现了评分卡模型精准化风控审批的效果。当然，这只是评分卡的主要应用方向之一，还可以用于客户分层、策略组合、模型训练等。

通过评分区间来差异化体现不同人群的好坏程度无可厚非，但一份评分结果数据的分布展现形式并不是固定的，例如分数区间的数量、区间样本的限定等。若我们采用不同方法来呈现某批样本的评分数据，最终在量化风险差异或寻找更合适决策点上，总会得到相对更优的分析结果。因此，围绕这种客观的实际分析场景，本文首先采用等距、等频这两种常用的无监督分箱思想，来介绍下评分在不同划分区间方式下的表现差异，并得到相对较优的评分数据分布。

在对模型评分的划分实践中，我们结合具体实例数据来展开分析，样本包含5676条样本与3个字段，分别为样本主键id、模型评分score、贷后标签label，其中score为评分分析对象，label用于分析分数区间的对应坏账率，相关样本数据与分析代码详见本文附带材料。

1、等距划分评分

等距划分是我们针对评分卡分布区间展示的最常使用方式，相比等频划分的最大好处在于每个区间量化刻度保持统一（各区间分数间隔长度相等），可以直观了解到整体的区间样本分布是否符合正态形式。一般情况下，一个评分卡模型的样本群体分布，往往是两端边界的占比较少，而中部区间的占比最多，从边界向中间靠近的分布趋势，占比逐渐增加且变化较为平滑，因此等距划分方式可以较好的呈现出这个趋势。

分箱数量的多少也会直接影响评分的展示效果，通常情况下，评分区间数量最好设置在20~30，分箱数量太少分布较为简单，不便于精细化管理与分析；分箱数量太多分布较为复杂，不利于响应趋势的规律展现。下面我们以分箱数量20为例，来对本文样本数据的评分score进行等距划分，具体结果如图2所示。
图2 等距划分评分

从以上样例结果可以看出，此评分模型的区分度效果是比较好的，对坏样本用户的识别能力，以及分数从低到高的坏账变化趋势都是较为明显的。虽然在最后一个分数区间(681,688]的样本坏账率badrate明显偏高（25.0%），但由于此区间的样本数太少（4）欠缺代表性，可以将其与临近区间微调合并，即将最后3个分数区间的样本汇总统计，这样便于直观分析。同理，可以将前3个分数区间的样本按照同样逻辑优化处理，相应调整的分布结果如图3所示。

图3 等距分布微调

上图等距分布结果对应转换成相关可视化图显得更为形象直观，其中图4为坏账率变化曲线，坏账率badrate随分数score变化呈现出合理的单调性趋势；图5为区间群体占比分布结果，反映出样本群体占比percent在连续分数区间score_bin的正态分布形态，这在一定程度上均体现了此评分模型的优异效果。

图4 坏账率变化趋势（等距）
图5 区间占比分布（等距）

2、等频划分评分
虽然等距方式直观体现了模型评分的区综合性能，但同样作为无监督分箱的等频划分方式，并非无施展应用之处，当等距划分方式效果不佳时，例如针对中部少量区间的样本数量没有或很少的情况，等频划分方式反而体现了其原理思想的优势，可以保证所分区间的样本有一定数量且分布较为均衡。因此，在实际场景中，当我们在采用等距方式划分评分后感觉效果一般或较差时，不妨尝试下等频划分方式。从数据分析角度来说，我们可以先后采用两种方式来展示评分区间数据，这样可以兼顾二者的优点，从结果数据中能够获取更多的信息。接下来我们采用等频分箱方式来对评分数据进行划分，分箱数量同样设置为20，最终分布结果如图6所示，相应的坏账率趋势、样本占比分布依次如图7、图8所示。
图6 等频划分评分

图7 坏账率变化趋势（等频）

图8 区间占比分布（等频）

通过以上结果可以看出，在各分数区间score样本占比percent较为均衡的情况下，坏账响应率badrate仍然可以保持较好的单调性趋势，再次说明此评分卡模型表现出较好的区分性能。相对来讲，等频方式的分布不利于直观了解各分数区间的间隔长度，但可以较好的体现均衡人群的响应效果，可以有效避免等距方式因个别区间样本太少导致的分布微调（从图2到图3过程），因此在日常观察评分分布的实践中，可以将等频方式与等距方式结合使用。

3、决策点分析
通过以上内容介绍，我们熟悉了在等距、等频两种方式下评分卡的分布形态，但围绕实际业务中评分卡模型的应用需求，了解评分区间的数量、占比、响应率等信息还是不够的，我们需要结合业务来进一步分析评分数据带来的决策效应。简单来说，就是通过评分分布来研究通过率与坏账率的权衡，寻找业务可接受的cutoff决策点。

在信贷业务的实际场景中，通过率与坏账率是一对相互抵触的指标，且二者分别为公司业务部、风控部所关心的指标，但要实现整体业务的收益，务必将这两个指标进行权衡。要想有较高的通过率需要承担较高的坏账率，而要保证较低的坏账率则需要接受较低的通过率。在此分析背景下，公司需要综合成本、利润、损失等维度，来算出业务可接受的决策点，也就是确定合适的通过率与坏账率组合。

为了便于熟悉评分卡在此场景下的分析逻辑，本文在前边介绍内容的基础上，来详细展示下通过率（核准率）与坏账率（违约率）的关系分布。我们以图2等距方式展示的结果为例，来了解下不同临界决策点的效果分布，具体数据如图9所示。
图9 决策分布明细

上图详细展示了在各个分数决策点下的累计通过率与累计坏账率，此决策点代表的业务含义是当评分score大于分数阈值点时，风控审批系统予以通过，否则直接拒绝（小于等于分数点）。举个例子，当分数大于609风控予以通过时，用户进件的核准通过率为74.08%，对应需承担32.91%的违约坏账率。现将不同分数决策点的通过率与坏账率数据，转换为可视化曲线如图10所示。

图10 决策分布曲线

通过以上分布关系结果图，可以更直观了解到各分数决策点给业务带来的影响，而在实际场景中正是需要结合业务情况，选取合适的风控审批cutoff临界点，取得通过率与坏账率的相对平衡，能够较大程度给业务带来收益。

针对决策临界点的选取，虽然我们通过单个分数点将用户群体一分为二，即通过用户与拒绝用户，这样便于理解与分析，但在实际业务场景中，往往很少通过单个分数临界点来实施风控审批，较多情况下会选择连两个分数决策临界点来进行部署实施，这样将申请用户群体划分为3类情况，依次为通过、待定、拒绝，其中通过与拒绝的状态判断均由系统自动化实施，而待定状态的用户，会进入人工审核环节，由人工风控来决定是否予以通过，相关示意样例具体如图11所示（当score<=608时拒绝，当608<score<=634时人工审核，当score>=634时通过）。此外，每个决策临界点的设定，对应区间的样本占比与坏账表现，在实际业务场景中是可接受的，这是开展业务制定风控策略的前提。
图11 双决策临界点示意图

综合以上内容，我们围绕风控常见的评分卡模型，对分数区间的分布信息进行了详细描述，具体采用等距与等频两种方式展开对比分析，客观呈现了不同评分区间划分形式对分布信息的影响，并总结各自优缺点且在实际场景可以综合应用。同时，根据评分区间的必要信息，结合业务风控审批的应用需求，简单介绍了分数决策临界点的实施原理，此外引入实际场景常见的双决策分数点，通过可视化示意图形式阐述了实践机制及其效果，这对进一步理解评分卡区间所呈现的风控信息，具有一定价值的参考意义。

为了便于大家对评分卡区间的差异度效果对比的理解，本文额外附带了图表分析对应的实例样本数据(含python代码)，供大家学习参考：

详情请移至知识星球获取相关资料：


另外跟模型相关的内容，还有以下的M训练营课题，课程详情如下：


以上课程点击左下角【阅读原文】进行了解。

一.课程课程老师介绍
本次课程由番茄风控的从业多年的风控模型专家老师，开班授课。

M老师
老师介绍 ：
①多年消费金融风控模型从业，历任模型经理，专家岗，擅长信贷风控模型；
②某大企金融线模型团队长Leader，头部金融科技事业部经理；
③风控模型专家岗，擅长信贷风控模型的全流程的开发与搭建；

二.课程授课时间：六月份
第一次：6月29日上午9:30-12:00
第二次：6月30日上午9:30-12:00
第三次：7月6日上午9:30-12:00
第四次：7月7日上午9:30-12:00
三.授课形式：远程直播授课

以上内容，各位感兴趣的小伙伴可以咨询管理员小番。您更可以点击左下角【阅读原文】直接报名本次训练营课程，谢谢。

点击左下角【阅读原文】进行了解。

官方企业微信号，扫码添加

感谢关注

http://mp.weixin.qq.com/s?__biz=Mzg4NDU4ODUxMA==&mid=2247515735&idx=1&sn=f07390ee53c45885c1df95fdeca55d39

番茄风控大数据

介绍数据分析与风控大数据前沿知识

最新文章

这两类数据，如何赋能中小微企业信贷风控能力？

【本周发布】第十四期课程【迁移模型开发与搭建】

已更新会员课程共【130期】会员课程

新课上线~《电商贷风控》即将隆重登场

新课上线~《非零售额度授信训练营》隆重登场

这个风控要点，还是这篇知识笔记要点少不了

【本周发布】第十四期课程【迁移模型开发与搭建】

已更新会员课程共【130期】会员课程

新课上线~《电商贷风控》即将隆重登场

新课上线~《非零售额度授信训练营》隆重登场

冷启动阶段(模型)的开发注意要点

【本周发布】第十四期课程【迁移模型开发与搭建】

已更新会员课程共【130期】会员课程

新课上线~《电商贷风控》即将隆重登场

新课上线~《非零售额度授信训练营》隆重登场

风控模型指标业务的剖析与应用

开课啦【风控模型指标业务的剖析与应用】

第十四期课程【迁移模型开发与搭建】

新课上线~《电商贷风控》即将隆重登场

新课上线~《非零售额度授信训练营》隆重登场

模型的排序性及区分度指标KS的三种类型解读

【周末新课上线】--《风控模型指标业务的剖析与应用》

第十四期课程【迁移模型开发与搭建】

新课上线~《电商贷风控》即将隆重登场

新课上线~《非零售额度授信训练营》隆重登场

信贷重要指标之资产负债率取值逻辑与计算

第130期会员课程【风控模型指标业务的剖析与应用】

第十四期课程【迁移模型开发与搭建】

新课上线~《电商贷风控》即将隆重登场

新课上线~《非零售额度授信训练营》隆重登场

风控策略中的多维规则应用及其优势分析

第130期会员课程【风控模型指标业务的剖析与应用】

第十四期课程【迁移模型开发与搭建】

新课上线~《电商贷风控》即将隆重登场

新课上线~《非零售额度授信训练营》隆重登场

一个设备指纹引发的问题思考

第130期会员课程【风控模型指标业务的剖析与应用】

第十四期课程【迁移模型开发与搭建】

新课上线~《电商贷风控》即将隆重登场

新课上线~《非零售额度授信训练营》隆重登场

风控贷前模块数据异常分析—关键指标与策略调整

第130期会员课程【风控模型指标业务的剖析与应用】

新课上线~《电商贷风控》即将隆重登场

第十四期课程【迁移模型开发与搭建】

新课上线~《非零售额度授信训练营》隆重登场

数据特征衍生与应用策略，助力电商贷风控

第十四期课程【迁移模型开发与搭建】

第130期会员课程【风控模型指标业务的剖析与应用】

新课上线~《电商贷风控》即将隆重登场

新课上线~《非零售额度授信训练营》隆重登场

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉