老客户也有风险?贷中支用评分的惊人发现

文摘   科技   2024-09-25 08:34   广东  

关注金科应用研院,回复“礼包

领取“风控资料合集

文末还有惊喜小福利,记得看到底呦


在信贷风险管理领域,如何有效地评估和控制客户的违约风险始终是行业关注的焦点。随着金融科技的发展,风险评估模型在信贷决策中扮演着越来越重要的角色。本文将结合FAL知识星球的实际案例(文末“阅读原文”放🔗),深入探讨贷中支用评分卡模型的开发过程和应用策略,帮助读者全面理解这一重要的风险控制工具。




背景与概述


1. 信贷风险控制的全流程
在信贷业务中,风险控制贯穿于客户的全生命周期,主要分为贷前、贷中和贷后三个环节:
  • 贷前:反欺诈模型(F卡)、准入评分卡(A卡)

  • 贷中:行为评分卡、支用评分卡(B卡)、预催收模型

  • 贷后:催收评分卡(C卡)


2. 贷中支用评分卡的定义
贷中支用评分卡主要针对已授信且授信时间超过一定期限(如3个月以上)的老客户。其核心目的是在客户发起新的用信申请时,实时评估其违约风险,辅助决策是否放款。

  • 应用场景:客户在贷中申请新增用信时进行实时打分。

  • 针对客群:授信3个月以上的老客户。

  • 评分含义:分数越低,表示客户未来违约的可能性越高。

  • 使用方法:根据评分结果,直接拒绝高风险客户,或结合其他策略进行综合评估。



样本设计与选择


1. 样本选择与Y值定义

在模型开发中,样本的选择和目标变量(Y值)的定义至关重要。为了准确评估客户的违约风险,需要明确“好客户”和“坏客户”的标准。

  • 观察点:客户的用信日期,即每个月内客户最早的用信日期。

  • 表现期:用信日期后6个月内的还款表现。

  • 好坏样本定义:

    • 坏客户:在表现期内,出现过一次或以上的逾期超过30天(即dpd30+)。

    • 好客户:在表现期内,无任何逾期记录。

    • 灰色客户:在表现期内,有逾期但未超过30天。


2. 滚动率分析

滚动率分析用于观察客户从当前状态向未来状态的迁移概率。


(知识星球-第18期大咖课)


通过分析,可以发现:

  • 正常客户:未来6个月内有96%的概率保持正常状态。

  • 逾期1期客户:81%可能回归正常,但有7%可能恶化。

  • 逾期4期以上客户:仅有4%可能好转,82%会继续维持逾期状态。


分析结论:逾期程度越高,客户未来恶化的可能性越大。因此,将dpd30+的客户定义为坏客户,具有合理性。


3. Vintage曲线分析

Vintage曲线用于观察不同时间段放款的客户在各个月份的累计违约率。通过对比不同月份的曲线,可以确定风险的稳定时期。在本案例中,我们发现违约率在第9个月后趋于稳定,因此选取用信后6个月作为表现期(考虑到客户已是老客,已授信3个月以上)。


(知识星球-第18期大咖课)


4. 样本统计

根据选取标准,我们得到以下样本分布:

  • 总样本量:26485

  • 坏样本量:1373

  • 坏样本占比:5.18%

从时间上看,2021年1月至2022年6月的每个月样本量和坏样本占比变化如下:

月份

样本量

坏样本量

坏样本占比

2021年1月

128

13

10.16%

2021年7月

1246

108

8.67%

2022年6月

2320

49

2.11%


分析结论:随着时间推移,坏样本占比呈下降趋势,可能与宏观经济环境、政策变化或客户质量提升有关。



模型开发过程


简单来说过特征的选择与降维就是在特定条件下,为了除去那些对模型用处不大的特征,从而得到一组最优“不相关”主变量的过程。计算成本最小的方式就是通过变量WOE趋势、IV值等标准进行筛选和过滤,也是过滤法。


1. 特征工程

数据源

  • 征信特征:从人行征信报告中提取,如账户信息、负债信息、信用历史等。

  • 行为特征:基于客户在贷中的表现衍生,如额度使用率、还款频率、逾期历史等。

  • 外部数据:包括第三方征信机构的数据,如多头借贷信息、消费行为等。


特征处理

  • 缺失值处理:对于缺失较多的变量,考虑剔除或进行填充。

  • 异常值处理:对极端值进行上下限截断,防止对模型造成干扰。

  • 分箱处理:采用卡方分箱、最优分箱等方法,将连续变量离散化,便于计算WOE值。


2. 模型训练

数据集划分

  • 训练集:2021年7月至2022年1月的数据。

  • 测试集(OOT):2022年2月至2022年6月的数据。

模型思路

由于不同数据源的特性,分别建立子模型,再进行融合:

  • 子模型1:基于征信特征的模型。

  • 子模型2:基于行为特征的模型。

  • 子模型3:基于外部数据特征的模型。


模型融合

  • 将各子模型的输出评分作为新的特征,结合外部数据特征,进行逻辑回归模型(LR)的训练。

  • 最终模型引入了11个变量,包括征信特征、行为特征和外部特征。

(知识星球-第18期大咖课)


3. 模型评估

KS值和AUC

  • 子模型:在OOT上的KS值为0.44,AUC为0.77,说明模型有较好的区分度和排序性。

  • 融合模型:在OOT上的KS值提升到0.45,AUC为0.78,模型性能有所提升。


评分分布和排序性

  • 通过KS分布图和KS表,可以看到模型在不同分数段的坏样本占比呈现良好的区分。

  • 等分分段:按分数将样本划分为10段,发现坏样本率随着分数的降低而升高,排序性良好。


稳定性分析

  • 变量的PSI值:在OOT上的PSI为0.017,说明模型在不同时间段的表现稳定。

  • 变量分布:入模变量在不同月份的分布较为稳定,没有极端波动。



模型验证与优化


1. 变量和评分验证

  • 变量验证:对入模变量的衍生和异常值处理进行核查,确保加工逻辑正确,变量值与预期一致。

  • 评分验证:通过再现模型计算过程,验证评分是否正确。


2. 交叉验证与模型对比

  • 新老模型对比:将新模型与老B卡模型进行相关性分析,发现相关系数为0.6,说明新模型引入了新的风险识别能力。

  • 交叉分析:在OOT样本上,老B卡模型的KS值为0.35,通过交叉验证,可以进一步提高风险识别的准确性。


(知识星球-第18期大咖课)


模型应用策略


1. 风险分级与决策

  • 高风险客户(低分段):建议直接拒绝放款,避免损失。

  • 中风险客户:结合其他风险策略,如提高利率、降低授信额度等。

  • 低风险客户(高分段):优先放款,可考虑提供更优惠的政策。

2. 模型的组合应用

  • 多模型融合:将贷中支用评分卡与其他风险模型结合,如反欺诈模型、准入评分卡等,提高整体风险控制能力。

  • 规则引擎:结合业务规则,如客户的职业、收入水平、地区等,进行综合决策。


3. 持续监控与调整

  • 模型监控:定期监控模型的表现,关注KS值、AUC等指标的变化。

  • 数据更新:随着时间推移和宏观环境变化,及时更新数据,重新训练模型。


总结


通过本次贷中支用评分卡模型的开发,我们可以得到以下启示:

  1. 数据是核心:高质量、多维度的数据是模型性能的基础。充分利用征信数据、行为数据和外部数据,可以提升模型的风险识别能力。

  2. 模型设计要灵活:根据不同的数据源和业务需求,灵活地设计模型框架,如采用子模型融合的方法,可以充分发挥各类特征的优势。

  3. 模型评估要全面:不仅要关注模型的区分度(KS值、AUC),还要关注模型的稳定性、变量的合理性和可解释性。

  4. 策略应用要结合业务:模型的评分结果需要与业务实际结合,制定合理的风险策略,达到风险控制和业务发展的平衡。


贷中支用评分卡模型是风险控制的重要工具,通过科学的模型开发和合理的策略应用,可以有效降低违约风险,提升业务质量。在实际工作中,我们需要不断地积累数据,优化模型,适应市场和政策的变化,才能在激烈的竞争中立于不败之地。


希望本文的分享,能让读者对贷中支用评分卡模型有更深入的理解,为实际工作提供有益的参考。




END

看到这里,如果你想了解更多特征工程解析、风控模型的类型、算法以及作用,与模型的搭建方法以及应用场景,加强风控建模业务模型技巧经验、提升建模能力,从0-1全面学习风控模型,推荐学习「量化风控模型机会创造营3.0」




感谢J.K的分享,如果你喜欢、想要看更多的干货类型的文章,可以把公众号设为星标🌟,并且转发分享。

FAL长期对外征稿,邀请各大风控人士加入我们,在风控圈分享你的经验与知识👉征稿,快到碗里来,有稿费那种!


感谢您看到这里

微信公众号对话框回复“小福利”
领取粉丝专属优惠券


金科应用研院
Make Fintech Easier And Smarter
 最新文章