关注“金科应用研院”,回复“礼包”
领取“风控资料合集”
文末还有惊喜小福利,记得看到底呦
在信贷风险管理领域,如何有效地评估和控制客户的违约风险始终是行业关注的焦点。随着金融科技的发展,风险评估模型在信贷决策中扮演着越来越重要的角色。本文将结合FAL知识星球的实际案例(文末“阅读原文”放🔗),深入探讨贷中支用评分卡模型的开发过程和应用策略,帮助读者全面理解这一重要的风险控制工具。
贷前:反欺诈模型(F卡)、准入评分卡(A卡)
贷中:行为评分卡、支用评分卡(B卡)、预催收模型
贷后:催收评分卡(C卡)
应用场景:客户在贷中申请新增用信时进行实时打分。
针对客群:授信3个月以上的老客户。
评分含义:分数越低,表示客户未来违约的可能性越高。
使用方法:根据评分结果,直接拒绝高风险客户,或结合其他策略进行综合评估。
1. 样本选择与Y值定义
在模型开发中,样本的选择和目标变量(Y值)的定义至关重要。为了准确评估客户的违约风险,需要明确“好客户”和“坏客户”的标准。
观察点:客户的用信日期,即每个月内客户最早的用信日期。
表现期:用信日期后6个月内的还款表现。
好坏样本定义:
坏客户:在表现期内,出现过一次或以上的逾期超过30天(即dpd30+)。
好客户:在表现期内,无任何逾期记录。
灰色客户:在表现期内,有逾期但未超过30天。
2. 滚动率分析
滚动率分析用于观察客户从当前状态向未来状态的迁移概率。
通过分析,可以发现:
正常客户:未来6个月内有96%的概率保持正常状态。
逾期1期客户:81%可能回归正常,但有7%可能恶化。
逾期4期以上客户:仅有4%可能好转,82%会继续维持逾期状态。
分析结论:逾期程度越高,客户未来恶化的可能性越大。因此,将dpd30+的客户定义为坏客户,具有合理性。
3. Vintage曲线分析
Vintage曲线用于观察不同时间段放款的客户在各个月份的累计违约率。通过对比不同月份的曲线,可以确定风险的稳定时期。在本案例中,我们发现违约率在第9个月后趋于稳定,因此选取用信后6个月作为表现期(考虑到客户已是老客,已授信3个月以上)。
(知识星球-第18期大咖课)
4. 样本统计
根据选取标准,我们得到以下样本分布:
总样本量:26485
坏样本量:1373
坏样本占比:5.18%
从时间上看,2021年1月至2022年6月的每个月样本量和坏样本占比变化如下:
月份 | 样本量 | 坏样本量 | 坏样本占比 |
2021年1月 | 128 | 13 | 10.16% |
2021年7月 | 1246 | 108 | 8.67% |
2022年6月 | 2320 | 49 | 2.11% |
分析结论:随着时间推移,坏样本占比呈下降趋势,可能与宏观经济环境、政策变化或客户质量提升有关。
简单来说过特征的选择与降维就是在特定条件下,为了除去那些对模型用处不大的特征,从而得到一组最优“不相关”主变量的过程。计算成本最小的方式就是通过变量WOE趋势、IV值等标准进行筛选和过滤,也是过滤法。
1. 特征工程
数据源
征信特征:从人行征信报告中提取,如账户信息、负债信息、信用历史等。
行为特征:基于客户在贷中的表现衍生,如额度使用率、还款频率、逾期历史等。
外部数据:包括第三方征信机构的数据,如多头借贷信息、消费行为等。
特征处理
缺失值处理:对于缺失较多的变量,考虑剔除或进行填充。
异常值处理:对极端值进行上下限截断,防止对模型造成干扰。
分箱处理:采用卡方分箱、最优分箱等方法,将连续变量离散化,便于计算WOE值。
2. 模型训练
数据集划分
训练集:2021年7月至2022年1月的数据。
测试集(OOT):2022年2月至2022年6月的数据。
模型思路
由于不同数据源的特性,分别建立子模型,再进行融合:
子模型1:基于征信特征的模型。
子模型2:基于行为特征的模型。
子模型3:基于外部数据特征的模型。
模型融合
将各子模型的输出评分作为新的特征,结合外部数据特征,进行逻辑回归模型(LR)的训练。
最终模型引入了11个变量,包括征信特征、行为特征和外部特征。
3. 模型评估
KS值和AUC
子模型:在OOT上的KS值为0.44,AUC为0.77,说明模型有较好的区分度和排序性。
融合模型:在OOT上的KS值提升到0.45,AUC为0.78,模型性能有所提升。
评分分布和排序性
通过KS分布图和KS表,可以看到模型在不同分数段的坏样本占比呈现良好的区分。
等分分段:按分数将样本划分为10段,发现坏样本率随着分数的降低而升高,排序性良好。
稳定性分析
变量的PSI值:在OOT上的PSI为0.017,说明模型在不同时间段的表现稳定。
变量分布:入模变量在不同月份的分布较为稳定,没有极端波动。
1. 变量和评分验证
变量验证:对入模变量的衍生和异常值处理进行核查,确保加工逻辑正确,变量值与预期一致。
评分验证:通过再现模型计算过程,验证评分是否正确。
2. 交叉验证与模型对比
新老模型对比:将新模型与老B卡模型进行相关性分析,发现相关系数为0.6,说明新模型引入了新的风险识别能力。
交叉分析:在OOT样本上,老B卡模型的KS值为0.35,通过交叉验证,可以进一步提高风险识别的准确性。
(知识星球-第18期大咖课)
1. 风险分级与决策
高风险客户(低分段):建议直接拒绝放款,避免损失。
中风险客户:结合其他风险策略,如提高利率、降低授信额度等。
低风险客户(高分段):优先放款,可考虑提供更优惠的政策。
2. 模型的组合应用
多模型融合:将贷中支用评分卡与其他风险模型结合,如反欺诈模型、准入评分卡等,提高整体风险控制能力。
规则引擎:结合业务规则,如客户的职业、收入水平、地区等,进行综合决策。
3. 持续监控与调整
模型监控:定期监控模型的表现,关注KS值、AUC等指标的变化。
数据更新:随着时间推移和宏观环境变化,及时更新数据,重新训练模型。
通过本次贷中支用评分卡模型的开发,我们可以得到以下启示:
数据是核心:高质量、多维度的数据是模型性能的基础。充分利用征信数据、行为数据和外部数据,可以提升模型的风险识别能力。
模型设计要灵活:根据不同的数据源和业务需求,灵活地设计模型框架,如采用子模型融合的方法,可以充分发挥各类特征的优势。
模型评估要全面:不仅要关注模型的区分度(KS值、AUC),还要关注模型的稳定性、变量的合理性和可解释性。
策略应用要结合业务:模型的评分结果需要与业务实际结合,制定合理的风险策略,达到风险控制和业务发展的平衡。
贷中支用评分卡模型是风险控制的重要工具,通过科学的模型开发和合理的策略应用,可以有效降低违约风险,提升业务质量。在实际工作中,我们需要不断地积累数据,优化模型,适应市场和政策的变化,才能在激烈的竞争中立于不败之地。
希望本文的分享,能让读者对贷中支用评分卡模型有更深入的理解,为实际工作提供有益的参考。
END
FAL长期对外征稿,邀请各大风控人士加入我们,在风控圈分享你的经验与知识👉征稿,快到碗里来,有稿费那种!
感谢您看到这里
微信公众号对话框回复“小福利”
领取粉丝专属优惠券