大厂风控模型是如何设计的？

科技 2024-11-04 18:10 北京

风控模型的模型设计环节是建模的重中之重，本篇总结了对于评分卡建模初期“模型设计”所涉及到的一些关键设计方法和要考虑的影响因素。本篇内容节选自👉《100天风控专家》评分卡模型篇。未经本人允许不得转载。

一、什么是模型设计？

模型设计是模型开发全流程的第一步，也是最为关键的环节。

什么是模型设计？

基于业务需求将原始数据转化为“建模宽表”的过程就是模型设计，即模型开发前期的设计环节。

在信贷业务场景中，贷前、贷中、贷后、反欺诈、或者营销的模型，无论哪种，对于二分类预测概率类的建模方法论基本上是相同的，不同之处就在于“模型设计”环节。模型设计环节，可以理解为业务到模型的枢纽，它可以将业务属性赋予给模型，让模型有自己的灵魂，同时也决定着模型效果的上限。

观察点：观察点是每个样本发生具体业务的时间点，用于构建成整个样本集。不同业务场景下的观察点定义不同。

贷前申请评分卡(A卡)，观察点可定义为“用户申请贷款的时间点”（比如10月1日申请的一笔贷款）
贷中支用评分卡(B卡)，观察点可定义为“用户发起支用的时间点” （比如10月2日支用了一笔贷款）
贷中行为评分卡(B卡)，观察点可定义为“某个具体日期”（如10月30日）筛选有余额、无逾期的作为样本

观察期：观察期是用于构造特征变量的时间窗口，每个客户根据当时申请贷款的时间点向前推固定的时间就是观察期。如贷前A卡，客户申请贷款之前的12个月内有什么样的特征，这里12个月就是观察期的长度。

观察期不易太短，否则无法加工出合适的变量。也不能太长，因为历史数据回溯也需要成本，获取难度高。
观察期内可以衍生“时间切片的变量”，比如近12个月内非银机构查询次数、近6个月内逾期超过30天以上的次数等
观察期构造的特征必须在观察点之前，否则会发生“数据泄露（时间穿越）”的问题，导致模型过拟合。

表现期：表现期是用于衡量Y标签层面的时间窗口，需要分析经过多久可以让逾期表现充分或者逾期增长放缓，一般可以通过vintage来观察制定表现期。

观察点理解误区：

二、Y标签定义介绍

贷前A卡模型：是用来预测客户申请贷款后未来违约的概率（PD模型）。一般将发生了一定程度逾期的视为“坏客户”，可以用数字1来表示；而未曾发生过逾期的视为“好客户”，用0来表示。

贷中B卡模型：是用来预测当前在贷无逾期的客户未来违约的概率。一般将发生了一定程度逾期的视为“坏客户”，用数字1来表示；而未曾发生过逾期的视为“好客户”，用0来表示。

贷后C卡模型（迁徙率模型）：是用来预测客户当前逾期状态过度到下一个逾期状态的概率。比如，以M1-M2迁徙模型为例，预测群体为观察点处在M1阶段的客户，预测这些客户30天后迁移到M2的概率。可以将迁移到下一个逾期状态的客户视为“坏客户”，而将从良的客户视为“好客户”。

2.1 Y标签定义的核心要素

如何准确的定义Y标签呢？定义Y标签需要考虑两个要素：一是好坏客户的定义，二是表现期定多少。

下面以贷前的A卡模型举例，说明如何来制定Y标签。

2.2 Y标签定义—通过滚动率定义坏客户

对坏客户而言，坏的程度是如何定义的呢？可以通过滚动率分析来判断。以下滚动率统计结果是以20240630为观察点，将观察点前6个月的逾期阶段和后6个月的逾期阶段进行交叉统计。

2.3 Y标签定义—通过Vintage定义表现期

表现期定义多少合适，可以根据Vintage找到拐点定义表现期，具体标准是：观察逾期率走势，看从哪个账龄月开始以后变得平稳或者上升速度明显放缓，就可视为表现期的拐点。

以下是一个12期循环贷产品M2+%的Vintage曲线图，可以观察到逾期率走势到mob8以后开始变得平稳，说明到了mob8的时候风险得到充分暴露，后面也很难有过多新增的逾期了，那就可以将mob8作为表现期。

如果vintage无法走平，表现期该如何定义？

建模样本选取的核心四要素是什么？

建模样本的排除规则，对于ABC卡分别是什么？

什么是模型细分？

这些更多的细节部分可了解👉《100天风控专家》视频内容（目录可试看），150节的视频干货，策略、模型理论+Python实操全部通吃。

历史风控精选文章：

左可—”试看“，右可—”咨询“

Python数据科学

以Python为核心语言，专攻于「数据科学」领域，文章涵盖数据分析，数据挖掘，机器学习等干货内容，分享大量数据挖掘实战项目分析和讲解，以及海量的学习资源。

最新文章

快速学会登上nature的热门算法，LSTM！

被导师放养，后果可能很严重。。。

245个目标检测开源项目合集，建议收藏！

评分卡模型变量分箱体系（Python实操）

不是，现在都流行用Kaggle写论文了吗？

如何丝滑地，做风控策略收紧？

如何快速进阶风控策略和模型？

吴恩达：每个AI从业者都应该关注Agent！

大厂风控策略是如何做收紧的？

上海交大ACM班，俞勇教授团队第4本重磅新作出版啦！

从0到1，如何快速进阶风控策略和模型？

被导师放养，后果可能很严重。。。

“对比Excel学，Python可视化” 终于来了！