大厂风控模型是如何设计的?

科技   2024-11-04 18:10   北京  
风控模型的模型设计环节是建模的重中之重,本篇总结了对于评分卡建模初期“模型设计”所涉及到的一些关键设计方法和要考虑的影响因素。本篇内容节选自👉100天风控专家》评分卡模型篇。未经本人允许不得转载。
一、什么是模型设计?

模型设计是模型开发全流程的第一步,也是最为关键的环节。

什么是模型设计?

基于业务需求将原始数据转化为“建模宽表”的过程就是模型设计,即模型开发前期的设计环节。

在信贷业务场景中,贷前、贷中、贷后、反欺诈、或者营销的模型,无论哪种,对于二分类预测概率类的建模方法论基本上是相同的,不同之处就在于“模型设计”环节。模型设计环节,可以理解为业务到模型的枢纽,它可以将业务属性赋予给模型,让模型有自己的灵魂,同时也决定着模型效果的上限。

观察点:观察点是每个样本发生具体业务的时间点,用于构建成整个样本集。不同业务场景下的观察点定义不同。

  • 贷前申请评分卡(A卡),观察点可定义为“用户申请贷款的时间点”(比如10月1日申请的一笔贷款)
  • 贷中支用评分卡(B卡),观察点可定义为“用户发起支用的时间点” (比如10月2日支用了一笔贷款)
  • 贷中行为评分卡(B卡),观察点可定义为“某个具体日期”(如10月30日)筛选有余额、无逾期的作为样本
观察期:观察期是用于构造特征变量的时间窗口,每个客户根据当时申请贷款的时间点向前推固定的时间就是观察期。如贷前A卡,客户申请贷款之前的12个月内有什么样的特征,这里12个月就是观察期的长度。
  • 观察期不易太短,否则无法加工出合适的变量。也不能太长,因为历史数据回溯也需要成本,获取难度高。

  • 观察期内可以衍生“时间切片的变量”,比如近12个月内非银机构查询次数、近6个月内逾期超过30天以上的次数等

  • 观察期构造的特征必须在观察点之前,否则会发生“数据泄露(时间穿越)”的问题,导致模型过拟合。

表现期:表现期是用于衡量Y标签层面的时间窗口,需要分析经过多久可以让逾期表现充分或者逾期增长放缓,一般可以通过vintage来观察制定表现期。
观察点理解误区:
二、Y标签定义介绍

贷前A卡模型:是用来预测客户申请贷款后未来违约的概率(PD模型)。一般将发生了一定程度逾期的视为“坏客户”,可以用数字1来表示;而未曾发生过逾期的视为“好客户”,用0来表示。

贷中B卡模型:是用来预测当前在贷无逾期的客户未来违约的概率。一般将发生了一定程度逾期的视为“坏客户”,用数字1来表示;而未曾发生过逾期的视为“好客户”,用0来表示。

贷后C卡模型(迁徙率模型):是用来预测客户当前逾期状态过度到下一个逾期状态的概率。比如,以M1-M2迁徙模型为例,预测群体为观察点处在M1阶段的客户,预测这些客户30天后迁移到M2的概率。可以将迁移到下一个逾期状态的客户视为“坏客户”,而将从良的客户视为“好客户”。

2.1 Y标签定义的核心要素

如何准确的定义Y标签呢?定义Y标签需要考虑两个要素:一是好坏客户的定义,二是表现期定多少。

下面以贷前的A卡模型举例,说明如何来制定Y标签。

2.2 Y标签定义—通过滚动率定义坏客户

对坏客户而言,坏的程度是如何定义的呢?可以通过滚动率分析来判断。以下滚动率统计结果是以20240630为观察点,将观察点前6个月的逾期阶段和后6个月的逾期阶段进行交叉统计。

2.3 Y标签定义—通过Vintage定义表现期

表现期定义多少合适,可以根据Vintage找到拐点定义表现期,具体标准是:观察逾期率走势,看从哪个账龄月开始以后变得平稳或者上升速度明显放缓,就可视为表现期的拐点。

以下是一个12期循环贷产品M2+%的Vintage曲线图,可以观察到逾期率走势到mob8以后开始变得平稳,说明到了mob8的时候风险得到充分暴露,后面也很难有过多新增的逾期了,那就可以将mob8作为表现期。

如果vintage无法走平,表现期该如何定义?
建模样本选取的核心四要素是什么?
建模样本的排除规则,对于ABC卡分别是什么?
什么是模型细分?
这些更多的细节部分可了解👉《100天风控专家视频内容(目录可试看),150节的视频干货,策略、模型理论+Python实操全部通吃。

历史风控精选文章:

左可—”试看“,右可—”咨询

Python数据科学
以Python为核心语言,专攻于「数据科学」领域,文章涵盖数据分析,数据挖掘,机器学习等干货内容,分享大量数据挖掘实战项目分析和讲解,以及海量的学习资源。
 最新文章