模型设计是模型开发全流程的第一步,也是最为关键的环节。
什么是模型设计?
基于业务需求将原始数据转化为“建模宽表”的过程就是模型设计,即模型开发前期的设计环节。
在信贷业务场景中,贷前、贷中、贷后、反欺诈、或者营销的模型,无论哪种,对于二分类预测概率类的建模方法论基本上是相同的,不同之处就在于“模型设计”环节。模型设计环节,可以理解为业务到模型的枢纽,它可以将业务属性赋予给模型,让模型有自己的灵魂,同时也决定着模型效果的上限。
观察点:观察点是每个样本发生具体业务的时间点,用于构建成整个样本集。不同业务场景下的观察点定义不同。
贷前申请评分卡(A卡),观察点可定义为“用户申请贷款的时间点”(比如10月1日申请的一笔贷款) 贷中支用评分卡(B卡),观察点可定义为“用户发起支用的时间点” (比如10月2日支用了一笔贷款) 贷中行为评分卡(B卡),观察点可定义为“某个具体日期”(如10月30日)筛选有余额、无逾期的作为样本
观察期不易太短,否则无法加工出合适的变量。也不能太长,因为历史数据回溯也需要成本,获取难度高。
观察期内可以衍生“时间切片的变量”,比如近12个月内非银机构查询次数、近6个月内逾期超过30天以上的次数等
观察期构造的特征必须在观察点之前,否则会发生“数据泄露(时间穿越)”的问题,导致模型过拟合。
贷前A卡模型:是用来预测客户申请贷款后未来违约的概率(PD模型)。一般将发生了一定程度逾期的视为“坏客户”,可以用数字1来表示;而未曾发生过逾期的视为“好客户”,用0来表示。
贷中B卡模型:是用来预测当前在贷无逾期的客户未来违约的概率。一般将发生了一定程度逾期的视为“坏客户”,用数字1来表示;而未曾发生过逾期的视为“好客户”,用0来表示。
贷后C卡模型(迁徙率模型):是用来预测客户当前逾期状态过度到下一个逾期状态的概率。比如,以M1-M2迁徙模型为例,预测群体为观察点处在M1阶段的客户,预测这些客户30天后迁移到M2的概率。可以将迁移到下一个逾期状态的客户视为“坏客户”,而将从良的客户视为“好客户”。
2.1 Y标签定义的核心要素
如何准确的定义Y标签呢?定义Y标签需要考虑两个要素:一是好坏客户的定义,二是表现期定多少。
下面以贷前的A卡模型举例,说明如何来制定Y标签。
2.2 Y标签定义—通过滚动率定义坏客户
对坏客户而言,坏的程度是如何定义的呢?可以通过滚动率分析来判断。以下滚动率统计结果是以20240630为观察点,将观察点前6个月的逾期阶段和后6个月的逾期阶段进行交叉统计。
表现期定义多少合适,可以根据Vintage找到拐点定义表现期,具体标准是:观察逾期率走势,看从哪个账龄月开始以后变得平稳或者上升速度明显放缓,就可视为表现期的拐点。
以下是一个12期循环贷产品M2+%的Vintage曲线图,可以观察到逾期率走势到mob8以后开始变得平稳,说明到了mob8的时候风险得到充分暴露,后面也很难有过多新增的逾期了,那就可以将mob8作为表现期。
历史风控精选文章:
左可—”试看“,右可—”咨询“