关注“金科应用研院”,回复“礼包”
领取“风控资料合集”
文末还有惊喜小福利,记得看到底呦
答:具体实践可以分为两种类型:
第1种是通过“数据分析“来确定什么样的客户是坏客户,也就是我们常说到的“滚动率分析”、“账龄分析”,“Vintage分析”等。这是最客观的分析方法,也与业务当前的情况最符合。
第2种则是通过“业务定义”来确定好坏客户。常见的有pd30、pd60、pd90等(pd代表逾期天数大于,比如pd3代表大于3天)。这种类型更适用于客群和业务比较稳定的场景,可以根据常规的值来界定。
答:从分析的闭环角度看是需要的。验证可以分样本内验证和样本外验证,如果是样本内测试,数据来源适合开发样本数据来源于同一个时间窗,只是拆分的时候是随机拆分得到的,这种只要样本量够都是需要验证的;如果是样本外测试,数据来源要根据时间窗来选取,从风控应用角度说,务必要采用开发数据往后的时间窗数据,也就是离当前时间更近的样本,这样才能反映规则在未来应用效果的好坏。但是这种样本外验证更多是用在影响较大的调优上,一般不适用。
答:交叉规则本质也就是对两个或两个以上的单维度规则进行交叉,然后得到一个复合规则。比如“近6个月转账失败次数”与“近12个月信用卡还款逾期次数”,交叉后可以得到一个二维决策矩阵,根据每个交叉区间的指标表现,可以得到一个区分度更为合理,而且拒绝占比也更复合业务的组合规则。假设单维度规则“近6个月转账失败次数>3”、“近12个月信用卡还款逾期次数>3”,交叉后便是“近6个月转账失败次数>3且近12个月信用卡还款逾期次数>3”,这样得到的坏账表现可能会更明显,且占比自然也会缩小,更满足实际业务。
答:开发某条规则,是定义好了目标才进行划分阈值确定规则的。如果开发规则时用的是目标A,但是衡量规则是否有效时却又用A和B共同衡量,这种方式是有缺陷的。以上情况建议可以看看首逾7天与首逾30天两个指标之间的相关性和迁徙情况。
答:区分度高的规则或变量命中总样本的数量少,比如不到0.5%。一般情况下要优先考虑该规则是否被其他规则覆盖;然后再看其在在不同时间窗口样本下的稳定性;最后关注制定该规则所用特征的字段调用成本。如果以上都合格,则可以考虑上线。
答:对于拒绝用户回捞,建议采用“模型”来回捞,不要用简单的且维度很少的规则,采用模型的最大好处是较大化的从多个维度的再次评估了拒绝用户的风险。“拒绝捞回”模型开发要注意以下几点:
是选取存量拒绝样本来建立模型
最重要的怎么定义拒绝样本的好坏标签,可以采用通过样本数据建立的模型打分,然后根据分数阈值划分得到拒绝样本的标签
然后建模过程和平时有监督模型是一致的。
此外,也可以考虑对拒绝用户走一个客户聚类模型,看分布特点进行决策,当然这个效果没有有监督模型效果更好。
答:在规则开发时,对单一规则进行通过率与区分度分析是前提,但在部署之前,务必要对所有上线规则的决策效果进行整体分析,以保证最终对业务影响的通过率和坏账率符合预期。因此,在开发出多个规则之后不会直接上线,还会做整体规则的应用分析,如果得到的通过率满足预期可考虑部署上线;若得到的通过率较低或较高,那需要对某些区分度较好的规则进行阈值调整,在保证坏账表现合理的情况下,适当放宽一点拒绝阈值。
答:单规则区分度低的话,先要看分箱上面是否是最优,如果已经达到最优。且IV值在0.15左右,可以尝试下复合规则。往往通过简单的两个单维度交叉形成二维决策矩阵,得到的复合规则也是有很好效果。
本次内容节选自:知识星球-大咖直播,长按海报,扫码了解详情!
领取粉丝专属优惠券