为什么高准确率未必等于好模型:风控分类模型详解

文摘   社会   2024-07-08 08:28   广东  


在信贷风控场景中,我们经常接触到机器学习的分类模型,例如贷前的违约预测、贷中的风险预警、贷后的价值分层等,可以说分类模型是信贷模型体系的主要内容。对于分类模型效果的评估,我们也相对比较熟悉,常用的宏观评价指标包括KS、AUC、Accuracy、Precision、Recall、F1_score等,但在模型实际应用过程中,由于模型应用业务场景的区别,以及建模人员处理方法的差异,针对以上常见评估指标并不会同时用来综合分析,而是选择其中一项或多项来进行描述,最常见的便是指标Accuracy准确率,不仅通俗易懂,而且实现方便,在很大程度上确实可以反映模型决策的应用效果,因此是建模工程师经常采用的模型指标。


对于Accuracy的原理逻辑,是根据分类模型的混淆矩阵推理得到的,具体公式为Accuracy=(TP+TN)/(TP+FP+TN+FN),其中TP、TN、FP、FN分别代表真正例、真负例、假正例、假负例。Accuracy的取值范围为0~1,值越大说明模型的准确性能越强,这是对模型效果的通俗理解。当然,这个客观规律是没有问题,但需要我们注意的是,模型准确率Accuracy有其一定的局限性,这在模型评价与应用的实际场景中是非常重要的。为了大家进一步理解模型的准确率,本文将结合具体样例为大家简单介绍下指标的应用的局限性。


1、准确率高不一定代表模型效果好


模型准确率指标的推导过程,前提条件是将每个样本结果是同等看待的,也就是无论模型的预测结果正确与否,从模型性能指标分析其每个样本提供的信息影响程度是相同的,此处可以理解为是一种“均匀投票”的机制,与样本数据真实标签的权重没有任何关系。


在这种情形下,现举个实际样例,假设某反欺诈分类模型的建模数据包含10000条样本,目标变量分布0:1(非欺诈/欺诈)的比例为97:3,当然这属于样本不平衡的现象,这对于信贷业务的欺诈识别、销卡预测等场景是很常见的。在此建模场景下,如果我们不对样本不平衡情况进行有效处理,那么模型最终预测结果即使将目标1(欺诈)全部判断为0,则模型的准确率Accuracy值为97%,显然这个值对于准确度指标来讲是很高的,在不深入理解建模数据分布的情况下,让人很容易误解为模型的效果很好,而实质上模型的性能很差,也就是将真实欺诈用户全部预测为非欺诈,显然这并不符合实际业务需求。


因此,模型准确率高并不代表模型的效果,具体需要分析实际业务的应用场景,以及样本数据的分布情况。在信贷风控的日常工作中,如果听到有某个模型的准确率指标可以达到多高,不要简单的认为模型效果很好,而是需要进一步了解建模的具体场景。如果客观认识到模型的Accuracy(准确率)不能有效反映模型效果的好坏,可以采用其他模型指标来进一步判断分析,例如Precision(精确率)、Recall(召回率)、F1_score(F1分数)等。


2、准确率相同不代表模型判别能力相同


以上关于“准确率高不一定代表模型效果好”的问题,是围绕建模样本数据不平衡场景来描述的,虽然属于特殊场景但也是经常遇到的。其实对于正常场景也就是建模样本数据比较平衡的情形下,模型的Accuracy(准确率)指标依然存在着明显的局限性,那就是准确率相同不代表模型判别能力相同,现结合样例进行说明。


现有一份建模样本数据,采用不同的分类模型算法(例如逻辑回归、XGBoost等),或者采用同一模型算法但不同入模参数(优化方法、迭代次数、学习率等),来建立两个分类模型,其模型预测概率的分布结果如下图所示。


1 模型效果对比



上图展示的模型效果对比信息,为了便于分析假设建模数据只有10个样本id,true_label为样本的真实标签,predict_prob1、predict_prob2分别为两个分类模型对样本标签的预测概率,假设分类阈值threshold设置为0.5,则模型预测标签结果分别为predict_label1、predict_label2。


由模型预测结果可以看出,这两个模型的预测结果label是相同的,通过真实标签与预测标签对比可知,预测错误的样本id为N02、N08、N09,其余id预测正确,从模型指标Accuracy来分析,两个模型的准确率均为70%(7/10)。接下来便是我们想要描述的重点,若以模型Accuracy来衡量这两个分类模型的效果,那模型性能看起来是一致的。但是,我们可以进一步分析下预测标签predict_label的前提逻辑,也就是预测概率predict_prob,可以发现对于同一个样本的相同预测结果label,模型2的预测概率predict_prob表现更为优秀。例如,对于预测正确的样本N01,两个模型对应的预测概率值分别为0.871、0.962,模型2预测此样本为1的概率更高,对分类标签的判断精度更强。再例如,对于预测错误的样本N02,两个模型对应的预测概率值分别为0.173、0.469,模型2预测此样本为1的概率同样更高,虽然没达到分类阈值0.5,但相比模型1的预测精度更为合理。综合两个预测样例,可以说明模型2的分类性能是明显优于模型1,但从宏观指标准确率Accuracy是看不出的。


针对以上情况,在实际业务场景中,在两个模型准确率Accuracy一致的情况下,若不考虑其他模型指标(Precision、Recall、F1_score等),可以采用一个应用不是很广泛但特别有效的指标来进行分析,这个指标名称是“交叉熵”,简称BCE,可以直接反映分类模型自身的识别判断能力,原理逻辑公式如下:


其中,pn表示第n条样本模型预测对应真实标签label的概率(若label为1则为预测1的概率,若真实标签为0则为预测0的概率)。


模型交叉熵BCE的取值越小,说明模型对类型判别的区分能力越强。根据以上交叉熵的推导公式,可以得到模型1与模型2的BCE值,具体如下所示:


根据模型的交叉熵结果对比,由于BCE1<BCE2,说明模型1与模型2的分类判别能力是存在一定差异的,且模型2的区分能力更好,这也进一步验证了前边预测精度的分析过程与结论。因此,在实际场景中,模型的准确率相同并不代表模型判别能力相同,在多个模型的准确率Accuracy比较接近的情况下,可以考虑采用模型的交叉熵指标来分析,当然更不影响KS、AUC、Precision、Recall、F1_score的综合应用,具体需要结合场景需求以及建模经验,这也是风控的可妙之处。


综合以上内容,我们围绕实际业务场景,深入分析了模型准确率Accuracy指标应用的细节,一个是准确率高不一定代表模型效果好,另一个是准确率相同不代表模型判别能力相同,便于大家日常在建立分类模型任务中,更客观的理解模型效果与深入评价方法,从而提高自身的模型理解与分析能力。


关于风控模型相关的内容,在我们历史的会员课程跟知识星球社区平台中,也跟大家分享过不少相关干货文档跟文字。如这一期的文档内容,也得到了许多童鞋的点赞,如果还没查看,可以到知识星球平台学习这一相关内容:




风控模型课程,番茄风控本周末刚刚完成最新一期的课程,课程部分预览如下,欢迎大家参与本次课程内容:



课程详情如下:






茄风控常规化的会员社区,内容一直在迭代与更新,最新的内容等待各位小伙伴的参与。现在课程已经更新至120期+,点击左下角【阅读原文】即可来一起拼团学习:


往期的会员直播课程查看如下:

往期回顾

第2期    信用卡风控的基础知识介绍      

第3期    第三方外部征信数据和各家拳头产品    

第4期    汽车风控介绍与GPS经验分享    

第5期    信用卡分期利率与利息介绍    

第6期    税务类数据在小微风控的基本应用    

第7期    纯线上审批流程进行资产组合分配    

第8期    场景金融介绍与风险节点部署分析    

第9期    风控数据分析指标全接触    

第10期    信贷政策大数据安全与供应商选择    

第11期    信用卡套现的整治    

第12期    商业银行小微企业风控实务    

第13期    设备欺诈风险防范-黑产欺诈工具    

第14期    设备反欺诈供应商选择及应用策略    

第15期    微众联邦学习    

第16期    Applist特征工程介绍    

第17期    Applist特征工程模型挖掘    

第18期    贷前策略-风控策略部署与调优    

第19期    贷前策略风控策略数据埋点与采集    

第20期    贷中管理-电销外拨优先级策略    

第21期    贷中风险管理-额度调整策略模型    

第22期    贷中提降额方法与策略    

第23期    东南亚现金贷产品及相关风险策略    

第24期    信贷业务中的风险定价—基础端    

第25期    信贷机构的智能语音应用实践    

第26期    信贷机构智能语音供应商选择指标    

第27期    贷后催收策略-M1名单催收管理    

第28期    信贷风控模型——中小企业的额度模型探索    

第29期    人行征信报名数字分解读    

第30期    银行卡失联修复与清收手段介绍    

第31期    信贷风险经营    

第32期    信贷风控系统    

第33期    反欺诈讲解之设备指纹实操与演练    

第34期    决策引擎的决策流层次及策略架构    

第35期    ECL模型与评级简介    

第36期    设备关联数据在金融风控的应用    

第37期    ECL系列之评级模型及财报解析    

第38期    数据清洗与特征选择    

第39期    小微风控之 策略方向与风险管理体系搭建  

第40期    小白入职大数据工程师之银行金融大数据系统实战 

第41期    小微风控策略体系的优化与调整    

第42期    巴塞尔协议银行零售及资产分池上    

第43期    巴塞尔协议下篇资本管理风险价值    

第44期    二代征信报告与规则构建    

第45期    征信规则的衍生技巧与避坑指南    

第46期    实战篇|风控策略效率的测试、调优与评估

第47期    数据生命周期管理— 数据的引入、监控与管理    

第48期    贷中反欺诈之 商户欺诈防范    

第49期    策略分析之 数据监控与用户画像    

第50期    银行中后台数据的建设——基于信用卡进件系统需求与扩展    

第51期    模型训练/机器学习平台    

第52期    精细化运营探索——运营着手点及响应模型场景化应用    

第53期    基于SAS的三方数据风控产品测试评估    

第54期    SAS的策略&模型之决策矩阵分析    

第55期    基于二代征信的信用评分模型开发    

第56期    基于二代征信的信用模型与策略的使用与监控    

第57期    金融机构风险与预算评估    

第58期    催收板块:逾期账款催收管理    

第59期    二代人行征信的深度解读(上):二代征信异议和接入及发展历程    

第60期    二代人行征信的深度解读(下)——循环贷与非循环贷与衍生变量加工    

第61期    风控人必学资产分析课—坏账预估    

第62期    商户端风险定价—— 基于成本收益模型的风险定价

第63期    差异化的贷前进阶策略讲解━━拒绝捞回策略制定   

第64期    拒绝捞回的效果评估与策略二次调用    

第65期    风控人应该懂的金融知识    

第66期    风控人必备的风险知识——贷款利率、还款方式与常用风险指标    

第67期    金融人必知--市场风险入门:金融衍生品   

第68期    拒绝演绎实战--拒绝推论描述、方法介绍与案例分享    

第69期    银行信用卡拒绝推论的场景实操    

第70期    逾期催收管理流程优化与催收系统配置——汽车金融逾期案件催收实操    

第71期    海外现金贷产品形态及风控措施    

第72期    海外现金贷提降额原理及思路    

第73期    巴塞尔协议—发展历程、资本充足率、拔备率、杠杆率、流动性    

第74期    巴赛尔协议—市场风险及信用风险度量    

第75期    金融小伙伴必备知识—信用卡损益    

第76期    风控授信额度策略调优

第77期    额度策略调优实战

第78期     信贷场景多维特征交叉策略实战分析

第79期    信贷风控策略体系效果评估与全面调优

第80期    海外与国内评分卡对比与应用场景介绍

第81期   智能推荐系统应用

第82期   风控策略中的模型须知-逻辑回归评分卡分箱与模型评估

第83期   多规则决策策略的搭建与实操

第84期   多规则决策策略实操与练习讲解

第85期   模型开发之特征选择 

第86期   风控模型与策略探索发现 

第87期   场景风控的贷中客户生命周期监控—基于商户的Tableau实  操

第88期    风控场景数据监控

第89期    财税票等企业数据在小微企业贷款中的应用

第90期   中小微企业风控中财税票的数据使用与模型开发


上下滑动可查看更多



以上课程将免费开放,给所有番茄风控大数据的会员同学学习,加入社区点击左下角【阅读原文】进行了解。


 


目前我们的知识星球上也有上百篇干货文档与公众号付费文档,现在加入知识星球可以一次性学习提升:


往期的文章有(包括但不限于):

风控模型中的交叉验证全方位解析(除了调参外的,其它妙用)

深度剖析电商贷款风控相关细节(电商贷模型)

纯享版|信贷场景中的营销管理和模型设计(营销响应)

纯享版|信贷风控中的额度管理和额度模型设计

FPD模型、首逾模型、欺诈模型,这些风控干货值得实操了解(上)

Python框架下的B卡(实时)特征开发及上线

OV|用户分群在贷前风控中的应用

......


点击左下角【阅读原文】进行了解。


官方企业微信号,扫码添加

感谢关注

番茄风控大数据
介绍数据分析与风控大数据前沿知识
 最新文章