在风控建模中有很多小细节总会让人纠结,比如变量的缺失率达到多少需要删除该变量?
如果保留存在缺失值的变量,缺失值应该用什么值填充?
随着业务经验的积累,也有了一些思考。
本文根据业务经验,提出一点自己的看法,欢迎大家在评论区提出自己的看法。
风控建模中的缺失值是什么?
风控建模中变量缺失率达到多少应该删除?
风控建模中如何处理缺失值?
在风控建模中,数据中的缺失值(Missing Values)是指数据集中某些变量(特征)没有值或值未知的情况。
这些缺失值可能是由于数据收集过程中的错误、遗漏、数据录入错误、数据清洗不彻底等原因造成的。
信息损失:缺失值意味着在数据集中丢失了部分信息,这可能会降低模型的预测能力。 偏差引入:如果不恰当地处理缺失值,比如简单地删除含有缺失值的记录或随意填充缺失值,可能会引入偏差,导致模型结果不准确。 模型复杂度增加:在建模过程中,需要考虑如何处理缺失值,这可能会增加模型的复杂度。
不同的公司,不同的业务场景,不同的算法可能都会对变量缺失值率达到多少应该删除持不同的看法。
根据之前的业务经验,如果模型采用逻辑回归,当变量缺失率高于75%时一般会删除该变量。
这样入模变量的稳定性相对较高,模型相对较稳定。
后面推广到做机器学习模型,也沿用了之前的一些变量筛选方法。
只不过由于有些机器学习模型可以做特征捆绑,把该阈值做了一定程度的放宽,比如删除缺失率高于80%的变量。
但是有一次在和头部大厂联合建模时,对方的建议是尽量不用缺失率删除变量,除非100%缺失,以让模型获取更好的效果。
对变量稳定性做一定程度的放宽,只对模型稳定性做一定程度的要求。
具体模型稳定性要求参考模型稳定性指标—PSI一文。
接下来,我们来聊一聊风控建模中一般如何处理缺失值,这会直接影响到模型的准确性和稳定性。
一、替代法
三、构建新特征
当缺失数据占比适中(如20%至50%之间)时,可以将缺失值构建为新的特征。例如,增加一列离散特征来表示数据是否缺失,从而保留缺失值所携带的潜在信息。
四、注意事项
至此,风控建模中变量缺失值率多少应该删除?如何处理缺失值?已讲解完毕,对风控建模感兴趣的小伙伴欢迎加群讨论。
【部分群限时免费进】分群讨论学习Python、玩转Python、风控建模【29.9元进】、人工智能、数据分析相关问题,还提供招聘内推信息、优秀文章、学习视频、公众号文章答疑,也可交流工作中遇到的难题。如需添加微信号19967879837,加时备注想进的群,比如风控建模。
一文囊括风控模型搭建(原理+Python实现),持续更新。。。
不同工作年限风控建模岗薪资水平如何?招聘最看重面试者什么能力?
100天精通风控建模(原理+Python实现)——第32天:集成学习是什么?在风控建模中有哪些应用?
限时免费加群
19967879837
添加微信号、手机号