风控建模中变量缺失值率多少应该删除?如何处理缺失值?

文摘   教育   2024-10-13 15:00   广东  

在风控建模中有很多小细节总会让人纠结,比如变量的缺失率达到多少需要删除该变量?

如果保留存在缺失值的变量,缺失值应该用什么值填充?

随着业务经验的积累,也有了一些思考。

本文根据业务经验,提出一点自己的看法,欢迎大家在评论区提出自己的看法。

本文目录
  1. 风控建模中的缺失值是什么?

  2. 风控建模中变量缺失率达到多少应该删除?

  3. 风控建模中如何处理缺失值?


一、风控建模中的缺失值是什么?

在风控建模中,数据中的缺失值(Missing Values)是指数据集中某些变量(特征)没有值或值未知的情况。

这些缺失值可能是由于数据收集过程中的错误、遗漏、数据录入错误、数据清洗不彻底等原因造成的。

缺失值的存在对风控建模过程具有重要影响,因为它们可能会干扰数据分析的准确性和可靠性,进而影响模型的预测能力和稳定性。
具体来说,缺失值可能导致以下问题:
  1. 信息损失:缺失值意味着在数据集中丢失了部分信息,这可能会降低模型的预测能力。
  2. 偏差引入:如果不恰当地处理缺失值,比如简单地删除含有缺失值的记录或随意填充缺失值,可能会引入偏差,导致模型结果不准确。
  3. 模型复杂度增加:在建模过程中,需要考虑如何处理缺失值,这可能会增加模型的复杂度。


二、风控建模中变量缺失值率多少应该删除?

不同的公司,不同的业务场景,不同的算法可能都会对变量缺失值率达到多少应该删除持不同的看法。

根据之前的业务经验,如果模型采用逻辑回归,当变量缺失率高于75%时一般会删除该变量。

这样入模变量的稳定性相对较高,模型相对较稳定。

后面推广到做机器学习模型,也沿用了之前的一些变量筛选方法。

只不过由于有些机器学习模型可以做特征捆绑,把该阈值做了一定程度的放宽,比如删除缺失率高于80%的变量。

但是有一次在和头部大厂联合建模时,对方的建议是尽量不用缺失率删除变量,除非100%缺失,以让模型获取更好的效果。

对变量稳定性做一定程度的放宽,只对模型稳定性做一定程度的要求。

具体模型稳定性要求参考模型稳定性指标—PSI一文。


三、风控建模中如何处理缺失值?

接下来,我们来聊一聊风控建模中一般如何处理缺失值,这会直接影响到模型的准确性和稳定性。

以下是几种常见的缺失值处理方法:

一、替代法

用均值/中位数/众数/0/-1/-999/负样本占比相近的值/把空值当成特殊的箱生成对应的woe值填充等:
之前在建模比赛中,对于连续型变量,一般使用变量的平均值或中位数来填充缺失值。对于离散型变量,一般使用众数来填充缺失值。
后来在业务建模中,更多的是用0、-1、-999、负样本占比相近的值、空值对应的woe值来填充,具体可根据业务需要进行选择。


二、删除法
 ①删除包含缺失值的样本:
缺失值较少且随机分布时,可以选择直接删除包含缺失值的样本。但这种方法的前提是需要样本量足够大,以确保删除后不会严重影响数据的代表性。
②删除缺失值过多的变量
如果某个变量的缺失值过多,且从业务层面上讲没有解释意义或与目标变量的相关性较弱,可以选择删除该变量。这种方法可以简化模型,但也可能导致信息损失。

三、构建新特征

当缺失数据占比适中(如20%至50%之间)时,可以将缺失值构建为新的特征。例如,增加一列离散特征来表示数据是否缺失,从而保留缺失值所携带的潜在信息。


四、注意事项

在选择缺失值处理方法时,需要综合考虑数据的类型、分布、缺失机制以及模型的需求。
对于不同的方法和模型,可以通过交叉验证、模型评估等手段来比较其优劣,从而选择最适合当前任务的方法。
在处理缺失值时,还需要注意保持数据的完整性和一致性,避免引入新的偏差或错误。
综上所述,风控建模中的缺失值处理方法多种多样,需要根据具体情况进行选择和应用。通过合理的缺失值处理,可以提高模型的准确性和稳定性,为风控决策提供更加可靠的支持。
至此,风控建模中变量缺失值率多少应该删除?如何处理缺失值?已讲解完毕,对风控建模感兴趣的小伙伴欢迎加群讨论。

【部分群限时免费进分群讨论学习Python、玩转Python、风控建模【29.9元进】、人工智能、数据分析相关问题,还提供招聘推信息、优秀文章、学习视频、公众号文章答疑,也可交流工作中遇到的难题。如需添加微信号19967879837,加时备注想进的群,比如风控建模。

往期回顾:
信贷风控架构一张图

变量筛选—特征包含信息量

一文弄懂卡方分箱的原理和应用

应用决策树生成【效果好】【非过拟合】的策略集

一文囊括风控模型搭建(原理+Python实现),持续更新。。。

不同工作年限风控建模岗薪资水平如何?招聘最看重面试者什么能力?

100天精通风控建模(原理+Python实现)——第32天:集成学习是什么?在风控建模中有哪些应用?



限时免费加群

19967879837

添加微信号、手机号

阿黎逸阳的代码
阿黎逸阳,分享大数据和人工智能领域知识,提供风控建模干货经验。 博主履历:世界五百强公司、互联网上市公司、高校、外资银行,多年研究大数据分析、建模以及教学工作。
 最新文章