一文囊括风控建模中的变量筛选方法

文摘   教育   2024-10-27 14:05   中国  

风控建模在金融领域中起着至关重要的作用,特别是在信贷和支付领域。

为了构建稳定和有效的风控模型,变量筛选是一个必不可少的步骤。

本文将详细介绍几种在风控建模中常用的变量筛选方法。

本文目录
  1. 变量自身分布稳定性
  2. 变量与目标值的强相关关系
  3. 基于模型的特征重要性

  4. 其他常用变量筛选方法

一、变量自身分布稳定性

1   变量PSI值计算

变量稳定性是反映客群在某些方面随时间变化的重要指标。

PSI(Population Stability Index)是衡量变量分布稳定性的一种常用方法。

PSI的计算公式为:

PSI=∑((实际占比−预期占比)×ln( 预期占比/实际占比))

在建模初期,可以通过选择某一天作为基准日,计算后续每天与基准日数据的PSI值。

如果某一天的PSI值超过设定的阈值(通常为0.1),则考虑删除该变量。时间尺度也可以扩大到周或月。

理论上PSI需要框定在一定范围内有助于模型的稳定,但是实际场景可能变量由于策略频繁调整或外部数据源变化,PSI值很可能大于阈值。

可适当调整该阈值,以让模型有变量可用。

对PSI想更深入了解的小伙伴可以看下:模型稳定性指标—PSI


  长期趋势图

虽然PSI值可以帮助识别变量分布变动的幅度,但它无法展示变量具体是往哪个方向偏移以及每个分组占比的具体变化情况。

因此,查看每个变量的长期趋势分布图可以提供更多信息,帮助发现变量潜在的问题。

二、变量和目标值的强相关关系

1   IV值计算

IV(Information Value)值用于量化变量对目标值(如是否逾期)的区分能力。

IV值的计算公式为:

IV=∑((该组逾期占比−该组不逾期占比)×ln( 该组不逾期占比/该组逾期占比))

通常,IV值较高的变量与目标值具有较强的相关关系。

在建模过程中,可以剔除IV值过小的变量(如IV值小于0.02),以保留与目标值相关性较强的变量。

但是如果使用的是类似Lightgbm的机器学习算法,由于自身可以对高度稀疏的特征做特征捆绑,可以把该值进行下调挑选变量,比如把阈值调成0.01。

如果全部模型变量的IV值偏低,也可以下调剔除IV值的阈值,从而在一定程度上提升模型性能。

对IV想更深入了解的小伙伴可以看下:风控建模中的IV和WOE


  相关性矩阵

通过计算所有变量的相关矩阵,可以识别出高度相关的变量对。

如果两个变量之间的相关系数较高,可以选择删除IV值较低的那个,以减少多重共线性对模型的影响。

也有利于模型上线和上线后的监控及维护。


三、基于模型的特征重要性

基于模型的特征重要性筛选变量的方法是一种至关重要的技术,它旨在识别并保留对模型预测性能有显著贡献的特征,同时剔除那些不相关或冗余的特征。

以下是一些常用的基于模型的特征重要性筛选方法:


1   随机森林特征重要性

随机森林是一种集成学习方法,它通过构建多个决策树来提高模型的预测性能。在随机森林中,每个特征的重要性可以通过计算该特征在构建决策树时的信息增益或基尼不纯度减少量来评估。

  1. 信息增益:衡量一个特征在划分数据集时所带来的信息增益,即划分前后数据集的不确定性减少量。
  2. 基尼不纯度:另一种衡量数据集不确定性的指标,随机森林中的决策树通常会选择使基尼不纯度减少最多的特征进行划分。

在得到每个特征的重要性分数后,可以对特征进行排序,并选择最重要的特征来构建模型。


  梯度提升机特征重要性

梯度提升机(如XGBoost、LightGBM等)也是一种常用的机器学习算法,它通过构建多个弱学习器(如决策树)并集成其预测结果来提高模型的性能。

在梯度提升机中,每个特征的重要性可以通过计算该特征在构建弱学习器时的贡献度来评估。

  1. 特征贡献度:衡量一个特征在构建弱学习器时所带来的预测性能提升量。这通常是通过计算特征在分裂节点时所带来的增益或覆盖度来得到的。

在梯度提升机中,可以使用算法内置的feature_importances_属性来获取每个特征的重要性分数,并对特征进行排序和选择。


3   线性模型特征重要性

对于线性模型(如逻辑回归、线性回归等),特征的重要性可以通过计算每个特征的系数来评估。

系数的绝对值越大,表示该特征对模型预测的贡献度越高,可根据该值来进行变量挑选。

需要注意的是,线性模型的特征重要性评估方法相对简单,但可能受到特征量纲、多重共线性等因素的影响。

因此,在使用线性模型进行特征重要性评估时,需要进行适当的数据预处理和特征工程。

四、其他常用的变量筛选方法

1   方差

方差作为一种统计量,衡量的是数据分布中的离散程度或变异性。

方差大的特征意味着其数据点之间的差异较大,这通常表明该特征包含较多的信息。

相反,方差小的特征可能表示数据点之间差异不大,即该特征在不同样本中相对稳定,可能不包含太多对模型有用的信息。

通过计算方差并去除方差极小的特征,可以简化模型,减少过拟合的风险,并提高模型的泛化能力。


  前后向筛选

前后向筛选是一种逐步构建和修剪特征子集的方法。

它通过逐步添加或删除特征,直到找到一个最佳的特征子集。

这种方法可以找到一个相对较小但仍具有较好预测性能的特征子集。

典型的代表是逐步回归算法。


3   方差膨胀系数(VIF)

方差膨胀系数是传统银行常用的筛选方法,用于检测特征之间的多重共线性。

如果某个特征的VIF值超过设定的阈值(通常为5或10),则考虑删除该特征。


4   业务逻辑考虑

除了数学和统计方法外,变量筛选还需要考虑业务逻辑。

根据业务需求和经验,可以剔除那些在业务上没有解释力或与目标变量没有直接关联的特征。

同时,根据数据特征的来源和结构框架,每个维度都需要保留一定数量的特征,以避免过度删除导致信息丢失。

总的来说,风控建模中的变量筛选是一个复杂而重要的过程。

通过综合运用PSI值、IV值、相关性、方差膨胀系数、前后向筛选等方法,结合业务逻辑考虑,可以筛选出对模型建立和预测最为重要的特征,提高风控模型的准确性和稳定性。

在实际应用中,可以根据具体的需求和数据情况选择适合的特征筛选方法,以优化风控建模的效果。

至此,风控建模中变量筛选方法已讲解完毕,如想了解更多风控建模文章,可以翻看公众号中“风控建模”模块相关文章。

【部分群限时免费进分群讨论学习Python、玩转Python、风控建模【29.9元进】、人工智能、数据分析相关问题,还提供招聘推信息、优秀文章、学习视频、公众号文章答疑,也可交流工作中遇到的难题。如需添加微信号19967879837,加时备注想进的群,比如风控建模。

往期回顾:
信贷风控架构一张图

变量筛选—特征包含信息量

一文弄懂卡方分箱的原理和应用

应用决策树生成【效果好】【非过拟合】的策略集

一文囊括风控模型搭建(原理+Python实现),持续更新。。。

不同工作年限风控建模岗薪资水平如何?招聘最看重面试者什么能力?

100天精通风控建模(原理+Python实现)——第32天:集成学习是什么?在风控建模中有哪些应用?


限时免费进群

19967879837

添加微信号、手机号

阿黎逸阳的代码
阿黎逸阳,分享大数据和人工智能领域知识,提供风控建模干货经验。 博主履历:世界五百强公司、互联网上市公司、高校、外资银行,多年研究大数据分析、建模以及教学工作。
 最新文章