一文囊括风控建模中的变量筛选方法

文摘教育 2024-10-27 14:05 中国

风控建模在金融领域中起着至关重要的作用，特别是在信贷和支付领域。

为了构建稳定和有效的风控模型，变量筛选是一个必不可少的步骤。

本文将详细介绍几种在风控建模中常用的变量筛选方法。

本文目录

变量自身分布稳定性
变量与目标值的强相关关系
基于模型的特征重要性
其他常用变量筛选方法

一、变量自身分布稳定性

1 变量PSI值计算

变量稳定性是反映客群在某些方面随时间变化的重要指标。

PSI（Population Stability Index）是衡量变量分布稳定性的一种常用方法。

PSI的计算公式为：

PSI=∑((实际占比−预期占比)×ln( 预期占比/实际占比))

在建模初期，可以通过选择某一天作为基准日，计算后续每天与基准日数据的PSI值。

如果某一天的PSI值超过设定的阈值（通常为0.1），则考虑删除该变量。时间尺度也可以扩大到周或月。

理论上PSI需要框定在一定范围内有助于模型的稳定，但是实际场景可能变量由于策略频繁调整或外部数据源变化，PSI值很可能大于阈值。

可适当调整该阈值，以让模型有变量可用。

对PSI想更深入了解的小伙伴可以看下：模型稳定性指标—PSI。

2 长期趋势图

虽然PSI值可以帮助识别变量分布变动的幅度，但它无法展示变量具体是往哪个方向偏移以及每个分组占比的具体变化情况。

因此，查看每个变量的长期趋势分布图可以提供更多信息，帮助发现变量潜在的问题。

二、变量和目标值的强相关关系

1 IV值计算

IV（Information Value）值用于量化变量对目标值（如是否逾期）的区分能力。

IV值的计算公式为：

IV=∑((该组逾期占比−该组不逾期占比)×ln( 该组不逾期占比/该组逾期占比))

通常，IV值较高的变量与目标值具有较强的相关关系。

在建模过程中，可以剔除IV值过小的变量（如IV值小于0.02），以保留与目标值相关性较强的变量。

但是如果使用的是类似Lightgbm的机器学习算法，由于自身可以对高度稀疏的特征做特征捆绑，可以把该值进行下调挑选变量，比如把阈值调成0.01。

如果全部模型变量的IV值偏低，也可以下调剔除IV值的阈值，从而在一定程度上提升模型性能。

对IV想更深入了解的小伙伴可以看下：风控建模中的IV和WOE。

2 相关性矩阵

通过计算所有变量的相关矩阵，可以识别出高度相关的变量对。

如果两个变量之间的相关系数较高，可以选择删除IV值较低的那个，以减少多重共线性对模型的影响。

也有利于模型上线和上线后的监控及维护。

三、基于模型的特征重要性

基于模型的特征重要性筛选变量的方法是一种至关重要的技术，它旨在识别并保留对模型预测性能有显著贡献的特征，同时剔除那些不相关或冗余的特征。
以下是一些常用的基于模型的特征重要性筛选方法：

1   随机森林特征重要性
随机森林是一种集成学习方法，它通过构建多个决策树来提高模型的预测性能。在随机森林中，每个特征的重要性可以通过计算该特征在构建决策树时的信息增益或基尼不纯度减少量来评估。
信息增益：衡量一个特征在划分数据集时所带来的信息增益，即划分前后数据集的不确定性减少量。
基尼不纯度：另一种衡量数据集不确定性的指标，随机森林中的决策树通常会选择使基尼不纯度减少最多的特征进行划分。
在得到每个特征的重要性分数后，可以对特征进行排序，并选择最重要的特征来构建模型。

2   梯度提升机特征重要性
梯度提升机（如XGBoost、LightGBM等）也是一种常用的机器学习算法，它通过构建多个弱学习器（如决策树）并集成其预测结果来提高模型的性能。
在梯度提升机中，每个特征的重要性可以通过计算该特征在构建弱学习器时的贡献度来评估。
特征贡献度：衡量一个特征在构建弱学习器时所带来的预测性能提升量。这通常是通过计算特征在分裂节点时所带来的增益或覆盖度来得到的。
在梯度提升机中，可以使用算法内置的feature_importances_属性来获取每个特征的重要性分数，并对特征进行排序和选择。

3   线性模型特征重要性
对于线性模型（如逻辑回归、线性回归等），特征的重要性可以通过计算每个特征的系数来评估。
系数的绝对值越大，表示该特征对模型预测的贡献度越高，可根据该值来进行变量挑选。
需要注意的是，线性模型的特征重要性评估方法相对简单，但可能受到特征量纲、多重共线性等因素的影响。
因此，在使用线性模型进行特征重要性评估时，需要进行适当的数据预处理和特征工程。
四、其他常用的变量筛选方法
1   方差
方差作为一种统计量，衡量的是数据分布中的离散程度或变异性。
方差大的特征意味着其数据点之间的差异较大，这通常表明该特征包含较多的信息。
相反，方差小的特征可能表示数据点之间差异不大，即该特征在不同样本中相对稳定，可能不包含太多对模型有用的信息。
通过计算方差并去除方差极小的特征，可以简化模型，减少过拟合的风险，并提高模型的泛化能力。

2   前后向筛选
前后向筛选是一种逐步构建和修剪特征子集的方法。
它通过逐步添加或删除特征，直到找到一个最佳的特征子集。
这种方法可以找到一个相对较小但仍具有较好预测性能的特征子集。
典型的代表是逐步回归算法。

3   方差膨胀系数（VIF）
方差膨胀系数是传统银行常用的筛选方法，用于检测特征之间的多重共线性。
如果某个特征的VIF值超过设定的阈值（通常为5或10），则考虑删除该特征。

4   业务逻辑考虑
除了数学和统计方法外，变量筛选还需要考虑业务逻辑。
根据业务需求和经验，可以剔除那些在业务上没有解释力或与目标变量没有直接关联的特征。
同时，根据数据特征的来源和结构框架，每个维度都需要保留一定数量的特征，以避免过度删除导致信息丢失。
总的来说，风控建模中的变量筛选是一个复杂而重要的过程。
通过综合运用PSI值、IV值、相关性、方差膨胀系数、前后向筛选等方法，结合业务逻辑考虑，可以筛选出对模型建立和预测最为重要的特征，提高风控模型的准确性和稳定性。
在实际应用中，可以根据具体的需求和数据情况选择适合的特征筛选方法，以优化风控建模的效果。

至此，风控建模中变量筛选方法已讲解完毕，如想了解更多风控建模文章，可以翻看公众号中“风控建模”模块相关文章。

【部分群限时免费进】分群讨论学习Python、玩转Python、风控建模【29.9元进】、人工智能、数据分析相关问题，还提供招聘内推信息、优秀文章、学习视频、公众号文章答疑，也可交流工作中遇到的难题。如需添加微信号19967879837，加时备注想进的群，比如风控建模。

往期回顾：

信贷风控架构一张图

变量筛选—特征包含信息量

一文弄懂卡方分箱的原理和应用

应用决策树生成【效果好】【非过拟合】的策略集

一文囊括风控模型搭建(原理+Python实现)，持续更新。。。

不同工作年限风控建模岗薪资水平如何？招聘最看重面试者什么能力？

100天精通风控建模(原理+Python实现)——第32天：集成学习是什么?在风控建模中有哪些应用？

限时免费进群

19967879837

添加微信号、手机号

http://mp.weixin.qq.com/s?__biz=MzIxMjA1NzQzMQ==&mid=2247488650&idx=1&sn=081325588985137aeb582d0d1c32a21e

阿黎逸阳的代码

阿黎逸阳，分享大数据和人工智能领域知识，提供风控建模干货经验。博主履历：世界五百强公司、互联网上市公司、高校、外资银行，多年研究大数据分析、建模以及教学工作。

最新文章

【Python常用函数】一文让你彻底掌握Python中的f1_score函数

一文囊括风控建模中的变量筛选方法

风控建模中变量缺失值率多少应该删除？如何处理缺失值？

100天精通风控建模(原理+Python实现)——第36天：什么是Lightgbm？它有哪些特性？

Optuna，一个神奇的调参库

100天精通风控建模(原理+Python实现)——第35天：什么是XGBoost？它有哪些核心优势？

信贷风控中的多头在贷后表现中为什么会出现倒挂？

100天精通风控建模(原理+Python实现)——第34天：什么是有监督学习模型和无监督学习模型？它们分别包括什么算法？

【Python常用函数】一文让你彻底掌握Python中的groupby函数

风控建模流程一张图

一文弄懂评分卡是什么

信贷风控架构一张图

100天精通风控建模(原理+Python实现)——第33天：模型选择策略中的交叉验证是什么？在风控建模中有什么应用？

100天精通风控建模(原理+Python实现)——第32天：集成学习是什么?在风控建模中有哪些应用？

用Python画奥运五环和法国国旗

一文囊括Python中的函数，持续更新。。。

100天精通风控建模(原理+Python实现)——第31天：神经网络是什么?在风控建模中有哪些应用？

腾讯三大免费AI神器

SequenceMathcer地址相似性计算

变量筛选—特征包含信息量

100天精通风控建模(原理+Python实现)——第30天：风控建模中朴素贝叶斯是什么?主要应用在哪些方面？

AI如何改变未来战争

应用决策树生成【效果好】【非过拟合】的策略集

【Python常用函数】一文让你彻底掌握Python中的query函数

100天精通风控建模(原理+Python实现)——第29天：风控建模中K近邻是什么?有哪些优缺点？

AI当前最有可能用来赚钱的方法有哪些？如何轻松实现年入百万

一文弄懂卡方分箱的原理和应用

100天精通风控建模(原理+Python实现)——第28天：风控建模中逻辑回归是什么?主要应用在哪些方面？

100天精通风控建模(原理+Python实现)——第27天：风控建模中随机森林是什么?有哪些优缺点？

100天精通风控建模(原理+Python实现)——第26天：风控建模中决策树是什么?应用在哪些方面？

【保姆级教程】爬取网站上“气候变化”关键词新闻个数

用RFM分析法分析超市客户质量

一文弄懂GBDT原理和应用

一文弄懂风控建模中的标签(y)定义

100天精通风控建模(原理+Python实现)——第25天：风控建模中的调参方法有哪些？怎么实现？

Python连接星环数仓取数

深圳不同工作年限风控建模岗薪资水平如何？招聘最看重面试者什么能力？

【Python常用函数】一文让你彻底掌握Python中的scorecardpy.split_df函数

【Python常用函数】一文让你彻底掌握Python中的scorecardpy.var_filter函数

人工智能探索小米汽车上市对全球汽车领域的影响及各大汽车厂商的应对之策

批量爬取招聘网站上工作岗位的招聘信息

100天精通风控建模(原理+Python实现)——第24天：风控建模中的信息增益是什么？怎么实现？

100天精通风控建模(原理+Python实现)——第23天：风控建模中的贝叶斯优化是什么？怎么实现？

批量爬取百度图库中的图片

火爆国内外的大模型究竟是什么？有哪些大模型学习和参赛的网站？

【Python常用函数】一文让你彻底掌握Python中的numpy.resize函数

100天精通风控建模(原理+Python实现)——第22天：风控建模中的随机搜索是什么？怎么实现？

金三银四，风控建模面试高频问题大全

100天精通风控建模(原理+Python实现)——第21天：风控建模中的网格搜索是什么？怎么实现？

金三银四，风控建模面试全攻略：从简历准备到面试技巧

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉