逻辑回归-逐步回归（stepwise regression）的利弊分析

财富科学 2024-11-06 11:30 重庆

在公众号「python风控模型」里回复关键字：学习资料

QQ学习群：1026993837 领学习资料

在数据挖掘中，我们经常用到逻辑回归算法。逐步回归又是筛选变量的一个自动化算法，被诸多大学教授讲述。甚至多个构建评分卡的第三方库中集成了逐步回归。我在机器学习项目中累计经验说明逐步回归有时是有用的，特别是存在较多相关性高的变量时，逐步回归可以很好降低模型维度，降低逻辑回归模型多重共线性。当然逐步回归不是完全消除模型多重共线性，而是很好改善情况，多重共线性是很难完全消除的。

下图是对乳腺癌数据集的逐步回归项目，模型维度降低一半，模型性能反而略有提高。这说明逐步回归是有效的。

当变量相关性不高情况下，我认为可以不用逐步回归，用了后模型性能反而下降。下图是give me some credit数据集测试，逐步回归后模型性能反而略有下降。

我今天看了国内某知名大学教授讲述逐步回归视频，案例是青岛市财政收入分析。他把很多自己观念强行和逐步回归结果联系起来。此教授过于强调GDP在经济中作用，我认为是不可取的。他认可制造业和工业这点我是赞同的。经济是一个非常复杂模型，变量之间存在复杂交互关系，我认为他光用逐步回归来解释是不全面的。

我认为逐步回归是一种变量筛选方法，但不能神话逐步回归。逐步回归还是有争议的。变量自动化筛选过程始终用的是同样数据集，这容易过渡拟合。逐步回归容易导致排除有价值变量，造成模型过于简单。其它争议还有很多，不一一阐述。

还是那句话，逐步回归是一种方法，只要能降低模型维度，得到满意模型性能，变量能够被业务方所解释，就是可以用的，但不能神话它和夸大它的作用。

机器学习是一门严谨学科，希望各位同学今后使用时要谨慎对待，要全面了解一种算法的利和弊以及什么时候可以使用。

最后附上一些逐步回归英文的解释

Criticism

Stepwise regression procedures are used in data mining, but are controversial. Several points of criticism have been made.

The tests themselves are biased, since they are based on the same data.Wilkinson and Dallal (1981)computed percentage points of the multiple correlation coefficient by simulation and showed that a final regression obtained by forward selection, said by the F-procedure to be significant at 0.1%, was in fact only significant at 5%.

When estimating the degrees of freedom, the number of the candidate independent variables from the best fit selected may be smaller than the total number of final model variables, causing the fit to appear better than it is when adjusting the r2 value for the number of degrees of freedom. It is important to consider how many degrees of freedom have been used in the entire model, not just count the number of independent variables in the resulting fit.

Models that are created may be over-simplifications of the real models of the data.

Such criticisms, based upon limitations of the relationship between a model and procedure and data set used to fit it, are usually addressed by verifying the model on an independent data set, as in the PRESS procedure.

Critics regard the procedure as a paradigmatic example of data dredging, intense computation often being an inadequate substitute for subject area expertise. Additionally, the results of stepwise regression are often used incorrectly without adjusting them for the occurrence of model selection. Especially the practice of fitting the final selected model as if no model selection had taken place and reporting of estimates and confidence intervals as if least-squares theory were valid for them, has been described as a scandal.Widespread incorrect usage and the availability of alternatives such as ensemble learning, leaving all variables in the model, or using expert judgement to identify relevant variables have led to calls to totally avoid stepwise model selection.

逐步回归程序在数据挖掘中被使用，但存在争议。对此提出了几点批评意见。

这些测试本身是有偏见的，因为它们基于相同的数据。Wilkinson和Dallal（1981）通过模拟计算了多重相关系数的百分点，并表明通过向前选择获得的最终回归，根据F程序被认为是在0.1%的显著性水平上显著的，实际上只在5%的显著性水平上显著。

在估计自由度时，最佳拟合选择的候选自变量的数量可能小于最终模型变量的总数，这导致拟合看起来比实际更好，因为调整了自由度数量的r2值。重要的是要考虑整个模型中使用了多少自由度，而不仅仅是计算最终拟合中的自变量数量。

创建的模型可能是对真实数据模型的过度简化。

这些批评基于模型与用于拟合它的程序和数据集之间关系的限制，通常通过在独立数据集上验证模型来解决，如PRESS程序。

批评者认为，这种方法是数据挖掘的一个典型例子，密集的计算常常是领域专业知识的不充分替代。此外，逐步回归的结果常常被错误地使用，没有对模型选择的发生进行调整。特别是，将最终选择的模型拟合得好像没有进行模型选择一样，并且报告估计值和置信区间，就好像最小二乘理论对它们有效一样，这种做法被描述为一种丑闻。广泛的错误使用和替代方案的可用性，如集成学习，保留模型中的所有变量，或使用专家判断来识别相关变量，已经导致呼吁完全避免逐步模型选择。

最新文章

谷歌2024博士奖学金公布，华人学者大放异彩

银行面试-风控贷后策略数据分析岗位，附面试题

python信用评分卡建模（附代码）2024年版

灌水神刊《Heliyon》On hold！学术水军天塌了

金融信用风险建模完整指南

逻辑回归变量系数可为负数吗？应该如何解释？

互联网借贷产品和利息汇总-互联网的尽头是放贷

逻辑回归-逐步回归（stepwise regression）的利弊分析

免费和收费外部数据源汇总

银行面试-风险政策和风险模型岗位区别？附广大银行和苏州银行招聘参考案例

银行面试-风险政策和风险模型岗位区别？

风控中英文术语手册(银行_消费金融信贷业务)_v11

开箱点评！2024年四川省大学生数据科学与统计建模竞赛（算法赛）-基于新网银行数据集

金融风控系列课大全

报名了，奖金6万！2024年四川省大学生数据科学与统计建模竞赛（算法赛）-基于新网银行数据集

中国建设银行2023年风控模型竞赛！金融大数据应用-企业信贷风险防控

基于“三农”（农业、农村、农民）信贷风险预测模型

金融风控实战-Python信用评分卡建模全流程！（万字阐述，收藏）

金融风控系列课大全

巴塞尔协议（I,II ,III） - 意义、解释、历史、类型，确保金融系统的稳定性和安全性

金融信用风险建模完整指南

论文复现-基于Stacking融合模型的信用贷款违约预测的研究，以Give Me Some Credit数据集为例

论文专利AI实验数据库（含数据集和程序代码），10月重大更新

模型竞赛融合模型stacking16条经验总结和5个成功案例(互联网最全，硬核收藏)

论文福音！金融风控建模数据库10月重大升级，私有数据库查重无忧

芝麻信用分的核心变量和构建过程

手把手教你构建逻辑回归模型logistics regression

使用 D-Tale高效探索 Pandas DataFrame

python信用评分卡建模（附代码）2024年版

统计学_生存分析/Weibull Distribution韦布尔分布（python代码实现）

论文复现-基于决策树算法构建银行贷款审批预测模型（金融风控场景）

洛伦兹曲线（Lorenz curve）-揭秘贫富差异原因（Python代码实现）

python金融风控评分卡模型和数据分析(加强版)_2024年版_论文专利企业建模

Python数据科学和模型交流群

论文解析_客户分组对商业银行个人信用评分模型的提升作用研究，作者张亚京-中国人民银行征信中心博士后工作站

金融风控模型专利_论文定制服务

标准误(Standard Error)的蒙特卡洛模拟

python金融风控评分卡模型和数据分析(加强版)_2024年版_论文专利企业建模

Python数据科学和模型交流群

论文解析_客户分组对商业银行个人信用评分模型的提升作用研究，作者张亚京-中国人民银行征信中心博士后工作站

金融风控模型专利_论文定制服务

PandasGUI | python可视化GUI 神器

呆瓜半小时入门python数据分析

轻松一刻，python乌龟绘图-小猪佩奇，可爱乌龟，新冠病毒

热烈庆祝我司被评为重庆市科技型企业！

滚动率分析（Roll Rate Analysis）

Precision-Recall (PR) 曲线（附代码）-金融风控模型核心指标

2023年金融科技建模大赛（初赛）开箱点评

python金融风控评分卡模型和数据分析(加强版)_2024年版_论文专利企业建模

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉