什么是模型过度拟合?

文摘   科技   2024-08-21 09:00   广东  

度拟合最初是在统计学数据挖掘领域中的概念,如今在机器学习、量化领域的地位也非常重要。



什么是模型过度拟合?


当我们在构建模型时,一般将样本分成三部分,训练集(trainset)和验证集(validationset)以及测试集(testset)。


其中训练集是用来估计模型的,验证集是用来确定网络结构或者控制模型复杂程度的参数,而测试集则是检验最终选择最优的模型的性能如何,通常数据以 80:10:10 或 70:20:10 的比率分配。


模型构建过程中,每个时间点中使用验证数据测试当前已构建的模型,得到模型的损失和准确率以及验证损失和验证准确率。


模型构建完成后,使用测试数据对模型进行测试并得到准确率。如果准确率和验证准确率存在较大的差异,就说明该模型是过度拟合了。


通俗来说,模型在训练数据上表现非常好,但是对样本外的数据进行测试时效果表现不佳,这就是过度拟合了。



过度拟合是怎么造成的呢?


主要原因有三个:


  1. 一是实验样本数据太少;


  2. 二是模型太复杂:为得到高精度的拟合结果,而使模型变得过度复杂,导致模型参数不合理,表现力、预测力变差;


  3. 三是数据有噪声。



怎么发现模型过度拟合?


模型过度拟合一个最典型的特征就是模型不能泛化,不能解决广泛的问题,只在特定范围内有效。



如何防止模型过度拟合?


我们知道了引起模型过度拟合主要原因,所以相对的,防止过度拟合的方法是:


1. 获取更多的数据:我们需要获取更多的数据进行训练,模型的训练数据越多,模型发生过度拟合的可能性就越小。


2. 简化模型:如果说我们手中已经获取了所有需的数据量,而模型却仍然过度拟合训练数据集,那可能是模型太过于强大,那么我们可以试试降低模型的复杂度。


3.移除特征:能够减低模型复杂度,并且在一定程度上可以避免噪声,使模型更高效。


4.使用一些方法:比如正则化、早停、Dropout、交叉验证等来避免模型过度训练。


完全防止模型过度拟合是比较困难,所以建模过程中,我们需要努力保证模型的稳定性,好坏排序正常并且降低模型复杂度,模型中的变量保持较低的相关性。这样的模型在实战、在市场中才会发挥积极作用。



看到这里,如果你想了解更多防止模型过度拟合的解决方法,如正则化、Dropout、交叉验证、早停等,想要系统掌握全场景建模能力,加强风控建模业务模型能力,提升建模能力,推荐学习「量化风控模型机会实战营3.0」⬇️



课程特色

1、特征工程最全解析(分析+辅助模型)


特征的构建决定了建模的成败,好的特征会让我们在建模的路上事半功倍。可以说建模的流程中大部分的时间都在做特征的构建和筛选。


通过学习单特征构建、多特征筛选、四类主流特征构造方法以及各种特征辅助模型构建特征,全面解析特征工程的“套路”,学会自己进行特征评估和特征构建。


2、二分类模型主流算法全流程精讲(带全流程案例实操)


没有代码基础?本课程包含纯干货的快速SQL、Python入门讲解,帮助您在学习途中扫清工具的障碍。


没有算法基础?本课程将带你从最简单的线性回归入手,逐一串讲各类风控模型常用算法。包括但不限于风控模型中最常用的逻辑回归、到更高级的GBDT、XGBoost、LBGM等。并且结合案例的实操,帮您从理论和应用两个层面完成学习的闭环。


3、全场景评分卡模型体系应用


本课程中囊括了全场景的风控评分卡模型种类,包括:

  • 申请类(贷前)评分卡与各种A卡子模型

  • 行为类(贷中)评分卡与各种B卡子模型

  • 催收类(贷后)评分卡与各种C卡子模型

  • 组合评分卡模型


结合实际的应用场景,无论您将来要进入哪个岗位,都有对应的内容帮助你更好的进行模型应用。


4、学一用三:细化场景建模案例实操(贷中支用)


通过对贷中支用模型开发场景的案例实操讲解,能够进一步细化对于信贷评分模型的理解,从而举一反三,彻底掌握评分卡建模,从样本设计到模型开发模型验证的全流程。从此无论面对何种场景化的模型变种,都可以用相同的“套路”解决。


没有模型体系知识

不论是面试还是工作中,模型体系的建立和掌握是至关重要的。尤其是在求职中,面试官对求职者有没有体系性的模型理解是极为看重,有体系性的理解代表着将来他能有无限的可能性。

通过全面课程学习,可以掌握不同场景下建模全流程开发与应用,包括分析思路与代码能力。具体课程安排如下:

△ 上下滑动查看更多


如果你想系统学习,入行模型岗
扫码添加课程顾问,解锁最适合你的学习方式
↓↓↓扫码↓↓↓

添加小金老师微信免费咨询
课程难度、职业规划
量化风控模型机会实战营3.0


没有项目实操经验

对于社招,最大的门槛不是学历、背景,而是有没有相关项目经验。这简直是所有转岗人士的死穴。FAL怎么为大家“解穴”呢?


1. 教你最实用的“经验”

  • 建模特征处理、构建与选择的经验;

  • 各类子模型的经验,应对各种业务细分场景下如何开发模型的问题;

  • 参数优化的经验,让你快准狠的调整核心参数,模型一步到位,让面试官都感觉到你“经验十足“。

2. 手把手带你过项目,走代码,项目实操就有了

通过FAL自建“鲸抖”大数据实操平台,配置统一实验环境,你可以上机实操项目,让你完整体验到模型开发监控的全流程,再也不怕面试官问细节。


更多这门课程广受学员好评,帮助了很多小伙伴的职业发展更清晰明朗。以下是专属课程学习群记录与学员反馈。



△ 上下滑动查看更多

经过课程优化调整后,新增安排了案例互动代码教学以及企业级数据模型结业作业项目互动实练。

△ 上下滑动查看更多

如果你想快速了解模型岗的行业现况
可以添加我们的顾问老师,解锁入行捷径
↓↓↓扫码↓↓↓

添加小金老师微信免费咨询
课程难度、职业规划
量化风控模型机会实战营3.0

金科应用研院
Make Fintech Easier And Smarter
 最新文章