首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

什么是模型过度拟合？

文摘科技 2024-08-21 09:00 广东

过度拟合最初是在统计学数据挖掘领域中的概念，如今在机器学习、量化领域的地位也非常重要。

什么是模型过度拟合？

当我们在构建模型时，一般将样本分成三部分，训练集(trainset)和验证集(validationset)以及测试集(testset)。

其中训练集是用来估计模型的，验证集是用来确定网络结构或者控制模型复杂程度的参数，而测试集则是检验最终选择最优的模型的性能如何，通常数据以 80:10:10 或 70:20:10 的比率分配。

模型构建过程中，每个时间点中使用验证数据测试当前已构建的模型，得到模型的损失和准确率以及验证损失和验证准确率。

模型构建完成后，使用测试数据对模型进行测试并得到准确率。如果准确率和验证准确率存在较大的差异，就说明该模型是过度拟合了。

通俗来说，模型在训练数据上表现非常好，但是对样本外的数据进行测试时效果表现不佳，这就是过度拟合了。

过度拟合是怎么造成的呢?

主要原因有三个：

一是实验样本数据太少；
二是模型太复杂：为得到高精度的拟合结果，而使模型变得过度复杂，导致模型参数不合理，表现力、预测力变差；
三是数据有噪声。

怎么发现模型过度拟合？

模型过度拟合一个最典型的特征就是模型不能泛化，不能解决广泛的问题，只在特定范围内有效。

如何防止模型过度拟合？

我们知道了引起模型过度拟合主要原因，所以相对的，防止过度拟合的方法是：

1. 获取更多的数据：我们需要获取更多的数据进行训练，模型的训练数据越多，模型发生过度拟合的可能性就越小。

2. 简化模型：如果说我们手中已经获取了所有需的数据量，而模型却仍然过度拟合训练数据集，那可能是模型太过于强大，那么我们可以试试降低模型的复杂度。

3.移除特征：能够减低模型复杂度，并且在一定程度上可以避免噪声，使模型更高效。

4.使用一些方法：比如正则化、早停、Dropout、交叉验证等来避免模型过度训练。

完全防止模型过度拟合是比较困难，所以建模过程中，我们需要努力保证模型的稳定性，好坏排序正常并且降低模型复杂度，模型中的变量保持较低的相关性。这样的模型在实战、在市场中才会发挥积极作用。

看到这里，如果你想了解更多防止模型过度拟合的解决方法，如正则化、Dropout、交叉验证、早停等，想要系统掌握全场景建模能力，加强风控建模业务模型能力，提升建模能力，推荐学习「量化风控模型机会实战营3.0」⬇️

课程特色

1、特征工程最全解析（分析+辅助模型）

特征的构建决定了建模的成败，好的特征会让我们在建模的路上事半功倍。可以说建模的流程中大部分的时间都在做特征的构建和筛选。

通过学习单特征构建、多特征筛选、四类主流特征构造方法以及各种特征辅助模型构建特征，全面解析特征工程的“套路”，学会自己进行特征评估和特征构建。

2、二分类模型主流算法全流程精讲（带全流程案例实操）

没有代码基础？本课程包含纯干货的快速SQL、Python入门讲解，帮助您在学习途中扫清工具的障碍。

没有算法基础？本课程将带你从最简单的线性回归入手，逐一串讲各类风控模型常用算法。包括但不限于风控模型中最常用的逻辑回归、到更高级的GBDT、XGBoost、LBGM等。并且结合案例的实操，帮您从理论和应用两个层面完成学习的闭环。

3、全场景评分卡模型体系应用

本课程中囊括了全场景的风控评分卡模型种类，包括：

申请类（贷前）评分卡与各种A卡子模型
行为类（贷中）评分卡与各种B卡子模型
催收类（贷后）评分卡与各种C卡子模型
组合评分卡模型

结合实际的应用场景，无论您将来要进入哪个岗位，都有对应的内容帮助你更好的进行模型应用。

4、学一用三：细化场景建模案例实操（贷中支用）

通过对贷中支用模型开发场景的案例实操讲解，能够进一步细化对于信贷评分模型的理解，从而举一反三，彻底掌握评分卡建模，从样本设计到模型开发模型验证的全流程。从此无论面对何种场景化的模型变种，都可以用相同的“套路”解决。

没有模型体系知识

不论是面试还是工作中，模型体系的建立和掌握是至关重要的。尤其是在求职中，面试官对求职者有没有体系性的模型理解是极为看重，有体系性的理解代表着将来他能有无限的可能性。

通过全面课程学习，可以掌握不同场景下建模全流程开发与应用，包括分析思路与代码能力。具体课程安排如下：

△ 上下滑动查看更多

如果你想系统学习，入行模型岗

扫码添加课程顾问，解锁最适合你的学习方式

↓↓↓扫码↓↓↓

添加小金老师微信免费咨询

课程难度、职业规划

量化风控模型机会实战营3.0

没有项目实操经验

对于社招，最大的门槛不是学历、背景，而是有没有相关项目经验。这简直是所有转岗人士的死穴。FAL怎么为大家“解穴”呢？

1. 教你最实用的“经验”

建模特征处理、构建与选择的经验；
各类子模型的经验，应对各种业务细分场景下如何开发模型的问题；
参数优化的经验，让你快准狠的调整核心参数，模型一步到位，让面试官都感觉到你“经验十足“。

2. 手把手带你过项目，走代码，项目实操就有了

通过FAL自建“鲸抖”大数据实操平台，配置统一实验环境，你可以上机实操项目，让你完整体验到模型开发监控的全流程，再也不怕面试官问细节。

更多这门课程广受学员好评，帮助了很多小伙伴的职业发展更清晰明朗。以下是专属课程学习群记录与学员反馈。

△ 上下滑动查看更多

经过课程优化调整后，新增安排了案例互动代码教学以及企业级数据模型结业作业项目互动实练。

△ 上下滑动查看更多

如果你想快速了解模型岗的行业现况

可以添加我们的顾问老师，解锁入行捷径

↓↓↓扫码↓↓↓

添加小金老师微信免费咨询

课程难度、职业规划

量化风控模型机会实战营3.0

http://mp.weixin.qq.com/s?__biz=MzUzNDYyNjk3MA==&mid=2247555605&idx=1&sn=8e7fbf7b67d8373a5d765d81bc8ba40e

金科应用研院

Make Fintech Easier And Smarter

最新文章

核心逾期指标计算详解

电商信贷的特色数据范围

【2024企业培训】助力数字化风险管理

FAL帮就业（6.12更新)

汽车金融风控中的欺诈识别和痛点剖析

将薪资差距拉至3-4倍，风控模型岗凭什么？

9月在线招生课程

FAL帮就业（6.12更新)

描述性统计分析风控实战讲解（附数据和代码）

贷后术语解析

【2024企业培训】助力数字化风险管理

FAL帮就业（6.12更新)

商业银行客户风险预警管理与模型构建

风控策略岗非常难找？你没用对方法吧！

9月在线招生课程

FAL帮就业（6.12更新)

贷后管理3大流程，专业术语及指标解析

基于逻辑回归算法模型搭建思路

9月在线招生课程

FAL帮就业（6.12更新)

8类信贷欺诈风险常用的拦截策略

贷中调额的不同场景与方法

【2024企业培训】助力数字化风险管理

FAL帮就业（6.12更新)

风控中常见的对比分析及应用

解析：特征筛选在策略中的应用

9月在线招生课程

FAL帮就业（6.12更新)

国内VS海外：量化风控职业的三大抉择，你该如何选？

拒绝客户捞回方法

【2024企业培训】助力数字化风险管理

FAL帮就业（6.12更新)

“规则&模型”组合分析案例实战（附数据与代码）

5个风控模型评估指标，风控人必知！！！

9月在线招生课程

FAL帮就业（6.12更新)

超50个风控项目实战案例，都在这里了！

风控策略基本功丨风险成本计算指标

8月在线招生课程

FAL帮就业（6.12更新)

A/B测试的实战与应用

评分模型的目标Y变量科学选定方法

【2024企业培训】助力数字化风险管理

FAL帮就业（6.12更新)

裁员还是苟住？策略分析避险手册

预期损失的3个计算参数介绍

8月在线招生课程

FAL帮就业（6.12更新)

如何搭建风控核心报表监控体系

讲真，风控策略的入职门槛越来越高了……

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉