过度拟合最初是在统计学数据挖掘领域中的概念,如今在机器学习、量化领域的地位也非常重要。
当我们在构建模型时,一般将样本分成三部分,训练集(trainset)和验证集(validationset)以及测试集(testset)。
其中训练集是用来估计模型的,验证集是用来确定网络结构或者控制模型复杂程度的参数,而测试集则是检验最终选择最优的模型的性能如何,通常数据以 80:10:10 或 70:20:10 的比率分配。
模型构建过程中,每个时间点中使用验证数据测试当前已构建的模型,得到模型的损失和准确率以及验证损失和验证准确率。
模型构建完成后,使用测试数据对模型进行测试并得到准确率。如果准确率和验证准确率存在较大的差异,就说明该模型是过度拟合了。
通俗来说,模型在训练数据上表现非常好,但是对样本外的数据进行测试时效果表现不佳,这就是过度拟合了。
主要原因有三个:
一是实验样本数据太少;
二是模型太复杂:为得到高精度的拟合结果,而使模型变得过度复杂,导致模型参数不合理,表现力、预测力变差;
三是数据有噪声。
模型过度拟合一个最典型的特征就是模型不能泛化,不能解决广泛的问题,只在特定范围内有效。
我们知道了引起模型过度拟合主要原因,所以相对的,防止过度拟合的方法是:
1. 获取更多的数据:我们需要获取更多的数据进行训练,模型的训练数据越多,模型发生过度拟合的可能性就越小。
2. 简化模型:如果说我们手中已经获取了所有需的数据量,而模型却仍然过度拟合训练数据集,那可能是模型太过于强大,那么我们可以试试降低模型的复杂度。
3.移除特征:能够减低模型复杂度,并且在一定程度上可以避免噪声,使模型更高效。
4.使用一些方法:比如正则化、早停、Dropout、交叉验证等来避免模型过度训练。
完全防止模型过度拟合是比较困难,所以建模过程中,我们需要努力保证模型的稳定性,好坏排序正常并且降低模型复杂度,模型中的变量保持较低的相关性。这样的模型在实战、在市场中才会发挥积极作用。
1、特征工程最全解析(分析+辅助模型)
特征的构建决定了建模的成败,好的特征会让我们在建模的路上事半功倍。可以说建模的流程中大部分的时间都在做特征的构建和筛选。
通过学习单特征构建、多特征筛选、四类主流特征构造方法以及各种特征辅助模型构建特征,全面解析特征工程的“套路”,学会自己进行特征评估和特征构建。
2、二分类模型主流算法全流程精讲(带全流程案例实操)
没有代码基础?本课程包含纯干货的快速SQL、Python入门讲解,帮助您在学习途中扫清工具的障碍。
没有算法基础?本课程将带你从最简单的线性回归入手,逐一串讲各类风控模型常用算法。包括但不限于风控模型中最常用的逻辑回归、到更高级的GBDT、XGBoost、LBGM等。并且结合案例的实操,帮您从理论和应用两个层面完成学习的闭环。
3、全场景评分卡模型体系应用
本课程中囊括了全场景的风控评分卡模型种类,包括:
申请类(贷前)评分卡与各种A卡子模型
行为类(贷中)评分卡与各种B卡子模型
催收类(贷后)评分卡与各种C卡子模型
组合评分卡模型
结合实际的应用场景,无论您将来要进入哪个岗位,都有对应的内容帮助你更好的进行模型应用。
4、学一用三:细化场景建模案例实操(贷中支用)
通过对贷中支用模型开发场景的案例实操讲解,能够进一步细化对于信贷评分模型的理解,从而举一反三,彻底掌握评分卡建模,从样本设计到模型开发模型验证的全流程。从此无论面对何种场景化的模型变种,都可以用相同的“套路”解决。
对于社招,最大的门槛不是学历、背景,而是有没有相关项目经验。这简直是所有转岗人士的死穴。FAL怎么为大家“解穴”呢?
1. 教你最实用的“经验”
建模特征处理、构建与选择的经验;
各类子模型的经验,应对各种业务细分场景下如何开发模型的问题;
参数优化的经验,让你快准狠的调整核心参数,模型一步到位,让面试官都感觉到你“经验十足“。