深入理解机器学习中的正则化

科技 2024-11-16 16:29 安徽

引言

在构建机器学习模型时，常常需要在模型的复杂度与泛化能力之间找到平衡。模型过于简单会导致欠拟合，而模型过于复杂又容易过拟合。

正则化技术就是为了解决这一问题，它通过在模型的损失函数中加入额外的惩罚项，从而控制模型的复杂度，使得模型不仅能在训练数据上表现良好，还能有效地泛化到未见过的测试数据上。

这篇文章将重点讨论机器学习中的L1 正则化（Lasso）和L2 正则化（Ridge）。

1. 什么是正则化？

在机器学习中，模型的目标通常是最小化损失函数，例如在线性回归中，我们常用均方误差（MSE）作为损失函数。

然而，仅仅最小化误差往往不够，因为模型有可能会过于追求训练集上的表现，导致其在测试集上的泛化能力较差。

为了解决这个问题，正则化通过在损失函数中增加一个惩罚项，限制模型的复杂度，使模型能够保持简洁且不失准确性。

正则化的核心理念是：模型不仅要拟合数据，还要尽量保持简单。这种“简单”是通过限制模型参数的大小来实现的。参数越小，模型的复杂度越低，就越不容易过拟合。

1.1 损失函数中的正则化项

在线性回归模型中，损失函数（MSE）是模型误差的度量。对于没有正则化的普通线性回归，损失函数为：

其中：

是模型预测值。
是真实值。
是样本数。

当引入正则化后，损失函数会加入一个关于权重的惩罚项，使得模型在最小化预测误差的同时，也要保持权重值的合理范围。

接下来，我们将分别讨论 L1 和 L2 正则化的数学表达及其对模型的影响。

2. L1正则化与L2正则化

2.1 L2 正则化（Ridge 正则化）

L2 正则化的惩罚项是所有权重参数的平方和，它的目标函数变为：

这里的就是 L2 正则化项，是正则化参数，用来调节惩罚项的权重大小。如果过大，模型会过于简单，导致欠拟合；如果，则没有正则化，回到普通的线性回归模型。

2.1.1 L2 正则化的数学性质

L2 正则化的惩罚是基于参数的平方值，因此不会让任何参数变为 0，而是倾向于缩小权重。这样所有的参数都会参与预测，只是权重大小不同。

L2 正则化鼓励权重的均匀分布，适合用于避免极端的权重值出现。特别是在特征相关性较高的情况下，L2 正则化能够很好地处理多重共线性问题。

几何上，L2 正则化可以理解为在高维空间中添加了一个“圆形约束”，它让解的空间受限于一个球体内。这样每个权重的数值都被缩小，而不是直接被忽略。

2.1.2 适用场景

多重共线性问题：当特征之间高度相关时，L2 正则化能有效地减少模型不稳定性，使得解更加稳定。

处理高维数据：当特征数量多且不确定哪些特征更重要时，L2 正则化可以确保所有特征都有一定贡献。

2.2 L1 正则化（Lasso 正则化）

L1 正则化的惩罚项是权重参数的绝对值和，其目标函数变为：

与 L2 正则化不同，L1 正则化会使某些权重直接缩小为 0。这意味着模型会自动进行特征选择，选择出最重要的特征，而忽略无关或次要的特征。

2.2.1 L1 正则化的数学性质

由于 L1 正则化惩罚的是权重的绝对值，因此它更容易将权重压缩为零。其几何性质可以理解为在高维空间中添加了一个“菱形约束”，这个菱形的尖角容易与等高线图的最优解相交，使得某些权重被压缩为零。

这一特性使得 L1 正则化特别适合特征选择问题，它能够有效筛选出重要特征，而将不重要的特征权重设为 0，从而简化模型。

2.2.2 适用场景

高维稀疏数据：在特征数量非常多且大多数特征无关的情况下，L1 正则化能够自动选择重要特征，减少模型的复杂度。

特征选择：L1 正则化特别适用于需要进行特征选择的场景，如基因数据、文本分类等高维场景中，L1 正则化通过稀疏解帮助我们筛选出关键特征。

2.3 L1与L2正则化的区别

2.4 L1与L2的结合：Elastic Net

有时，L1 和 L2 的结合可能是一个更好的选择。Elastic Net 是将 L1 和 L2 正则化结合在一起的方法，其目标函数如下：

通过调节和，我们可以在 L1 和 L2 正则化之间找到一个平衡点。Elastic Net 能够在处理稀疏特征时保留 L1 的特征选择能力，同时利用 L2 的平滑性处理相关特征。

Elastic Net 特别适用于特征间具有较高相关性的场景，L1 单独处理这些相关性特征时可能会不稳定，而 L2 能保持特征的相关性。

3. 正则化示例

为了更直观地理解正则化的效果，我们可以通过可视化来展示 L1 和 L2 对模型参数的影响。以下代码示例展示了 L1 和 L2 正则化在不同正则化强度下的参数变化。

import numpy as npimport matplotlib.pyplot as pltfrom sklearn.linear_model import Ridge, Lasso
# 生成示例数据np.random.seed(42)X = np.random.randn(100, 5)y = 3 * X[:, 0] + 2 * X[:, 1] + np.random.randn(100)
# 使用 L2 正则化（Ridge）ridge = Ridge(alpha=1.0)ridge.fit(X, y)ridge_coef = ridge.coef_
# 使用 L1 正则化（Lasso）lasso = Lasso(alpha=0.1)lasso.fit(X, y)lasso_coef = lasso.coef_
# 可视化 L1 和 L2 正则化效果plt.bar(np.arange(len(ridge_coef)), ridge_coef, alpha=0.6, label='Ridge coefficients (L2)')plt.bar(np.arange(len(lasso_coef)), lasso_coef, alpha=0.6, label='Lasso coefficients (L1)', color='orange')plt.xlabel('Feature index')plt.ylabel('Coefficient value')plt.title('Ridge vs Lasso Coefficients')plt.legend()plt.show()

通过图示可以直观地看到，Ridge（L2 正则化）将所有权重缩小，但保留了所有特征的贡献；而Lasso（L1 正则化）则将部分权重压缩为 0，这些特征被完全忽略，从而实现特征选择。

4. 超参数调优：如何选择合适的正则化强度

正则化项中的（正则化强度）决定了惩罚的程度。因此，选择合适的值对于模型的性能至关重要。如果过大，模型会欠拟合；如果过小，正则化效果不明显，可能会过拟合。

为了选择合适的，通常会使用交叉验证方法，通过对不同的进行多次验证，从而找到最优值。

交叉验证Python代码：

from sklearn.linear_model import RidgeCV, LassoCV
# 使用交叉验证选择最佳的 alpha（正则化强度）ridge_cv = RidgeCV(alphas=np.logspace(-6, 6, 13))  # 13个候选的 alpha 值ridge_cv.fit(X, y)print(f'最佳 Ridge alpha: {ridge_cv.alpha_}')
lasso_cv = LassoCV(alphas=np.logspace(-6, 6, 13), cv=5)  # 5折交叉验证lasso_cv.fit(X, y)print(f'最佳 Lasso alpha: {lasso_cv.alpha_}')

最佳 Ridge alpha: 0.1
最佳 Lasso alpha: 0.01

通过交叉验证，我们可以自动选择最适合当前数据集的正则化强度，从而使模型获得最佳的泛化性能。

5. 正则化与其他模型调整方法

正则化是防止过拟合的有效手段，但在实际操作中，还可以结合其他方法一起使用。例如：

早停法（Early Stopping）：通过在验证集上监控模型表现，提前停止训练，从而避免模型在训练集上过拟合。

数据增强（Data Augmentation）：通过生成更多的数据样本，提高模型的泛化能力。

特征缩放（Feature Scaling）：对特征进行归一化或标准化，帮助模型更稳定地训练。

总结

正则化是机器学习中防止过拟合的重要技术。L1 正则化适合用于高维稀疏数据场景，能够自动选择重要特征，而 L2 正则化通过缩小权重的大小来提升模型的鲁棒性，适用于多重共线性问题的场景。

希望这篇文章能够帮助你在实际的机器学习项目中更好地理解和应用正则化，从而构建出泛化能力更强的模型。

如果你有任何问题或者想深入探讨某些概念，欢迎在评论区留言！

系列文章：

从零开始搭建机器学习开发环境：PyCharm与Anaconda教程

机器学习中的数据预处理：从原始数据到模型输入

机器学习100天计划！

视频讲解 + 实战代码 + 社群交流 + 直播答疑

如果你想获得系统性的机器学习理论、代码、实战指导，可以购买我们的《机器学习100天》课程。

《机器学习100天》总共包含 100 个机器学习知识点视频讲解！我会提供所有的教学视频、实战代码，并提供社群一对一交流和直播答疑！

扫描下方二维码，加入学习！

点击「阅读原文」即刻报名，一顿午饭钱，值了。

http://mp.weixin.qq.com/s?__biz=MzIwOTc2MTUyMg==&mid=2247568203&idx=2&sn=0109c094d7d5e81335c3b838f379322e

AI有道

一个值得关注的 AI 技术公众号。主要涉及人工智能领域 Python、ML 、CV、NLP 等前沿知识、干货笔记和优质资源！我们致力于为您提供切实可行的 AI 学习路线。

最新文章

确实可以封神了：一个悄然崛起的国产项目！

新的 Mamba 架构又双叒来了！上交大 & 华为提出 QuadMamba ：多个视觉任务 SOTA!

绝了，图片秒变代码，开发越来越简单了！

不是，现在都流行用 Kaggle 写论文了吗？

吴恩达出手，开源最新 Python 包，一个接口调用 OpenAI 等模型！

超越 GPT-4o！开源科研神器登场

小红书，把“失业线”压到了32岁

斯坦福大学发布全球人工智能实力排行榜

更新了！带 Agent 的 Cursor 太疯狂了

王者归来！Transformer 彻底爆发了！

突破 XGBoost！时间序列预测！！

美国 AI 曼哈顿计划 793 页文件曝光！全力研发 AGI，十大战略直指中国

万字长文，大模型分布式训练的学习过程总结

美国教授痛心：UC伯克利GPA 4.0计算机本科生，毕业即失业？ML博士直呼太卷后悔转行

特朗普上台，第一刀再次扎在了留学生身上。。。

大模型中上分技巧大总结！！

FLUX“官方版ControlNet”来了！

训练大模型，这次竟卡在没图这里了。。。

Make U-Nets Great Again！北大&华为强强联合

计算机视觉顶尖期刊和会议有哪些？

王炸！字节又一爆款面试神器诞生了！

突破 LSTM！时间序列预测！！

谷歌浏览器，要被强制出售！

ChatGPT 4.0 与 Claude Pro 国内直接用！

史上最强！YOLOv11 杀疯了！

知名开源项目，阿里官宣停更，太痛了！

机器学习中降维和特征选择的对比介绍

直播预约 | CDCC 施耐德电气专场：算领未来，赋能无限！

已注销！985 新校区，不建了

12 个 ChatGPT 写作秘诀让你事半功倍！OpenAI 官方发布

王者归来！白皮书《从头训练大模型最佳实践》开源了。。。

Nature:「人类亲吻难题」彻底难倒LLM，所有大模型全部失败！

打破纪录！中国科学家让薛定谔的猫活了 23 分钟

好生猛，全球首款 AI 游戏问世！

谷歌 2024 博士奖学金名单揭晓！清华姚班大神吕欣，KAN一作刘子鸣获奖

211 大学教授、博导，落马！

深入理解机器学习中的正则化

教授何恺明在 MIT 的第二门课——《深度生成模型》，讲座PPT陆续已出

裁员 9000 人。

ChatGPT 4o 国内直接用！

全球首例：14 岁男孩和 AI 聊天网恋后被诱导自杀，生前对话曝光

今年顶会这情况。。。大家提前做准备吧！

空间智能版ImageNet来了！李飞飞吴佳俊团队出品

Ilya 认错，Scaling Law 崩了？自曝 SSI 秘密技术路线取代 OpenAI

被导师放养，后果可能很严重。。。

GPT-5 被曝不及预期，OpenAI 员工：没什么科学突破了，接下来只需要工程

开源版 SearchGPT 来了，两张 3090 就可复现，超越 Perplexity 付费版

80w，确实可以封神了！

揭示Transformer重要缺陷！北大提出傅里叶分析神经网络FAN，填补周期性特征建模缺陷

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉