首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

深度学习入门到放弃系列教程 06 | 深入浅出的理解L2正则化的数学原理与应用

文摘 2024-11-12 22:57 新加坡

点击订阅公众号 | 前沿学术成果每日更新

目录：

L2正则化的数据原理

为什么会发生过拟合？
L2正则化如何缓解过拟合？

L2正则化的数学表达式

线性回归模型的数学表达式
损失函数
引入L2正则化
参数更新规则
矩阵形式表达
重要细节解析

L2正则化的作用和使用场合

使用场合

L2正则化的数据原理

在机器学习模型的训练过程中，我们的目标是找到一个函数，使其能够很好地拟合训练数据。然而，如果模型过于复杂，它可能会对训练数据“记忆”过度，导致在新数据上的表现不佳，这种现象称为过拟合。

为什么会发生过拟合？

过拟合的主要原因是模型的复杂度太高，相对于可用的训练数据量来说，模型有太多的自由度。例如，在多项式回归中，如果我们使用高次多项式去拟合数据，模型可能会过度弯曲，紧密地通过所有训练点，但在预测新数据时表现糟糕。

L2正则化如何缓解过拟合？

L2正则化通过在损失函数中添加一个惩罚项，限制模型参数的大小，从而简化模型，防止过拟合。这个惩罚项是所有参数的平方和，鼓励模型选择较小的参数值。

直观地说，较小的参数值意味着模型对输入特征的敏感度降低，不会过度依赖某些特征，从而提高模型在新数据上的泛化能力。

L2正则化的数学表达式

线性回归模型的数学表达式

在深入探讨L2正则化之前，首先需要理解线性回归模型的基本数学表达式。

假设我们有一个数据集，包括个样本，每个样本都有个特征。第个样本表示为，对应的目标值为。

线性回归模型的预测函数（假设函数）为：

其中：

为模型的参数向量。

为了方便表示，我们通常将偏置项包含在参数向量中，同时在输入特征向量前加上一个常数1。这样，预测函数可以简化为：

其中，扩展后的输入向量为。

损失函数

线性回归模型通常使用均方误差（Mean Squared Error, MSE）作为损失函数，定义为：

损失函数衡量了模型预测值与实际目标值之间的差异。我们的目标是找到最优的参数，使损失函数最小。

引入L2正则化

L2正则化通过在损失函数中添加参数平方和的惩罚项，新的损失函数定义为：

注意：

正则化项只对进行惩罚，不包括偏置项。
是正则化参数，用于控制正则化的强度。

完整的损失函数展开为：

参数更新规则

为了最小化正则化后的损失函数，我们需要计算其关于参数的梯度。

对于（偏置项）：

由于，所以：

对于（其他参数）：

其中：

因此，总的梯度为：

参数更新公式

使用梯度下降法，参数的更新规则为：

对于：

即：

对于：

即：

其中：

是学习率，控制每次更新的步长。

矩阵形式表达

为了简化计算，我们可以使用矩阵形式表示上述公式。

定义特征矩阵为的矩阵，其中每一行是一个样本的特征向量，包括偏置项1。
目标向量为的列向量，包含所有样本的目标值。

预测值向量：

损失函数：

其中，为去除偏置项后的参数向量。

梯度向量：

参数更新规则：

重要细节解析

1. 为什么不对偏置项进行正则化？

偏置项的作用是调整模型的整体预测水平，不影响特征之间的权重关系。对偏置项进行正则化可能会导致模型的预测值整体偏移，降低模型的性能。因此，在L2正则化中，我们通常只对到进行惩罚，不包括偏置项。

2. 正则化参数的作用

正则化参数控制了正则化项的权重，对模型的复杂度有直接影响：

当时，损失函数退化为普通的均方误差损失函数，没有任何正则化效果。
当很大时，模型参数被强制缩小到接近零，可能导致欠拟合。
合适的值需要通过验证集或交叉验证等方法进行调节，以在防止过拟合和保持模型性能之间取得平衡。

3. L2正则化对梯度下降的影响

在参数更新公式中，正则化项对每个参数都施加了一个额外的衰减：

这相当于在每次更新时，除了按照梯度方向调整参数外，还额外缩小了参数的值。这种参数的“衰减”可以防止参数变得过大，降低模型的复杂度。

4. 与L1正则化的区别

L2正则化（也称为权重衰减）和L1正则化都是防止过拟合的有效方法，但它们有以下区别：

惩罚形式不同：

L2正则化惩罚参数的平方和：
L1正则化惩罚参数的绝对值和：

参数稀疏性：

L2正则化会使参数趋向于零，但不等于零。
L1正则化可以使一些参数恰好等于零，实现特征选择的效果。

优化难度：

L2正则化的损失函数是可导的，优化相对简单。
L1正则化的损失函数在参数为零的点不可导，优化相对复杂。

通过在损失函数中添加参数平方和的惩罚项，L2正则化有效地限制了模型参数的大小，防止模型过拟合。在具体实现中，需要注意以下几点：

损失函数的修改：添加项。
偏置项的处理：通常不对偏置项进行正则化。
梯度的计算：在原梯度的基础上，加上项。
正则化参数的选择：需要通过验证集等方法进行调节。

通过详细的数学推导和对重要细节的解释，我们更深入地理解了L2正则化的原理和在模型训练中的作用。

L2正则化的作用和使用场合

防止过拟合: L2正则化通过惩罚参数的大小，防止模型依赖某些特征过重，从而减少过拟合的风险。
提升模型的泛化能力: 正则化后的模型在未见过的数据上通常表现更好，因为它学到的函数更简单，更能概括数据的本质。
数值稳定性: L2正则化可以提高算法的数值稳定性，防止参数值过大导致的计算问题。

使用场合

线性回归和逻辑回归：在这些模型中，L2正则化常用于防止过拟合。
神经网络：在深度学习中，L2正则化被称为权重衰减，用于简化模型。
高维数据集：当特征数量远大于样本数量时，L2正则化能有效防止模型过于复杂。

文献信息

：5

点击“原文链接”，查看论文

声明：本公众号分享的前沿学术成果来源于各学术网站，不依法享有其所有权。若原作者发现本次分享中的文字及图片涉及侵权，请立刻联系公众号后台或发送邮件，我们将及时修改或删除！

邮箱：environmodel@sina.com

若您认为有用，欢迎
将Environmodel设为星标，或
点击“在看”或“分享”给他人

http://mp.weixin.qq.com/s?__biz=MzkzMzYzNDYyOQ==&mid=2247490484&idx=1&sn=92b64f36aec3de53bcb9ea45da3c090b

Environmodel（环境模型）专注于环境科学与工程领域的建模及模型研究进展，并分享涵盖机器学习、深度学习以及人工智能等相关领域的理论知识、主流工具和Python编程技巧。

最新文章

科研绘图教程 06 | 有代码！学会rcParams让你的底蕴更加深厚！

ES&T观点文章 | 环境机器学习、基线报告和综合评估：EMBRACE清单

资讯分享 | 2024年度博后基金第76批面上资助拟资助人员名单和简单统计分析

ES&T | 微生物群落预测微生物燃料电池的功能稳定性

深度学习入门到放弃系列教程 06 | 深入浅出的理解L2正则化的数学原理与应用

Nat. Water | 人工智能在水系统中的回报、风险与如何负责任地部署

科研绘图教程 05 | 有代码！默念Catppuccin口诀，手里的Matplotlib竟变得更加光鲜亮丽！

ES&T water | 增强对污水处理厂出水预测的洞察力：基于 SHAP 的全面深度学习模型解释

模型漫谈 05 | 双向RNN模型: 不仅从历史中学习，还可以从未来学习

通过机理模型和机器学习预测全尺寸活性污泥系统中的 N2O排放量：通用模型结构开发

深度学习入门到放弃系列教程 05 | 解析Softmax函数的原理与应用

WR | 从数据中心的角度推进基于深度学习的声学泄漏检测方法在供水系统中的应用

科研绘图教程4 | 有代码！功法多不压身，绘制线条的7种实用方法！

WR | 使用基于深度学习的图注意多元时间序列预测模型来确定混凝剂剂量

模型漫谈 | transformer模型: 每一个成功的大模型的背后都有一位美丽的transformer

基于模型识别全尺寸活性污泥系统中主要的N2O排放途径

深度学习从入门到放弃 | 深入理解链式法则：数学原理与在高效误差反向传播中的应用

确定单原子M–N–C催化剂上过硫酸盐活化的关键因素：密度泛函理论与机器学习相结合的研究

每日一词 | 成对排序（Pairwise Ranking）

科研绘图教程3 | 有代码！绘制一张优雅的散点图竟然使我突破了练气第三层！

ES&T | 瞬态光和氮条件下微藻生长和脂质产生的动态建模

模型漫谈 | 模糊C-均值聚类算法以及环境污染源模糊分类伪案例研究

J. Clean. Prod. | 基于新型多目标蚁狮优化和深度学习算法的污水处理过程动态优化

每日一词 | 蚁狮优化算法

深度学习从入门到放弃 | 有代码！今天就掌握深度学习超人气组件 —— 残差块（Residual Block）

CEJ | 基于数据驱动的深度学习模型检测具有时滞特点的污水处理厂进水水质指标

python科研绘图教程2:从熟悉cbook模块和Matplotlib示例数据集开始练气第一层

WR | 强化脱氮除磷（EBPR）活性污泥在不同碳源和电子受体下的N2O产生过程模拟

模型漫谈：时间序列分析中常用的四种自回归模型

WR | 利用基于边的图神经网络构建可迁移的供水系统元模型

深度学习从入门到放弃：时间序列分析中的自相关函数（ACF）和（PACF）

转载自UQ水中心|昆士兰大学郭建华教授、香港理工大学刘涛助理教授Nature Water综述：通过氮循环微生物实现可持续污水管理

Nat. Water综述（普林斯顿任智勇教授团队）| 污水处理行业的碳净零排放的定义和实现

WR | 使用深度学习模型对微塑料和天然有机物混合物自动分类

python科研绘图教程 1| 恭喜宿主获得了matplotlib的炼气期功法

诺贝尔化学奖颁发给蛋白质结构预测专家又一次说明了AI不仅是顶流，还将是主流

Nat. Water | 综述：水质预测中的深度学习

模型漫谈：获得2024年诺贝尔物理学奖的AI教父和他的人工神经网络

模型漫谈：图神经网络（GNN）是什么样的存在

ES&T | 整合了首要原则模型和深度学习模型的污水处理厂氧化亚氮排放建模方法

深度学习从入门到放弃：从掌握梯度的概念开始，征服深度学习

周一到周六更新内容，周末只happy

Nature Water | 全球高分辨率总水储量异常：使用深度学习算法的自监督数据同化

Python从入门到放弃必看：用PyCharm新建Python文件其实一点不简单，好吗!

基于拥挤距离的动态多目标粒子群优化实现污水处理过程的最优控制

深度学习入门教程：国庆花半个小时在windows平台上搭建起深度学习环境！

喜迎盛世华诞，用CHATGPT生成的庆典海报点亮你的国庆

一种改善污水处理厂实时出水质量预测的混合深度学习方法

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉