深度学习从入门到放弃：从掌握梯度的概念开始，征服深度学习

文摘 2024-10-05 17:00 新加坡

点击订阅公众号 | 前沿学术成果每日更新

文章大纲

从现实中的例子理解什么是梯度
梯度的数学定义
为什么梯度是深度学习优化的最基础概念
在python中实现梯度求导的简单案例
结合示例深度学习中的梯度求导的一般过程

从现实中的例子理解什么是梯度

想象你在一座被浓雾笼罩的山上，想找到山谷的最低点。但由于能见度低，你无法看到全貌，只能感觉到脚下的坡度。这种坡度感告诉你哪个方向是向下的，哪边更陡峭。这个“坡度”就是梯度的直观表现，它指示了函数在当前点变化最快的方向和速率。此时，真想吟诗一首：

雾锁高山觅谷深，

脚踏迷途辨缓峻。

坡度指引下山路，

梯度犹似暗中灯。

梯度的数学定义

梯度的严格的数学定义

在多元微积分中，梯度（Gradient）是标量函数在某一点的方向导数取得最大值的方向。具体来说，对于一个实值的可微函数，其梯度是由函数对各个变量的偏导数组成的向量：

为什么梯度向量指向函数增长最快的方向？

首先，我们需要引入方向导数的概念。方向导数描述了函数在某个特定方向上的变化率。对于单位向量，函数在点沿方向的方向导数定义为：

其中，是与之间的夹角，表示向量的模。

从上式可以看出，方向导数的值取决于。当时，取得最大值1，此时方向导数也达到最大值，即：

这意味着，函数在点沿着梯度方向，具有最大的增长率。

为什么梯度是深度学习优化的最基础概念

梯度在深度学习中扮演着核心角色，几乎贯穿了整个模型训练和优化的过程。要理解梯度为何如此重要，需要从深度学习模型的构建、训练以及优化方法等多个角度来探讨。

1. 深度学习的目标：最小化损失函数

深度学习的核心目标是通过调整模型参数，使得模型在给定数据集上的损失函数达到最小值。损失函数（Loss Function）衡量了模型预测输出与真实标签之间的差距，是一个关于模型参数的多元函数。优化损失函数的过程本质上是一个在高维参数空间中寻找全局或局部最小值的问题。

2. 梯度提供了最陡下降的方向

在高维参数空间中，直接找到损失函数的最小值是极其困难的。然而，梯度为我们提供了一条捷径。梯度向量指示了损失函数在当前参数点处增长最快的方向。根据梯度的性质，沿着梯度的反方向，即是函数下降最快的路径。因此，梯度为我们提供了在参数空间中如何调整参数以最快速地降低损失函数值的指导。

3. 梯度下降法是深度学习的基础优化算法

梯度下降法（Gradient Descent）利用了梯度信息，通过迭代更新模型参数，使得每一步都朝着损失函数减小的方向前进。其基本更新公式为：

其中，表示模型参数，是学习率，是损失函数，是损失函数对参数的梯度。

4. 反向传播算法依赖梯度计算

反向传播（Backpropagation）是训练神经网络的关键算法，用于高效地计算损失函数对每个参数的梯度。通过链式法则，反向传播将输出层的误差逐层传递回前面的网络层，计算出每个参数对损失的影响。这个过程的核心就是梯度的计算和传递，没有梯度，反向传播无法进行。

在python中实现梯度求导的简单案例

一元线性回归

下面示例展示了普通线性一元回归的梯度求导以及反向误差传播，并动态可视化其结果：

import numpy as np
import matplotlib.pyplot as plt
from matplotlib.animation import FuncAnimation

# 生成数据集
np.random.seed(0)
X = np.linspace(0, 10, 50)
y = 2 * X + 1 + np.random.randn(50) * 4  # 增加噪声强度

# 参数初始化
w, b = -10.0, -10.0  # 将初始参数设置为远离最优值
lr = 0.02  # 学习率
epochs = 300  # 训练次数

# 存储参数和损失以便绘图
ws, bs = [], []
losses = []

# 创建图形
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(14, 6))
scatter = ax1.scatter(X, y, color='blue', label='data scatter')
line, = ax1.plot([], [], 'r-', linewidth=2, label='fitted curve')
text_loss = ax1.text(0.05, 0.85, '', transform=ax1.transAxes, fontsize=12, verticalalignment='top')
ax1.set_xlabel('X')
ax1.set_ylabel('y')
ax1.set_title('simple Linear Regression')
ax1.legend()

ax2.set_xlim(0, epochs)
ax2.set_ylim(0, max((y - y.mean()) ** 2) * 1.2)
loss_line, = ax2.plot([], [], 'b-')
ax2.set_xlabel('epoch')
ax2.set_ylabel('loss')
ax2.set_title('loss curve')


def animate(i):
    global w, b
    y_pred = w * X + b
    loss = ((y_pred - y) ** 2).mean()

    # 计算梯度
    grad_w = 2 * ((y_pred - y) * X).mean()
    grad_b = 2 * (y_pred - y).mean()

    # 更新参数
    w -= lr * grad_w
    b -= lr * grad_b

    # 记录参数和损失
    ws.append(w)
    bs.append(b)
    losses.append(loss)

    # 更新拟合直线
    line.set_data(X, w * X + b)

    # 更新损失曲线
    loss_line.set_data(range(len(losses)), losses)

    # 更新损失文本
    text_loss.set_text(f'epoch: {i + 1}\ncurrent loss: {loss:.2f}')

    return line, loss_line, text_loss


# 初始化函数
def init():
    line.set_data([], [])
    loss_line.set_data([], [])
    text_loss.set_text('')
    return line, loss_line, text_loss


# 创建动画
ani = FuncAnimation(fig, animate, frames=epochs, init_func=init, interval=100, blit=True)
# 保存动画为 GIF 文件
ani.save('linear_regression_animation.gif', writer='pillow', fps=30)
plt.tight_layout()
plt.show()

linear_regression_animation

多元线性回归

import numpy as np
import matplotlib.pyplot as plt

# 1. 生成数据集
np.random.seed(42)  # 设置随机种子以保证结果可重复

# 样本数量和特征数量
n_samples = 100
n_features = 5

# 生成随机特征矩阵 X，形状为 (100, 5)
X = np.random.randn(n_samples, n_features)

# 真实的权重和偏置，用于生成目标值 y
true_w = np.array([2, -3, 4, 1, -2])
true_b = 5

# 生成目标值 y，并添加一些噪声
y = X.dot(true_w) + true_b + np.random.randn(n_samples) * 0.5  # 噪声的标准差为 0.5

# 2. 参数初始化
w = np.zeros(n_features)  # 初始化权重为零向量
b = 0.0  # 初始化偏置为 0
lr = 0.01  # 学习率
epochs = 300  # 训练轮数

# 存储损失值以便绘图
losses = []

# 3. 训练过程
for epoch in range(epochs):
    # 前向传播：计算预测值
    y_pred = X.dot(w) + b

    # 计算损失（均方误差）
    loss = ((y_pred - y) ** 2).mean()
    losses.append(loss)

    # 计算梯度
    grad_w = 2 * X.T.dot(y_pred - y) / n_samples
    grad_b = 2 * (y_pred - y).mean()

    # 参数更新
    w -= lr * grad_w
    b -= lr * grad_b

    # 可选：每隔一定迭代次数打印一次损失值
    if (epoch + 1) % 50 == 0:
        print(f"Epoch {epoch + 1}/{epochs}, Loss: {loss:.4f}")

# 4. 绘制损失曲线
plt.figure(figsize=(8, 6))
plt.plot(range(1, epochs + 1), losses, label='train loss')
plt.xlabel('epoch')
plt.ylabel('loss')
plt.title('multiple linear regression loss')
plt.legend()
plt.grid(True)
plt.show()

# 5. 打印最终的参数值
print("训练结束后的参数值：")
print(f"w: {w}")
print(f"b: {b}")

# 6. 比较真实参数和模型学习到的参数
print("\n真实的参数值：")
print(f"true_w: {true_w}")
print(f"true_b: {true_b}")

程序输出：

Epoch 50/300, Loss: 9.0096
Epoch 100/300, Loss: 1.7507
Epoch 150/300, Loss: 0.4893
Epoch 200/300, Loss: 0.2570
Epoch 250/300, Loss: 0.2122
Epoch 300/300, Loss: 0.2032
训练结束后的参数值：
w: [ 2.0363504  -2.90204453  3.95529038  1.08716601 -2.00416486]
b: 4.896948074085842
真实的参数值：
true_w: [ 2 -3  4  1 -2]
true_b: 5

以及loss的下降曲线图：

结合示例深度学习中的梯度求导的一般过程

数学原理推导

1. 问题背景

在上面的多元线性回归案例中，我们的目标是找到最优的参数和，使得模型预测值与真实值之间的均方误差（Mean Squared Error, MSE）最小化。

模型表示：

：形状为的数据矩阵，为样本数，为特征数。
：形状为的权重向量。
：偏置项，标量。

损失函数（MSE）：

2. 计算梯度

我们需要计算损失函数对参数和的梯度，即和。

2.1. 对的梯度

步骤1：展开损失函数

其中，是第个样本的特征向量。

步骤2：对求偏导

对求梯度：

由于求和和求导可以交换：

步骤3：计算单个项的偏导

对每个，应用链式法则：

注意到，因此：

步骤4：合并梯度表达式

将所有样本的梯度相加：

将上述求和形式转换为矩阵形式。定义误差向量：

将样本特征矩阵的转置与误差向量相乘：

2.2. 对的梯度

步骤1：对求偏导

步骤2：计算单个项的偏导

由于，因此：

步骤3：合并梯度表达式

对应到代码中的梯度计算

在代码中：

grad_w = 2 * X.T.dot(y_pred - y) / len(y)
grad_b = 2 * (y_pred - y).mean()

X.T.dot(y_pred - y)对应于。
len(y)是样本数量。
(y_pred - y).mean()对应于误差的平均值。

对比数学推导和代码如下：

**对于**：
数学上：
代码中：
```
grad_w = 2 * X.T.dot(y_pred - y) / len(y)
```
二者完全一致。
**对于**：
数学上：
代码中：
```
grad_b = 2 * (y_pred - y).mean()
```
也完全一致。

声明：本公众号分享的前沿学术成果来源于各学术网站，不依法享有其所有权。若原作者发现本次分享中的文字及图片涉及侵权，请立刻联系公众号后台或发送邮件，我们将及时修改或删除！

邮箱：environmodel@sina.com

若您认为有用，欢迎
将Environmodel设为星标，或
点击“在看”或“分享”给他人

http://mp.weixin.qq.com/s?__biz=MzkzMzYzNDYyOQ==&mid=2247487790&idx=1&sn=cb1672eb0d996370ade4457ef8de924c

Environmodel

Environmodel（环境模型）专注于环境科学与工程领域的建模及模型研究进展，并分享涵盖机器学习、深度学习以及人工智能等相关领域的理论知识、主流工具和Python编程技巧。

最新文章

科研绘图教程 06 | 有代码！学会rcParams让你的底蕴更加深厚！

ES&T观点文章 | 环境机器学习、基线报告和综合评估：EMBRACE清单

资讯分享 | 2024年度博后基金第76批面上资助拟资助人员名单和简单统计分析

ES&T | 微生物群落预测微生物燃料电池的功能稳定性

深度学习入门到放弃系列教程 06 | 深入浅出的理解L2正则化的数学原理与应用

Nat. Water | 人工智能在水系统中的回报、风险与如何负责任地部署

科研绘图教程 05 | 有代码！默念Catppuccin口诀，手里的Matplotlib竟变得更加光鲜亮丽！

ES&T water | 增强对污水处理厂出水预测的洞察力：基于 SHAP 的全面深度学习模型解释

模型漫谈 05 | 双向RNN模型: 不仅从历史中学习，还可以从未来学习

通过机理模型和机器学习预测全尺寸活性污泥系统中的 N2O排放量：通用模型结构开发

深度学习入门到放弃系列教程 05 | 解析Softmax函数的原理与应用

WR | 从数据中心的角度推进基于深度学习的声学泄漏检测方法在供水系统中的应用

科研绘图教程4 | 有代码！功法多不压身，绘制线条的7种实用方法！

WR | 使用基于深度学习的图注意多元时间序列预测模型来确定混凝剂剂量

模型漫谈 | transformer模型: 每一个成功的大模型的背后都有一位美丽的transformer

基于模型识别全尺寸活性污泥系统中主要的N2O排放途径

深度学习从入门到放弃 | 深入理解链式法则：数学原理与在高效误差反向传播中的应用

确定单原子M–N–C催化剂上过硫酸盐活化的关键因素：密度泛函理论与机器学习相结合的研究

每日一词 | 成对排序（Pairwise Ranking）

科研绘图教程3 | 有代码！绘制一张优雅的散点图竟然使我突破了练气第三层！

ES&T | 瞬态光和氮条件下微藻生长和脂质产生的动态建模

模型漫谈 | 模糊C-均值聚类算法以及环境污染源模糊分类伪案例研究

J. Clean. Prod. | 基于新型多目标蚁狮优化和深度学习算法的污水处理过程动态优化

每日一词 | 蚁狮优化算法

深度学习从入门到放弃 | 有代码！今天就掌握深度学习超人气组件 —— 残差块（Residual Block）

CEJ | 基于数据驱动的深度学习模型检测具有时滞特点的污水处理厂进水水质指标

python科研绘图教程2:从熟悉cbook模块和Matplotlib示例数据集开始练气第一层

WR | 强化脱氮除磷（EBPR）活性污泥在不同碳源和电子受体下的N2O产生过程模拟

模型漫谈：时间序列分析中常用的四种自回归模型

WR | 利用基于边的图神经网络构建可迁移的供水系统元模型

深度学习从入门到放弃：时间序列分析中的自相关函数（ACF）和（PACF）

转载自UQ水中心|昆士兰大学郭建华教授、香港理工大学刘涛助理教授Nature Water综述：通过氮循环微生物实现可持续污水管理

Nat. Water综述（普林斯顿任智勇教授团队）| 污水处理行业的碳净零排放的定义和实现

WR | 使用深度学习模型对微塑料和天然有机物混合物自动分类

python科研绘图教程 1| 恭喜宿主获得了matplotlib的炼气期功法

诺贝尔化学奖颁发给蛋白质结构预测专家又一次说明了AI不仅是顶流，还将是主流

Nat. Water | 综述：水质预测中的深度学习

模型漫谈：获得2024年诺贝尔物理学奖的AI教父和他的人工神经网络

模型漫谈：图神经网络（GNN）是什么样的存在

ES&T | 整合了首要原则模型和深度学习模型的污水处理厂氧化亚氮排放建模方法

深度学习从入门到放弃：从掌握梯度的概念开始，征服深度学习

周一到周六更新内容，周末只happy

Nature Water | 全球高分辨率总水储量异常：使用深度学习算法的自监督数据同化

Python从入门到放弃必看：用PyCharm新建Python文件其实一点不简单，好吗!

基于拥挤距离的动态多目标粒子群优化实现污水处理过程的最优控制

深度学习入门教程：国庆花半个小时在windows平台上搭建起深度学习环境！

喜迎盛世华诞，用CHATGPT生成的庆典海报点亮你的国庆

一种改善污水处理厂实时出水质量预测的混合深度学习方法

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉