深度学习从入门到放弃 | 深入理解链式法则:数学原理与在高效误差反向传播中的应用

文摘   2024-10-29 10:10   新加坡  
点击订阅公众号 | 前沿学术成果每日更新               

目录:

  • 引言

  • 链式法则的基本概念

  • 链式法则的数学表达式

  • 链式法则的推导

  • 神经网络中反向传播(雅可比矩阵和链式法则)

    • 什么是雅可比矩阵

    • 多元复合函数的链式法则一般形式

    • 在神经网络中的应用

引言

在微积分中,链式法则(Chain Rule)是一个极其重要的工具,用于求复合函数的导数。它在数学、物理和工程等领域都有广泛的应用。本文将详细介绍链式法则的数学原理和表达式,帮助您深入理解这一重要概念。

链式法则的基本概念

假设有两个可导函数:

的复合函数,即。我们的目标是求关于的导数,记为

链式法则的数学表达式

链式法则指出,复合函数的导数等于外函数对内函数的导数乘以内函数对自变量的导数。数学表达式为:

或者用函数的导数表示:

其中:

  • ,是关于的导数。
  • ,是关于的导数。

链式法则的推导

为了更深入地理解链式法则,我们可以从导数的定义出发。

根据导数的定义:

由于,令,则有:

因此:

取极限:

神经网络中反向传播(雅可比矩阵和链式法则)

什么是雅可比矩阵

关于函数:

img

而容易知f1、f2 和 f3 关于 x1、x2 的导数为:

img

如果我们以特定方式排列这些导数,那么我们就得到了雅可比矩阵。

img

上面的雅可比矩阵是使用 f1、f2、f3 和变量 x1、x2 创建的。但是,一般神经网络中的f 函数和 x 变量的数量可能要高得多。

多元复合函数的链式法则一般形式

img

说人话就是我们有两个函数:。函数 是一个从 的复合函数。

在这个背景下,复合函数的偏导数通过链式法则可以表示为:

其中 是函数 对函数 的输出进行求导,而 是函数 对其输入 进行求导。

跟简单的链式法则是一致的,对不对?

在数学表达上,要注意直接交换这两个偏导数的顺序(乘积中的因子顺序)是不正确的。因为矩阵(或偏导数)乘积通常不满足交换律,所以交换这些导数的顺序可能会导致错误的结果:

让我们举个例子,

img

我们可以使用链式法则来解决这个问题,即

img
img

在神经网络中的应用

img

在这张图中,展示了一个典型的前馈神经网络的结构,包含两层隐藏层。在神经网络中, 表示中间计算步骤的结果

在反向传播过程中,我们通过计算损失函数对每个权重或偏差的偏导数来更新权重和偏差值。我们使用雅可比矩阵,而不是分别计算每个权重和偏差的偏导数。这种方法提高了用于训练神经网络的代码效率。

为了在反向传播过程中使用梯度下降更新权重,我们计算损失对每个相应权重的偏导数。具体来说,为了更新 W2 矩阵中的任何权重,我们找到损失对该特定权重的偏导数。

我们不需要单独计算每个梯度,而是使用雅可比矩阵同时计算损失关于 W2 矩阵中权重值的所有偏导数。

img

感谢您的阅读!您的点赞和转发十分重要!

               

               

声明:本公众号分享的前沿学术成果来源于各学术网站,不依法享有其所有权。若原作者发现本次分享中的文字及图片涉及侵权,请立刻联系公众号后台或发送邮件,我们将及时修改或删除!         

邮箱:environmodel@sina.com         

若您认为有用,欢迎

Environmodel设为星标,或

点击“在看”或“分享”给他人


Environmodel
Environmodel(环境模型)专注于环境科学与工程领域的建模及模型研究进展,并分享涵盖机器学习、深度学习以及人工智能等相关领域的理论知识、主流工具和Python编程技巧。
 最新文章