【深度学习】5种神经网络常见的求导！

教育 2024-11-14 09:16 北京

Hi，我是Johngo~

本文总结了神经网络当中常见的5中求导，并附有详细的公式过程。

derivative of softmax

1.1 derivative of softmax

一般来说，分类模型的最后一层都是softmax层，假设我们有一个

3

分类问题，那对应的softmax层结构如下图所示（一般认为输出的结果

y_i

即为输入

x

属于第i类的概率）：

假设给定训练集

\{ (x_1, c_1), \dots, (x_m, c_m) \}

，分类模型的目标是最大化对数似然函数

L(\theta)

，即

通常来说，我们采取的优化方法都是gradient based的（e.g., SGD），也就是说，需要求解

\frac{\partial L(\theta)}{\partial \theta}

。而我们只要求得

\frac{\partial L(\theta)}{\partial z_i}

，之后根据链式法则，就可以求得

\frac{\partial L(\theta)}{\partial \theta}

，因此我们的核心在于求解

\frac{\partial L(\theta)}{\partial z_i}

，即

由上式可知，我们只需要知道各个样本

j

的

\frac{\partial}{\partial z_i} \ln P(c_j \vert x_j ; \theta)

，即可通过求和求得

\frac{\partial L(\theta)}{\partial z_i}

，进而通过链式法则求得

\frac{\partial L(\theta)}{\partial \theta}

。因此下面省略样本下标j，仅讨论某个样本

(x, c)

。

实际上对于如何表示

x

属于第几个类，有两种比较直观的方法：

一种是直接法（i.e., 用 $c=3$ 来表示x属于第3类），则 $P(c \vert x ; \theta)=\prod_n {y_n}^{\mathbb{1}(c=n)}$ ，其中 $\mathbb{1}(\bullet)$ 为指示函数；
另一种是one-hot法（i.e., 用 $c= [0 \quad 0 \quad 1]^T$ 来表示x属于第三类），则 $P(c \vert x ; \theta)=\prod_n {y_n}^{c_n}$ ，其中 $c_n$ 为向量 $c$ 的第 $n$ 个元素。
p.s., 也可以将one-hot法理解为直接法的实现形式，因为one-hot向量实际上就是 $\mathbb{1}(c=n)$ 。

为了方便，本文采用one-hot法。于是，我们有：

\begin{aligned} \frac{\partial}{\partial z_i} \ln P(c \vert x ; \theta) &= \frac{\partial}{\partial z_i} \ln \prod_n {y_n}^{c_n} \\ &= \frac{\partial}{\partial z_i} \sum_n \ln {y_n}^{c_n} \\ &= \frac{\partial}{\partial z_i} \sum_n {c_n} \ln \frac{e^{z_n}}{\sum_j e^{z_j}} \\ &= \sum_n {c_n} \frac{\partial}{\partial z_i} (\ln {e^{z_n}} - \ln{\sum_j e^{z_j}}) \\ &= \sum_n {c_n} \frac{\partial}{\partial z_i} ({z_n} - \ln{\sum_j e^{z_j}}) \\ &= \sum_n {c_n} (\frac{\partial z_n}{\partial z_i} - \frac{\partial}{\partial z_i} \ln{\sum_j e^{z_j}}) \\ &= \sum_n {c_n} (\frac{\partial z_n}{\partial z_i} - \frac{e^{z_i}}{\sum_j e^{z_j}} ) \\ &= \sum_n {c_n} (\frac{\partial z_n}{\partial z_i} - y_i ) \\ &= \sum_n {c_n} \frac{\partial z_n}{\partial z_i} - \sum_n {c_n} y_i \\ &= c_i - y_i . \\ \end{aligned}

1.2 softmax & sigmoid

再补充一下softmax与sigmoid的联系。当分类问题是二分类的时候，我们一般使用sigmoid function作为输出层，表示输入

x

属于第1类的概率，即

P(1 \vert x ; \theta) = \frac{1}{1+e^{-z}}.

然后利用概率和为1来求解

x

属于第2类的概率，即

P(2 \vert x ; \theta) = 1 - P(1 \vert x ; \theta).

乍一看会觉得用sigmoid做二分类跟用softmax做二分类不一样：

在用softmax时，output的维数跟类的数量一致，而用sigmoid时，output的维数比类的数量少；
在用softmax时，各类的概率表达式跟sigmoid中的表达式不相同。

但实际上，用sigmoid做二分类跟用softmax做二分类是等价的。我们可以让sigmoid的output维数跟类的数量一致，并且在形式上逼近softmax。

通过上述变化，sigmoid跟softmax已经很相似了，只不过sigmoid的input的第二个元素恒等于0（i.e., intput为

[z \quad 0]^T

），而softmax的input为

[z_1 \quad z_2]^T

，下面就来说明这两者存在一个mapping的关系（i.e., 每一个

[z_1 \quad z_2]^T

都可以找到一个对应的

[z \quad 0]^T

来表示相同的softmax结果。不过值得注意的是，反过来并不成立，也就是说并不是每个

[z \quad 0]^T

仅仅对应一个

[z_1 \quad z_2]^T

）。

\begin{aligned} P(1 \vert x ; \theta) &= \frac{e^{z_1}}{e^{z_1}+e^{z_2}} \\ &= \frac{e^{z_1-z_2}}{e^{z_1-z_2}+e^{z_2-z_2}} \\ &= \frac{e^{z}}{e^{z}+e^{0}}. \\ \end{aligned}

因此，用sigmoid做二分类跟用softmax做二分类是等价的。

02 backpropagation

一般来说，在train一个神经网络时（i.e., 更新网络的参数），我们都需要loss function对各参数的gradient，backpropagation就是求解gradient的一种方法。

假设我们有一个如上图所示的神经网络，我们想求损失函数

C

对

w_1

的gradient，那么根据链式法则，我们有

\frac{\partial C}{\partial w_1} = \frac{\partial C}{\partial z}\frac{\partial z}{\partial w_1}.

而我们可以很容易得到上述式子右边的第二项，因为

z = x_1 w_1 + x_2 w_2 +b

，所以有

\frac{\partial z}{\partial w_1} = x_1,

其中，

x_1

是上层的输出。

而对于式子右边的的第一项，可以进一步拆分得到

\frac{\partial C}{\partial z} = \frac{\partial C}{\partial a}\frac{\partial a}{\partial z}.

我们很容易得到上式右边第二项，因为

a=\sigma(z)

，而激活函数

\sigma

（e.g., sigmoid function）是我们自己定义的，所以有

\frac{\partial a}{\partial z} = \sigma^\prime(z)，

其中，

z

是本层的线性输出（未经激活函数）。

观察上图，我们根据链式法则可以得到

\frac{\partial C}{\partial a} = \frac{\partial C}{\partial z^\prime}\frac{\partial z^\prime}{\partial a} + \frac{\partial C}{\partial z^{\prime\prime}}\frac{\partial z^{\prime\prime}}{\partial a}.

其中，根据

z^\prime = aw_3 + \dots

可知

\begin{aligned} \frac{\partial z^\prime}{\partial a} &= w_3 \\ \frac{\partial z^{\prime\prime}}{\partial a} &= w_4. \end{aligned}

w_3

和

w_4

的值是已知的，因此，我们离目标

\frac{\partial C}{\partial a}

仅差

\frac{\partial C}{\partial z^\prime}

和

\frac{\partial C}{\partial z^{\prime\prime}}

了。接下来我们采用动态规划（或者说递归）的思路，假设下一层的

\frac{\partial C}{\partial z^\prime}

和

\frac{\partial C}{\partial z^{\prime\prime}}

是已知的，那么我们只需要最后一层的graident，就可以求得各层的gradient了。而通过softmax的例子，我们知道最后一层的gradient确实可求，因此只要从最后一层开始，逐层向前，即可求得各层gradient。

因此我们求

\frac{\partial C}{\partial z}

的过程实际上对应下图所示的神经网络（原神经网络的反向神经网络）：

综上，我们先通过神经网络的正向计算，得到

x_1

以及

z

，进而求得

\frac{\partial z}{\partial w_1}

和

\frac{\partial a}{\partial z}

；然后通过神经网络的反向计算，得到

\frac{\partial C}{\partial z^\prime}

和

\frac{\partial C}{\partial z^{\prime\prime}}

，进而求得

\frac{\partial C}{\partial a}

；然后根据链式法则求得

\frac{\partial C}{\partial w_1}

。这整个过程就叫做backpropagation，其中正向计算的过程叫做forward pass，反向计算的过程叫做backward pass。

03 derivative of CNN

卷积层实际上是特殊的全连接层，只不过：

神经元中的某些

w

为

0

；

神经元之间共享

w

。

具体来说，如下图所示，没有连线的表示对应的w为0：

如下图所示，相同颜色的代表相同的

w

：

因此，我们可以把loss function理解为

C(z_1, z_2, \dots)

，然后求导的时候，根据链式法则，将相同w的gradient加起来就好了，即

\frac{\partial C}{\partial w} = \sum_i \frac{\partial C}{\partial z_i}\frac{\partial z_i}{\partial w}.

在求各个

\frac{\partial C}{\partial z_i}\frac{\partial z_i}{\partial w}

时，可以把他们看成是相互独立的

w

，那这样就跟普通的全连接层一样了，因此也就可以用backpropagation来求。

04 derivative of RNN

RNN按照时序展开之后如下图所示（红线表示了求gradient的路线）：

跟处理卷积层的思路一样，首先将loss function理解为

L(s_0, s_1, \dots)

，然后把各个w看成相互独立，最后根据链式法则求得对应的gradient，即

\frac{\partial L}{\partial w} = \sum_i\frac{\partial L}{\partial s_i}\frac{\partial s_i}{\partial w}.

由于这里是将RNN按照时序展开成为一个神经网络，所以这种求gradient的方法叫Backpropagation Through Time(BPTT)。

05 derivative of max pooling

一般来说，函数

max(x, y, \dots)

是不可导的，但假如我们已经知道哪个自变量会是最大值，那么该函数就是可导的（e.g., 假如知道y是最大的，那对y的偏导为1，对其他自变量的偏导为0）。

而在train一个神经网络的时候，我们会先进行forward pass，之后再进行backward pass，因此我们在对max pooling求导的时候，已经知道哪个自变量是最大的，于是也就能够给出对应的gradient了。

references：

http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17_2.html

http://www.wildml.com/2015/10/recurrent-neural-networks-tutorial-part-3-backpropagation-through-time-and-vanishing-gradients/

作者丨Criss 来源丨机器学习与生成对抗网络
声明 | 部分内容来源网络，仅供读者学习交流。文章版权归原作者所有。如有不妥，请联系删除。

http://mp.weixin.qq.com/s?__biz=Mzg4MjY2NTMyOA==&mid=2247515568&idx=2&sn=1df0b6f94cb9232a2ae22a8042df8a78

Johngo学长

机器学习算法和大数据重度研究者！持续产出机器学习、大数据、Python、LeetCode干货～

最新文章

留学求职的无敌Buff，Kaggle竞赛到底有多厉害？

AI 起薪已超80w。。。

薅优惠GPU算力机会来了！

目标检测的未来是什么？

NeurIPS 2024 | 免训练！VL-SAM：开放式目标检测和实例分割

首次明确！国务院: 博士学位论文，不再非写不可

手撕自动驾驶算法—无迹卡尔曼滤波

小米大模型，微调、部署与最佳实践！！

【深度学习】5种神经网络常见的求导！

收藏 | 机器学习特征选择方法总结

魔改LSTM！性能直逼Transformer和Mamba！！

面试小米，惨不忍睹。。。

Jupyter Notebook的10个常用扩展介绍

机器学习 4 个超参数搜索方法、代码

美团40k，高校8k，怎么选择。。

强烈推荐一个“可捞偏门但不违法”的副业（50K+）

大厂学习、面试真题解读

总包70w+，真的很强！！

发一篇顶会真不难！！！

通俗解释机器学习中的召回率、精确率、准确率

1885页学习资料。一本在手，python不愁！

60 个神级 VS Code 插件：本文将会以优化外观，功能扩展，提升编码效率，代码格式化，其它插件分类来进行介绍。

突破100个强大算法模型！！

IT 巨头或裁员近 6000 人，每人最高赔偿 223 万

期望3w，给你2w，接受吗？

入职美团一周，那叫一个爽！

离谱！裁员裁出新高度了。。

深入剖析PyPy，解锁Python比C还快的秘诀

我们还需要Transformer中的注意力吗？

我985毕业10年，年薪200万；室友成常委副市长。。。

15 个目标检测开源数据集汇总

SCNet：利用全 1X1 卷积实现轻量图像超分辨率

浙大高飞老师：读博士有多苦？

我们真的需要把训练集的损失降到零吗？

导师放养，自己一人发顶会！！

开源大模型书来了！449页pdf！

我导师啥时候得诺奖！Hinton致谢自己的研究生：“活都是他们干的”！

突破100个强大算法模型！！

终于理解线性代数，矩阵与图竟然存在等价关系

又一院士被“除名”！院士终生制，没了？

突破100个强大算法模型！！

为什么我们的研究生提不出问题？

图解深度神经网络的架构

字节70K算法岗，211本无痛拿下！！

如何用 1024 张显卡训练一个模型。。

节后开工接私活，赚爆！！

中国最“孤独”的985高校！校长曾正面回应人才流失严重等问题。。

大模型就看这篇就够了！！

米哈游算法岗，脑子被榨干。。

Geoffrey Hinton：我怎么能确定这不是一个恶作剧电话呢？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉