一文上千字带你通透看懂神经网络中的梯度下降和反向传播！

文摘 2024-08-05 16:47 新加坡

注：很多数学公式格式公众号不支持，便用了截图的方式展示

软件环境：

Pytorch1.10、Pycharm

基础知识：

要想训练一个网络，对于梯度的理解是必不可少的，下面首先介绍梯度的一些基础概念。

1、方向余弦与向量单位化

方向余弦是一个在向量中很常见的概念，它用来标定某一个向量的方向，说起来可能会一头雾水，不过没关系，我们使用画图来理解一下。

举个例子，如下图有一个坐标系xoy，其效果如下所示：

其中包含了一个向量，向量的坐标为：，那么上文中的向量就满足如下式子：。

上文的式子实际上就是对向量进行单位化，此时新产生的向量，实际上就是我们常说的方向向量。

方向向量实际上还可以再优化一下，我们看到图上还有两个标明的角分别是，这两者的关系就不再多说，他们呢一对互余的角度，满足的条件��是相加等于90度。

此时我们就可以将这个式子转化成这样的形式：

同理也有：

这样方向的向量的表达式，就可以写为：

实际因为角度互余上可以化为：

2、多元函数求偏导

一元函数，即有一个自变量。类似

多元函数，即有多个自变量。类似

多元函数求偏导过程中：对某一个自变量求导，其他自变量当做常量即可

例1：

例2：

例3：

练习：

在继续讲解之前，允许我夹带私货一下，这是我给深度学习神经网络新手同学整理的463种主流神经网络模型及其变体模型的论文代码仓库，像什么CNN、RNN、transformer、生成模型等等等等模型及其变体都有，论文PDF和实现代码也给大家整理好了。

需要的同学，可以直接长按扫码添加我的助手让她无偿及时发送给大家！

3、方向导数：

简单地说方向导数形容的是满足某个关系下(Y=KX+B)，对于各个方向上本关系数值变化率（Y的变化率）的量化表达式。

从二维、三维入手

在二维关系中Y=KX+B中我们不太好理解什么是方向导数，我们知道对于一个函数来说，的导数实际上是这样的：

对于函数的某一点，导数等于切线在该点的斜率，他是一个极限概念。我们不妨这样来理解这个极限的过程：

下图是某个函数，其中包含三个点如下所示：

其中A、B是函数上随机的两个点。其中A、B两点满足如下：

然后AB两点相连接，形成一个割线，割线的斜率满足如下条件：

当有如下情况的时候，就会产生切线和导数：

当B无限趋近于A的时候，即无限趋近于0的时候，割线AB就会转化为切线，如下所示：

满足的数学关系如下：

而我们知道切线的斜率就是导数的值，这是在二维的情况下。

三维度方向导数

在二维的情况我们已经很了解了，我们来推广到到三维的情况下来试一试，举个例子：

我们先来下一个定义：

一般情况下的三位函数的方向导数实际上是平面XOY上一点在三维函数的值，和其所代表的一点（x,y,f(x,y)）以向量l的方向向量为切面构成的曲线上（点(x,y)）的一条切线的值。

说起来很抽象，我们举个例子就好理解一点了：

其中三维函数圆形抛物面大致如下：

如图所示:

图看起来很很复杂不过没关系，我们依靠颜色来分辨一下：

红色包含两部分内容：分别是在xy平面的点和切面构成的曲线。

蓝色部分包含一个内容：就是函数Z。

我们来解析一下这分别什么意思，当存在一个点c从点(x,y)出发沿着方向向量变化的时候，其坐标满足如下：

这时候c点实际上就是黑色虚线在l上的点。这时候这个在向量上的变化轨迹就是一段向量，他的方向和l向量的方向向量是一样的，并且在函数上映射了一段曲线，如红色部分曲线所示，我们针对这一种曲线来考虑一种特殊情况，当满足这个条件的时候，曲线会如何变化？

没错就是上文中二维的情况：

结果是一模一样的，只不过这里的切线是对应的在曲线上的切线，我们这里就引出方向导数的定义如下：

这里再说明一下方向导数和偏导数有什么区别呢？

偏导数实际上方向导数的特例，当向量取x的正轴的时候，此时方向导数就转变为了对于x的偏导数，推导如下：

如果你仔细看就会发现实际上这里的定义就是偏导数的定义，也就说是方向导数的一种情况。

其次再说明一下，这个式子的意义在哪里：

实际上，我们用来计算方向导数的时候就是使用这个式子，这个式子就是将对应的方向向量分解为x轴和y轴的方向余弦来进行计算，也就说方向向量实际上是由x轴和y轴的方向余弦构成的。

还有就是对于用同一个点，方向向量不同所构成的方向导数大小也不同，但是这些方向导数的方向始终会在一个平面内，这个平面就是这个点的切平面！

2、梯度

梯度是方向导数的特例：

已知在某个点有方向导数存在下列关系：

在方向l上满足如下单位向量：

则方向导数可转化成如下：

点积就相当于做一个投影，方向导数和梯度之间保持一定的夹角（做点积）来构成各个方向上的方向导数。什么时候方向向量最大呢？很容易想到不存在夹角的时候就可以满足，因为此时点积最大即满足下列条件：

函数在某点的梯度是个向量，他的方向与方向导数最大值取值的方向一致，其大小正好是最大的方向导数。

梯度概念理解：如下图所示，在p点放一个热源的等温线，则热源的辐射从里到外为10°、20°、30°、40°，若一个小蚂蚁在o点，要最快逃离热源，应该往oj方向逃离，若往om方向逃离则热源的变化率为0，即一直都是20°，也就是说蚂蚁一旦确定了某个逃离方向(0°,90°）方向角逃离，只要一直沿着该方向一直走，就是最快的热源降低的方向

对于一维线性函数其导数就是梯度。

各种函数的梯度与导数的关系，更详细的解释可以参考参考文献链接：https://zhuanlan.zhihu.com/p/384175778

Tensor的梯度与反向传播

回顾机器学习

收集数据，构建机器学习模型，得到

如何判断模型的好坏？判断模型好坏的方法:

通过最终 loss 的输出，来反向传播计算梯度大小进而调整参数的大小实现最优解。

当 loss 满足如图时候

计算出来梯度以后：朝着梯度变化的方向运算，随机选择一个起始点，通过调整，让loss函数取到最小值。

w的更新方法：

计算的梯度（导数）
更新

其中：

总结：梯度就是多元函数参数的变化趋势（参数学习的方向），只有一个自变量时称为导数，拥有多个时称为偏导数。

反向传播？

计算图

为了方便描述，通过图的方式来描述函数。

对每个节点求偏导可有：

反向传播的过程就是一个上图的从右往左的过程，自变量a，b，c各自的偏导就是连线上的梯度的乘积：

为什么要算反向传播？：因为要计算梯度。

实战演示：

接下来尝试计算一个简单结构的梯度，问题描述如下：

假设我们的基础模型就是y = wx+b，其中w和b均为参数，我们使用y = 3x+0.8来构造数据x、y，所以最后通过模型应该能够得出w和b应该分别接近3和0.8。

简单的来说就是拟合出满足y = 3x+0.8这个曲线。

步骤分为四步：

# 1 构造数据
# 2 设计正向传播和反向传播函数来训练网络
# 3 训练
# 4 画图画出拟合出来的曲线

过程如下图：

从左向右是正向传播部分，从右向左是反向传播部分。

对于W和B其计算类似这里单独说B即可，对于B的梯度满足下式，值得注意的是这里的Loos求取的是平均值实际上出来的是一个标量，对于标量的梯度计算实际上也是一个平均值（这里值得思考一下）。

反向传播后对B进行梯度下降：

梯度下降以后再次进行正向传播即可，计算出来Y_p，最后计算出来Loss。

正向传播满足下式：

代码如下：

import torchimport numpy as npimport matplotlib.pyplot as plt
# 1 构造数据x_number = 50x = torch.rand([x_number, 1])y = 3 * x + 0.8rate = 0.01study_time = 3000
# 2 正向传播 和 反向传播w = torch.rand([1, 1], requires_grad=True, dtype=torch.float32)b = torch.rand(1, requires_grad=True, dtype=torch.float32)y_preidct = torch.matmul(x, w) + b

def forward_propagation():    global x, w, b, y_preidct    y_preidct = torch.matmul(x, w) + b    # 计算 loss    loss = (y - y_preidct).pow(2).mean()    return loss

def back_propagation():    global x, w, b, loss, rate, y_preidct    test = 0.0    if w.grad is not None:        w.grad.data.zero_()    if b.grad is not None:        b.grad.data.zero_()    # 反向传播    loss.backward()    w.data -= w.grad * rate    b.data -= b.grad * rate    #此处为了验证b的梯度进行计算    # for j in range(x_number):    #   test += ((y[j] -y_preidct[j].item()) * 2)     # print("b:", b.grad)    # print("b_t:", test/x_number)

# 3 训练部分for i in range(study_time):    loss = forward_propagation()    back_propagation()    if i % 10 == 0:        print("w,b,loss", w.item(), b.item(), loss.item())
# 4 画图部分predict = x * w + b  # 使用训练后的w和b计算预测值plt.scatter(x.data, y.data, c="r")plt.plot(x.data.numpy(), predict.data.numpy())plt.show()

红色的是数据集结果蓝色是训练出来的结果，当训练次数比较少的时候拟合曲线不正确：

当把学习率降低（变化范围减小），增加学习次数就可以得到很好的结果：

http://mp.weixin.qq.com/s?__biz=MzkyOTQwOTMzMg==&mid=2247490624&idx=1&sn=b3c899e8b9aa67036c65b9e50193e673

AI算法工程师Future

B站同名，日常分享人工智能领域知识及学习资源。

不能再详细了！机器学习深度学习研究生3年切实可行的规划路径思维导图，花了我半个多月的时间终于做出来了！

不想到处找教程？这本ML教程册子囊括了12种所有常用的机器学习算法！而且图文并茂、深入浅出！有着超绝的阅读体验！

真的好发论文！建议医学方向的同学看看这本【基于深度学习的医学图像数据可视化分析与处理】

目标检测必学经典模型：SSD模型的搭建、训练与测试详细教程！

想学机器学习深度学习但是没有数学基础怎么办？如何不浪费时间针对性的学，这两本书是我一直都非常推荐的！一本国内一本国外！

只想看书来掌握深度学习？那就看这三本吧！入门-进阶-实战！

找不到论文代码怎么办？给计算机视觉方向的研1新手整理的论文代码汇总文档来啦！！一半经典一半前沿！不用自己到处翻论文了！

认真写书的教授都是好老师！国内写深度学习最好的一本书！它>统计学习方法>西瓜书

初学者话题：学习机器学习需要哪些基础知识呢？今天一次性给大家说的明明白白！

初学深度学习的同学们！建议先看这册综述来对深度学习建立一个宏观且深度的了解！

学习摸不着头脑？研1小白如何正确不踩坑的快速入门图像/语义分割方向？路线图来啦！

刚进组的研1小白入门机器学习深度学习需要多久时间？这篇文章绝对带你彻底搞明白！

AI在金融领域发挥重大作用！安利给金融生和金融从业者的金融人工智能书！写的真的太棒了！

纯小白在搞医疗AI方向，怎么快速入门啊？非常细致的给你讲清楚针对性的最佳学习路径！

小白怎么从零快速发表/水一篇深度学习论文啊？？有没有好的学习路径？

刚读研，深度学习直接上花书吗？要先学机器学习吗？感觉要学的东西好多啊不知道怎么去学，有没有学习路线啊？？？

整理到鼠标都快点烂了！应该是全网机器学习深度学习学习资源最全汇总了吧，一次性让你找到全网优质学习资源！

对国内同学友好+学完就能让你立马用起来的深度学习教程，应该就只有这一个了！

希望大家都不要踩坑！本科生研究生快速入门深度学习目标检测方向的学习路径分享！

写这么好干嘛？这本24年的新书让我轻松学会了复现各种经典主流深度学习模型！

不能再详细了！使用YOLO V5训练自己的数据集，从环境搭建开始教你！

这绝对是国内基于Pytorch学深度学习最好的书！！终于把各种神经网络、建模、调参都给搞明白了！

看得我酣畅淋漓！豆瓣9.6分！这本书为什么是大家公认最好的机器学习书籍？

终于搞懂了卷积神经网络：卷积层，池化层，全连接层！图文并茂、透彻解析！

深度学习最热or好发论文的方向！今年最全的多模态大模型综述来啦！由西工大在8月2号发布！

【深度学习基本功】基于PyTorch来实现图像分类任务！所有代码都有详细注释！

按阶段划分！学习人工智能的12本优质书籍分享！不用再纠结什么阶段看什么书了！

豆瓣评分9.2，被认为是史上有关金融与机器学习的最佳书籍！由利用AI算法管理数个10亿美元基金的巨佬撰写！

决定机器学习的上限！一文带你搞懂起到核心作用的特征工程技术！

这本关于Transformer模型的书真的写的太棒了！世界上第一本把Transformer进行了全面、系统级解读的书籍！

建议所有神经网络初学者把它作为第一本书来阅读！豆瓣9.2分！当当1万4千多评价好评率99.9%！

读研读博真得靠自己！拥有20多篇SCI的斯坦福博士的科研入门中文教程，帮你避开要踩几年的坑，养成完善的科研习惯！

麻了！刚开始学机器学习深度学习，知道数学很重要，但具体应该学哪些数学知识呢？

机器学习领域权威：中科院博士纯手写的机器学习西瓜书手推笔记，让你学习效率翻倍！

10大主流机器学习算法教程分享！据说国内90%的ML教程文档都是翻译抄袭这的！

从零基础到成功发表一篇深度学习论文需要准备什么、需要多少时间？

一文上千字带你通透看懂神经网络中的梯度下降和反向传播！

如果你想要深刻理解机器学习算法，这本24年的新书真的很适合！

GitHub星标26K！来自谷歌大脑团队精心制作的深度学习调参指南手册中文版！全是经验啊！

刚学机器学习深度学习，但看不懂开源项目的文件是什么意思怎么办？？？点进来就解决了！

kaggle上拿了1477块奖牌的大神写了一本号称可以解决几乎所有机器学习深度学习问题的神书！

终于搞懂了PyTorch神经网络构建与Tensorboard可视化直观显示了！绝对的通俗易懂讲解！

有了这个星标近10k的CNN卷积神经网络可视化解读工具，不可能学不会CNN了！

GitHub标星12.7K！如果你深受机器学习深度学习数学基础困扰，那这个就太适合你了！

4个可以帮助深度学习新手快速提升代码能力的宝藏工具！标星近百K！！

一定要懂！手把手带你搞懂推动深度学习发展的里程碑之作AlexNet网络！

这本信号处理与机器学习书让我轻松掌握了如何使用机器学习方法来处理各种信号数据！

GitHub星标21.8k！作者登顶github热门开发者榜单榜首！LLM大模型神仙入门教程分享！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉