详解Batch Normalization及其反向传播

科技 2024-11-04 10:30 辽宁

点击上方“小白学视觉”，选择加"星标"或“置顶”
重磅干货，第一时间送达

编者荐语

文章介绍了Batch Normalization的过程及其实现，它能帮助解决深度神经网络中输入不稳定的问题，并使得神经网络的梯度大小相对固定。

作者丨风行天上@知乎

链接丨https://zhuanlan.zhihu.com/p/45614576

1. Internal Covariate Shift

统计学习中的一个很重要的假设就是输入的分布是相对稳定的。如果这个假设不满足，则模型的收敛会很慢，甚至无法收敛。所以，对于一般的统计学习问题，在训练前将数据进行归一化或者白化（whitening）是一个很常用的trick。

但这个问题在深度神经网络中变得更加难以解决。在神经网络中，网络是分层的，可以把每一层视为一个单独的分类器，将一个网络看成分类器的串联。这就意味着，在训练过程中，随着某一层分类器的参数的改变，其输出的分布也会改变，这就导致下一层的输入的分布不稳定。分类器需要不断适应新的分布，这就使得模型难以收敛。

对数据的预处理可以解决第一层的输入分布问题，而对于隐藏层的问题无能为力，这个问题就是Internal Covariate Shift。而Batch Normalization其实主要就是在解决这个问题。

除此之外，一般的神经网络的梯度大小往往会与参数的大小相关（仿射变换），且随着训练的过程，会产生较大的波动,这就导致学习率不宜设置的太大。Batch Normalization使得梯度大小相对固定，一定程度上允许我们使用更高的学习率。

2. Batch Normalization

Batch Normalization的过程很简单。我们假定我们的输入是一个大小为的mini-batch ，通过下面的四个式子计算得到的就是Batch Normalization(BN)的值。

首先，由(2.1)和(2.2)得到mini-batch的均值和方差，之后进行(2.3)的归一化操作，在分母加上一个小的常数是为了避免出现除0操作。最后的(2.4)再对进行一次线性变换得到BN的结果。整个过程中，只有最后的(2.4)引入了额外参数γ和β，他们的size都为特征长度，与相同。

BN层通常添加在隐藏层的激活函数之前，线性变换之后。如果我们把(2.4)和之后的激活函数放在一起看，可以将他们视为一层完整的神经网络（线性+激活）。（注意BN的线性变换和一般隐藏层的线性变换仍有区别，前者是element-wise的，后者是矩阵乘法。）

此时，可以视为这一层网络的输入，而是拥有固定均值和方差的。这就解决了Covariate Shift.

另外，还具有保证数据表达能力的作用。在normalization的过程中，不可避免的会改变自身的分布，而这会导致学习到的特征的表达能力有一定程度的丢失。通过引入参数γ和β，极端情况下，网络可以将γ和β训练为原分布的标准差和均值来恢复数据的原始分布。这样保证了引入BN，不会使效果更差。

在训练过程中，还需要维护一个移动平均的均值和方差，这两个移动平均会用于推断过程。

3. 反向传播

再来用反向传播求梯度。我们先画出BN的计算图，由于节点的文本不支持Tex，其中x_即为。

Batch Normalization的计算图

假定损失函数为L，已知L相对于的偏导，求，，。

前两个比较直观，求需要用到，也很简单，这里直接列出。

从计算图和(2.3)中可以看出，要求，要分成，，三部分来求。

我们还需要求。

(3.6)可以由式(2.1)直接得到，(3.7)是运用链式法则的结果。

算还需要。

(3.8)可以由式(2.2)直接得到。

最后我们还需要方差的导数。

至此，(3.4)所需要的偏导都已求出，组合起来，我们得到最终的式子。

这个式子仍然具有进一步化简的空间。在展开之后，由式(2.3)，通过拼凑，可以将和凑成 _。_再提取公因式，可以将式(3.10)化简成：

4. 实现

参考cs231n的assignment2，我们将Batch Normalization分成正向（只包括训练）和反向两个过程。

正向过程的参数x是一个mini-batch的数据，gamma和beta是BN层的参数，bn_param是一个字典，包括的取值和用于inference的和的移动平均值，最后返回BN层的输出y，会在反向过程中用到的中间变量cache，以及更新后的移动平均。

反向过程的参数是来自上一层的误差信号dout，以及正向过程中存储的中间变量cache，最后返回，，的偏导数。

实现与推导的不同在于，实现是对整个batch的操作。

import numpy as np
def batchnorm_forward(x, gamma, beta, bn_param):    # read some useful parameter    N, D = x.shape    eps = bn_param.get('eps', 1e-5)    momentum = bn_param.get('momentum', 0.9)    running_mean = bn_param.get('running_mean', np.zeros(D, dtype=x.dtype))    running_var = bn_param.get('running_var', np.zeros(D, dtype=x.dtype))
    # BN forward pass    sample_mean = x.mean(axis=0)    sample_var = x.var(axis=0)    x_ = (x - sample_mean) / np.sqrt(sample_var + eps)    out = gamma * x_ + beta
    # update moving average    running_mean = momentum * running_mean + (1-momentum) * sample_mean    running_var = momentum * running_var + (1-momentum) * sample_var    bn_param['running_mean'] = running_mean    bn_param['running_var'] = running_var
    # storage variables for backward pass    cache = (x_, gamma, x - sample_mean, sample_var + eps)
    return out, cache

def batchnorm_backward(dout, cache):    # extract variables    N, D = dout.shape    x_, gamma, x_minus_mean, var_plus_eps = cache
    # calculate gradients    dgamma = np.sum(x_ * dout, axis=0)    dbeta = np.sum(dout, axis=0)
    dx_ = np.matmul(np.ones((N,1)), gamma.reshape((1, -1))) * dout    dx = N * dx_ - np.sum(dx_, axis=0) - x_ * np.sum(dx_ * x_, axis=0)    dx *= (1.0/N) / np.sqrt(var_plus_eps)
    return dx, dgamma, dbeta

参考文献

Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift
Deriving the Gradient for the Backward Pass of Batch Normalization
CS231n Convolutional Neural Networks for Visual Recognition

下载1：OpenCV-Contrib扩展模块中文版教程
在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2：Python视觉实战项目52讲
在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

下载3：OpenCV实战项目20讲
在「小白学视觉」公众号后台回复：OpenCV实战项目20讲，即可下载含有20个基于OpenCV实现20个实战项目，实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~

http://mp.weixin.qq.com/s?__biz=MzU0NjgzMDIxMQ==&mid=2247626136&idx=3&sn=a88cd2e414d27e685877d456bb56794e

小白学视觉

哈工大在读博士的公众号，《OpenCV 4快速入门》的作者，面向初学者介绍计算机视觉基础知识、OpenCV使用、SLAM技术，深度学习等内容。

最新文章

招生信息 | 香港科技大学（广州）丁宁宁教授实验室博士招生

十个python图像处理工具

实践教程｜扩散模型代码复现

使用PyTorch进行知识蒸馏的代码示例

中文版的TPAMI，你听说过么！

招生信息 | 新泽西理工学院计算学院信息学系Dr. Chenxi Yuan 招募博士

如何消除摄影中的运动模糊?

漂亮，LSTM模型结构的可视化

目标检测和感受野的总结和想法

目标检测中的框位置优化总结

如何看待神经网络的黑箱？

如何使用深度学习进行缺陷检测

深度学习的图原理

饶毅：中国存在大量粗制滥造研究生的问题，很多博士不合格

路面语义分割

招生信息 | Emory大学计算机科学系Dr. Guo Zhichun实验室博士生招生

深度学习中的Normalization你懂了多少？

神经网络与傅立叶变换到底有没有关系？

从零开始构建DINO模型与PyTorch：自监督视觉transformer

涨点神器！100个即插即用缝合模块【合集下载】

深度学习最常用的10个激活函数！（数学原理+优缺点）

招生信息 | 香港城市大学计算机科学系Dr. Luo Yuhan诚邀加入BiWell实验室

实操教程｜PyTorch实现断点继续训练

又一本开源免费的大模型书来了，449页pdf！

有哪些东西是你读博士以后才懂的？

图像处理常用算法(基础)

少样本学习综述：技术、算法和模型

学术 | 热议：寒门硕士要不要继续读博士？

怎么才能优雅地向博士导师表达「这周科研没什么进展」？

医学影像相关开源数据集资源汇总

顶刊解读 TRGS | 位置-时间感知Transformer用于遥感变化检测

去他的顶会顶刊！我就想发个论文毕个业！

五年之内，博士会像今天的硕士一样井喷吗？

Gemini 可以进行目标检测了！

形象理解二维傅里叶变换

Halcon和Opencv 的区别

PyTorch常用代码段合集

cuda编程：我的第一份cuda代码

系统性总结了 Numpy 所有关键知识点！

图像特征提取与匹配技术

EMF-former：一种用于医学图像分割的高效且内存友好的Transformer

一位上海交大教授的深度学习五年研究总结

软包装锂离子电池的表面凸点缺陷检测

长远看算法岗真的比开发岗香吗？

GASA-UNet：用于医学图像分割的全局轴向自注意力U-Net

招生信息 | 香港大学杜泓阳教授团队博士招生

Python特征重要性分析的9个常用方法

245个目标检测开源项目合集，建议收藏！

用Windows电脑训练深度学习模型？超详细配置教程来了

为什么建议大家使用 Linux 开发？真的很很很优雅！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉