手撕Transformer之Layer Normalization

文摘科技 2024-10-06 08:50 江苏

点击蓝字

关注我们

引言

本文是手撕Transformer系列的第五篇。它从头开始介绍层归一化（Layer Normalization），并用代码对其进行了实现。

闲话少说，我们直接开始吧！

背景介绍

一般来说，归一化是将特征转换到特定尺度下的过程。对特征进行归一化处理的方法有很多，最著名的是基于最小-最大特征缩放和基于Standard Score的缩放。

Min-Max Feature Scaling

最小-最大特征缩放将数值转换为 [0,1] 范围。其计算公式如下：

等式的右侧将每个值减去 X_min；当 X = X_min 时，分子变为 0。除以分母后，输出为 0。同样，当X = X_max 时，会出现新的最大值。当这个值除以 X_max - X_min 时，就变成了 1。这就是范围如何变为 0 和 1 之间的过程。

下面的代码示例演示了该过程：

import torchX = torch.Tensor([22, 5, 6, 8, 10, 19,2])X_max = X.max() # 22X_min = X.min() # 2
# [22-2, 5-2, 6-2, 8-2, 10-2, 19-2, 2-2] = numerator = X-X_min # [20, 3, 4, 6, 8, 17, 0]denominator = X_max-X_min # 22 - 2 = 20
# [20/20, 3/20, 4/20, 6/20, 8/20, 17/20, 0/20]X_new = numerator/denominator

输出如下：

tensor([1.00, 0.15, 0.20, 0.30, 0.40, 0.85, 0.00])

Standard Score

在标准化过程中，每个数值都要转换成标准分数。标准分数也称为 z 分数。方法是从每个数值中减去平均值，再除以标准差。

μ 代表数据的平均值或平均数。计算方法是将数据集中的所有数据相加，然后除以数据的数量 n：

σ 代表数据的标准差，即数值与平均值的平均离散度。如果数据集的标准差较小，则数值可能更接近平均值。如果标准差较大，则可能意味着数值分布的范围较大。它可以用以下公式计算。

第一步是找出每个点与平均值的偏差。只需从每个数值减去平均值即可。然后对这些值进行平方运算，去除所有负数。最后，将这些值相加，再除以数值的个数n。然后取平方根即可计算出标准偏差。如果不取平方根，σ² 就是方差。

下面的示例显示了以上计算步骤。

import torchX = torch.Tensor([22, 5, 6, 8, 10, 19,2])n = len(X)
mean = X.sum()/n # X.mean()std = (((X-mean)**2).sum()/n).sqrt() # X.std(unbiased=False)z_scores = (X - mean)/std
print(mean, std, z_scores, sep="\n")

输出如下：

tensor(10.2857)tensor(6.9016)tensor([ 1.6973, -0.7659, -0.6210, -0.3312, -0.0414,  1.2626, -1.2005])

可以看出，这些数值分布在 0 附近。这在意料之中，因为每个值都减去了平均值。现在，标准分也能传递类似的信息，而不需要很大的数值。由于平均值为 10.2857，因此很容易看出 10 的标准分刚好低于 0，为-0.0414。

为什么需要Normalization？

机器学习中使用归一化，是因为具有不同尺度特征的模型需要更长的时间来训练；这是因为梯度下降需要更多的时间来收敛。

还有学者认为缺乏归一化会导致梯度过大，最终爆炸，使模型训练变得不稳定。因此，在许多情况下，数据应在进入模型前应该进行规范化处理。

Layer Normalization

一般来说，层归一化可确保 "特定层中的所有神经元在给定输入的所有特征上具有有效的相同分布"。

对于每个输入（记为 x），可使用修改后的 z-分数方程计算层归一化：

μ 代表最后 D 个维度的平均值
σ² 代表最后 D 个维度的方差
ε 是一个极小的值，当 σ² 较小时，它能起到帮助作用
γ 和 β 是可学习的参数

‍

举个例子

为了演示层归一化的计算方法，我们将形状为 (4,5,3) 的张量在其矩阵中进行归一化，而矩阵的维度大小为 (5,3)。这意味着 D 为 2。

从上图中可以清楚地看出，每个矩阵的值都是根据同一矩阵中的其他值进行标准化得到的。可以使用 PyTorch 的统计函数实现层归一化，代码如下：

# Input Tensor: 4 matrices of 5 rows and 3 columnsX = torch.randint(0, 100, (4, 5, 3)).float()
# Shape to be Normalized: 5 rows, 3 columnsnormalized_shape = (5, 3)
# Number of Dimensions in the Shape to be NormalizedD = len(normalized_shape)
# Set the Default Values for Epsilon, Gamma, and Betaeps = 1e-5gamma = torch.ones(normalized_shape)beta = torch.zeros(normalized_shape)
print(X)

结果如下：

tensor([[[76.,  2., 43.],         [79., 50., 29.],         [59., 78., 73.],         [95., 94., 76.],         [ 9., 74., 64.]],
        [[76., 87., 50.],         [ 2., 65., 44.],         [74.,  9., 82.],         [83., 54., 82.],         [ 6., 97., 52.]],
        [[88., 19., 95.],         [14., 96., 96.],         [93., 58.,  0.],         [19., 37.,  6.],         [28., 23.,  7.]],
        [[ 7., 54., 59.],         [57., 30., 18.],         [88., 89., 63.],         [56., 75., 56.],         [63., 23., 73.]]])

每个矩阵都可以通过一个循环进行标准化处理。在这个循环中，计算出平均值和方差。然后将这些值送入层归一化方程，计算矩阵的归一化值。

# Normalizefor i in range(0,4):               # loop through each matrix  mean = X[i].mean()               # mean           var = X[i].var(unbiased=False)   # variance  layer_norm = (X[i]-mean)/(torch.sqrt(var+eps))*gamma + beta 
  print(f"μ = {mean:.4f}")              print(f"σ^{2} = {var:.4f}")   print(layer_norm)  print("="*50)

得到结果如下：

通过观察上面的图像和代码输出，可以明显看出，层归一化计算出了本示例中每个矩阵值的 z 值变化。

使用 PyTorch 的 LayerNorm 模块可以计算出与上述相同的答案。该模块需要初始化待归一化的形状。然后，可以将张量传递给该模块，每个矩阵都会相应地归一化。

layer_normalization = nn.LayerNorm(normalized_shape) # nn.LayerNorm((5,3))layer_normalization(X)

输出如下：

NLP中的应用

在自然语言处理中，层归一化发生在每个标记Token的嵌入维度上。对于有 2 个序列、3 个标记和 5 个元素嵌入的批次，其维度形状为（2, 3, 5）。由于最后一个维度将被规范化，因此 D 将为 1。嵌入的形状将是（5, ）。必须将其初始化为一个元组，以确保其值能被 LayerNorm 模块提取出来。或者也可以使用 X.shape[-1]。

# Input Tensor: 2 sequences of 3 tokens with 5 dimensional embeddingsX = torch.randint(2, 3, 5)
# Shape to be Normalized: 5 dimensional embeddingnormalized_shape = (5,)
# Number of Dimensions in the Shape to be NormalizedD = len(normalized_shape) # 1
# Create the LayerNorm layer_normalization = nn.LayerNorm(normalized_shape)
# view the beta and gamma and betaprint(layer_normalization.state_dict())

输出如下：

OrderedDict([('weight', tensor([1., 1., 1., 1., 1.])),             ('bias',   tensor([0., 0., 0., 0., 0.]))])

上面是 γ 和 β 的值。下面可以看到，X 的值被初始化为整数，以方便演示层归一化对它们的影响。

print(X)

输出如下：

tensor([[[49., 90., 29., 76., 33.],         [86., 42., 20., 56., 79.],         [40., 49., 72., 16., 85.]],
        [[44., 62., 14., 46.,  5.],         [22., 45.,  8., 47., 78.],         [96., 17.,  7., 56., 60.]]])

也可以使用 PyTorch 代替 for 循环来计算每一行的平均值：

print(X.mean(2, keepdims=True) # maintains the dimensions of X)

输出如下：

tensor([[[55.4000],         [56.6000],         [52.4000]],
        [[34.2000],         [40.0000],         [47.2000]]])

这些值可以在进行层归一化处理后参考，以了解每个值与平均值的差距。

print(layer_normalization(X))

输出如下：

对于第一个Token，90 的 z 值最大，为 1.4464，因为它与平均值 55.4 相差最远，而平均值 55.4 的 z 值为 0。

Transformer中的实现

尽管 PyTorch 已内置了 LayerNorm 模块，但为了更好地理解其在Transformer模型中的使用，我们可以重新创建该模块。实现过程相对简单，并尽量在注释中进行代码解释。

class LayerNorm(nn.Module):
  def __init__(self, features, eps=1e-5):    super().__init__()    # initialize gamma to be all ones    self.gamma = nn.Parameter(torch.ones(features))     # initialize beta to be all zeros    self.beta = nn.Parameter(torch.zeros(features))     # initialize epsilon    self.eps = eps
  def forward(self, src):    # mean of the token embeddings    mean = src.mean(-1, keepdim=True)            # variance of the token embeddings             var = src.var(-1, keepdim=True,unbiased=False)      # return the normalized value      return self.gamma * (src - mean) / torch.sqrt(var + self.eps) + self.beta

层归一化将在编码器中使用，因此将在下一篇文章 "编码器 "中演示其用法和残差连接。现在，重要的是了解其实现方法。

请不要忘记点赞和关注，以获取更多信息！

点击上方小卡片关注我

添加个人微信，进专属粉丝群！

http://mp.weixin.qq.com/s?__biz=MzkzODI1NzQyNA==&mid=2247492057&idx=1&sn=9a696bed316b85a98f14b5ede0444606

AI算法之道

一个专注于深度学习、计算机视觉和自动驾驶感知算法的公众号，涵盖视觉CV、神经网络、模式识别等方面，包括相应的硬件和软件配置，以及开源项目等。

最新文章

Fine-Tuning vs. Zero-Shot vs. Few-Shot Learning

RAG Fusion -- 新一代信息检索技术

【Python】关于Python Itertools 后悔没有早点了解的九个函数

【Python】都2024了，还不会用dataclass，你Out了？

自回归模型的关键：Causal self-Attention

机器学习中的Teacher Forcing

一文弄懂Bert模型

【Python】七个提升Python代码性能的技巧

一文学会LLM参数量计算

Transformer为什么使用LayerNorm而不是BatchNorm?

BatchNorm VS LayerNorm

掌握LLaMA: 深入探索MetaAI的革命性模型

一文弄懂Grouped-Query Attention

一文弄懂Multi-Query Attention

手撕Transformer之组合各组件

手撕Transformer之The Decoder

手撕Transformer之The Encoder

手撕Transformer之Layer Normalization

手撕Transformer之Feed-Forward Network

手撕Transformer之Multi-Head Attention

一文弄懂Flash-Attention

手撕Transformer之Positional Encoding

手撕Transformer之Embedding Layer

掌握Transformer之KV Cahce

NLP领域中BeluScore直观解释

掌握Transformer之注意力为什么有效

掌握Transformer之深入多头注意力机制

掌握Transformer之学习各组件

掌握Transformer之概述

十分钟深入理解BatchNorm层

NLP领域中Beam Search直观解释

【Python】一文弄懂Python中的@wraps

BatchNorm层直观性解释

手把手教你打造虚拟AI Talker

【Python】关于F-Strings的六种高级用法

ReLU如何让神经网络逼近连续非线性函数?

Luma推出 Dream Machine 1.5 - 新的人工智能视频生成器

RAG检索增强生成最佳实践

万字长文讲解文本嵌入及其高阶应用

我后悔没有早点知道 Python中迭代的八个技巧

【Python】五种方法实现两个变量数值交换

一文弄懂RAG检索增强生成技术

强烈推荐10个人工智能小项目

一文弄懂Python在Windows/Mac/Linux上路径兼容问题

推荐免费访问最强AI绘画FLUX.1的五种方式

推荐提升时序数据可视化展示的三个技巧

如何优雅地在Python中管理环境变量？

超越Midjourney最强AI绘画FLUX.1发布

什么是Python中的requirements.txt文件？

通用NLP入门技术介绍

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉