掌握Transformer之注意力为什么有效

文摘科技 2024-09-19 21:30 江苏

点击蓝字

关注我们

引言

在过去的几年里，Transformer在 NLP 领域掀起了一场风暴。现在，它们在 NLP 之外的应用中也取得了成功。Transformer结构之所以有如此大的能量，是因为注意力模块。这是因为它能捕捉到序列中每个单词与其他单词之间的关系。

但最重要的问题是，它究竟是如何做到这一点的？在本文中，我们将尝试回答这个问题，并了解它为什么要进行这样的计算。

闲话少说，我们直接开始吧！

输入序列如何送入Attention模块

注意力模块存在于编码器stack中的每个编码器以及解码器stack中的每个解码器中。我们先来观察编码器中的Attention模块。

编码器中的Attention

举个例子，假设我们正在处理一个英语到西班牙语的翻译问题，其中一个样本源序列是 "The ball is blue"。目标语序列是 "La bola es azul"。

源序列首先经过嵌入层和位置编码层，该层为序列中的每个单词生成嵌入向量。嵌入向量被传递到编码器，首先到达Attention模块。在Attention模块中，嵌入序列会经过三个线性层，产生三个独立的矩阵--即Query、Key和Value。这三个矩阵用于计算注意力得分。需要牢记的是，这些矩阵的每一行对应源序列中的一个单词。

源序列的流程

每行都是序列中的一个单词

为了帮助大家理解Attention模块，我们首先从源序列中的单个单词开始，然后沿着它们的路径通过Transformer，我们尤其需要关注Attention模块内部的处理情况。这将有助于我们清楚地看到源序列和目标序列中的每个单词是如何与源序列和目标序列中的其他单词相互作用的。

因此，在我们进行解释时，请将注意力集中在对每个单词进行了哪些运算，以及每个向量是如何映射到原始输入单词的。一般诸如矩阵形状、算术计算的具体细节、多头注意力等许多其他细节与每个单词的走向没有直接关系，我们就不必担心。

因此，为了简化解释和可视化，让我们忽略嵌入向量的维度，只跟踪每个单词的走向。

The flow of each word in the source sequence

每个单词都经过一系列可学习的变换

观察上图，每一行都是通过一系列转换--嵌入层、位置编码层和线性层--从相应的源序列生成的。所有这些转换操作都是可训练学习的。这意味着，这些操作中使用的权重不是预先确定的，而是通过模型学习的方式产生的。

Linear and Embedding weights are learned

关键问题是，Transformer如何确定哪组权重能达到最佳的效果？请记住这一点，因为我们稍后会再讨论这个问题的。

注意力得分之Q和K之间的点积

Attention的计算需要经过多个步骤，但在这里，我们只关注线性层和注意力分数。

Multi-head attention

Attention Score calculation

从上述公式中我们可以看到，Attention 的第一步是在Query矩阵和Key矩阵的转置之间进行矩阵乘法（即点积）。看看每个单词会发生什么变化。我们生成一个中间矩阵，其中每个单元格都是两个词之间的矩阵乘法。

Query矩阵和Key矩阵之间的点积

例如，第四行的每一列都对应于第四个Query与每个Key之间的点积。

Query矩阵和Key矩阵之间的点积

注意力得分之Q-K和V之间的点积

下一步是将上一步中得到的中间矩阵与Value矩阵相乘，得出注意力模块中的注意力分数。

Dot Product between Query-Key and Value matrices

在这里，我们可以看到第四行对应的是第四个Query矩阵与所有其他Key和Value的乘积。这就产生了注意力模块输出的注意力分数向量 Z。

我们可以这样来理解输出注意力得分：对于每个单词来说，它都是Value矩阵中每个词的编码值，并由中间矩阵加权。中间矩阵是该特定词的Query值与所有词的Value值的点积。

Attention Score is a weighted sum of the Value words

Query,Key,Value的作用是什么？

Query可以解释为我们当前需要计算注意力得分的词。Key和Value是我们需要关注的词，即该词与Query的相关程度。

Attention Score for the word “blue” pays attention to every other word

例如，对于 "The ball is blue"这句话来说，"blue"这一行将包含单词"blue"与其他每个单词的Attention得分。这里，"blue "是Query，其他单词是 "Key/Value"。

还有其他一些操作需要执行，如除法和softmax，但在本文中我们可以忽略它们。它们只是改变矩阵中的数值，但不会影响矩阵中每个单词行的位置。

点积衡量单词之间的相似度

因此，我们可以看到，注意力分数是通过点积，然后将它们相加，来捕捉特定单词与句子中其他单词之间的一些互动关系。但是矩阵乘法如何帮助Transformer来确定两个词之间的相关性呢？

要理解这一点，请记住Query、Key和Value实际上是具有嵌入维度的向量。让我们来看看这些向量之间的矩阵乘法是如何计算的。

每个单元都是两个词向量的点积

当我们在两个向量之间进行点积操作时，我们是将对应位置上的一对数字相乘，然后求和。

如果两个配对的元素（如上面的 "a "和 "d"）都是正数或都是负数，那么乘积将是正数。乘积将增加最终的求和结果。
如果一个数是正数，另一个数是负数，那么乘积就是负数。乘积将减少最终的求和结果。
如果乘积是正数，则两个数字越大，它们对最终求和的贡献就越大。

这意味着，如果两个向量中相应数字的符号一致，最终的和会更大。

Transformer如何学习词语间的相关性

点积的概念同样适用于注意力得分。如果两个词的向量更加一致，那么注意力得分就会更高。那么，我们希望Transformer有什么样的行为呢？

我们希望句子中相互关联的两个词的注意力得分高。而对于两个互不相关的词语，我们则希望其得分较低。

例如，在 "The black cat drank the milk"这个句子中，"milk"与 "drank"非常相关，与 "cat"的相关性可能略低，而与 "black"则无关。我们希望 "milk"和 "drank"产生较高的Attention得分，"milk"和 "cat"产生稍低的分值，而 "milk"和 "black"产生的分值可以忽略不计。

这是我们希望模型通过训练学习产生的输出结果。为此，milk和drank的词向量必须对齐。milk和cat的词向量会有些偏离。而 milk和 black的词向量则会大不相同。

让我们回到我们一直萦绕在脑海中的问题--Transformer是如何计算出哪组权重能达到最佳效果的？

词向量是根据词嵌入和线性层的权重生成的。因此，Transformer可以学习这些嵌入层和线性层权重，从而生成上述所需的词向量。换句话说，它将以这样一种方式学习这些层的权重：如果句子中的两个词彼此相关，那么它们的词向量就会对齐。从而产生更高的注意力得分。而对于互不相关的单词，单词向量将不会对齐，并产生较低的注意力得分。

因此，milk和drank的嵌入会非常一致，并产生较高的注意力得分。在milk和cat的嵌入中，它们会有一些偏离，从而产生稍低的分数，而在milk和black的嵌入中，它们会有很大的不同，从而产生较低的分数。

这就是注意力模块的原理。

Transformer中的Attention

Query和Key之间的点积计算出每对词之间的相关性。然后，将该相关性作为一个 "因子"，计算出所有Value的加权总和。加权总和将作为注意力得分的输出。

Transformer结构中有三处使用了Attention：

编码器中的自注意力 --关注源序列自身
解码器中的自注意力 --关注目标序列自身
解码器中的交叉注意力 -- 目标序列关注源序列

Attention in the Transformer

在编码器自注意力中，我们计算源句子中每个单词与源句子中其他单词的相关性。这发生在编码器stack中的所有编码器中。

解码器中的自注意力

我们刚才在编码器的自我注意力中看到的大部分内容也适用于解码器中的自注意力的计算，只是存在一些微小但重要的区别。

Attention in the Decoder

在解码器自注意力计算过程中，我们计算目标句中每个单词与目标句中其他单词的相关性。

Decoder Self Attention

解码器中的交叉注意力

在解码器的交叉注意力的计算过程中，Query来自目标语句，而Key/Value来自源输入语句。这样，它就能计算出目标语句中每个词与源输入语句中每个词的相关性。

Encoder-Decoder Attention

总结

希望这能让大家充分感受到 Transformer设计的优雅。请阅读我的系列文章中的其他 Transformer 文章，深入了解为什么 Transformer 如今已成为众多深度学习应用的首选架构。

点击上方小卡片关注我

添加个人微信，进专属粉丝群！

http://mp.weixin.qq.com/s?__biz=MzkzODI1NzQyNA==&mid=2247491763&idx=1&sn=31aa9bea9254aae74f3fde8170f669c8

AI算法之道

一个专注于深度学习、计算机视觉和自动驾驶感知算法的公众号，涵盖视觉CV、神经网络、模式识别等方面，包括相应的硬件和软件配置，以及开源项目等。

最新文章

Fine-Tuning vs. Zero-Shot vs. Few-Shot Learning

RAG Fusion -- 新一代信息检索技术

【Python】关于Python Itertools 后悔没有早点了解的九个函数

【Python】都2024了，还不会用dataclass，你Out了？

自回归模型的关键：Causal self-Attention

机器学习中的Teacher Forcing

一文弄懂Bert模型

【Python】七个提升Python代码性能的技巧

一文学会LLM参数量计算

Transformer为什么使用LayerNorm而不是BatchNorm?

BatchNorm VS LayerNorm

掌握LLaMA: 深入探索MetaAI的革命性模型

一文弄懂Grouped-Query Attention

一文弄懂Multi-Query Attention

手撕Transformer之组合各组件

手撕Transformer之The Decoder

手撕Transformer之The Encoder

手撕Transformer之Layer Normalization

手撕Transformer之Feed-Forward Network

手撕Transformer之Multi-Head Attention

一文弄懂Flash-Attention

手撕Transformer之Positional Encoding

手撕Transformer之Embedding Layer

掌握Transformer之KV Cahce

NLP领域中BeluScore直观解释

掌握Transformer之注意力为什么有效

掌握Transformer之深入多头注意力机制

掌握Transformer之学习各组件

掌握Transformer之概述

十分钟深入理解BatchNorm层

NLP领域中Beam Search直观解释

【Python】一文弄懂Python中的@wraps

BatchNorm层直观性解释

手把手教你打造虚拟AI Talker

【Python】关于F-Strings的六种高级用法

ReLU如何让神经网络逼近连续非线性函数?

Luma推出 Dream Machine 1.5 - 新的人工智能视频生成器

RAG检索增强生成最佳实践

万字长文讲解文本嵌入及其高阶应用

我后悔没有早点知道 Python中迭代的八个技巧

【Python】五种方法实现两个变量数值交换

一文弄懂RAG检索增强生成技术

强烈推荐10个人工智能小项目

一文弄懂Python在Windows/Mac/Linux上路径兼容问题

推荐免费访问最强AI绘画FLUX.1的五种方式

推荐提升时序数据可视化展示的三个技巧

如何优雅地在Python中管理环境变量？

超越Midjourney最强AI绘画FLUX.1发布

什么是Python中的requirements.txt文件？

通用NLP入门技术介绍

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉