漫谈 Transformer 中的绝对位置编码、相对位置编码和融合位置编码（旋转位置编码 RoPE）

文摘 2025-01-22 11:24 安徽

点击下方卡片，关注“AI前沿速递”公众号

各种重磅干货，第一时间送达

转载自知乎：姚远链接：https://zhuanlan.zhihu.com/p/17311602488

一. 前言

Transformer [1] 中的注意力机制可以有效建模 token 之间的相关性，在诸多任务中取得了显著的性能提升。然而，注意力机制本身并不具备对 token 位置信息的感知能力，即经过注意力机制计算后，结果只依赖于 token 之间的相关性，而与 token 的位置信息无关。然而，众所周知，位置信息在长序列建模中至关重要，因此需要一种方式显示的机制对每个 token 的位置信息进行编码，以使模型能够感知到每个 token 的位置信息。目前，位置编码可以大致分为三类：绝对位置编码、相对位置编码以及融合位置编码。本文结合一些高质量博客 [2-4] 和笔者自己的理解对几种常见的位置编码进行梳理总结，供大家参阅。

下文中的所有实验代码在：Learn_PositionEncoding_Colab

二.位置编码的作用

在正式介绍位置编码之前，先回顾一下 Transformer 中的注意力机制。假设和分别表示位置和位置的两个 token 的查询词向量和键词向量，则注意力权重艹的计算公式如下：

如果不是位置的函数且不是位置的函数，那么不论两个 token 在序列中的距离如何变化，其注意力权重都不会发生改变。这与人类的直觉相悖，因为通常情况下，两个 token 越相近，它们的注意力权重应该越大。为了解决这一问题，通过显式引入位置信息至每个词向量中，使每个 token 能够感知其在输入序列中的位置。具体而言，定义函数 ,其表示通过函数将位置信息编码到词向量中。结合位置信息后，注意力权重的计算公式如下：

此时，一旦两个 token 的位置信息发生变化，其注意力权重也会随之发生改变。

三. 绝对位置编码

绝对位置编码给每个位置分配一个特定的编码 ,以唯一序列中每个 token 的位置。常见的绝对位置编码方式包括可学习位置编码和正弦位置编码两种编码方式。

3.1 可学习位置编码 (Learnable Positional Encoding)

可学习位置编码是一种直观且简单的绝对位置编码方式，其编码由模型通过训练学习得到。具体而言，假设词向量的维度为 256,输入的 token 序列长度为 512,则可以随机初始化一个位置编码矩阵,其第行向量表示第个位置对应的位置编码。在模型的训练过程中，该矩阵会逐步更新以学习到最优的位置编码矩阵。在推理阶段，最终训练得到的被用于为每个位置提供对应的位置编码进行使用。

可学习位置编码具有以下特点：

灵活性高：由于上述位置编码矩阵时通过模型在训练过程中从数据中学习得到，因此具有较高的灵活性。理论上，可学习位置编码可以使用不同类型的任务或序列长度。
范围受限：可学习位置编码在序列长度当面存在限制，缺乏外推性。如果推理阶段输入的 token 序列长度超过训练阶段的最大 token 序列长度，由于缺乏对应位置的编码向量，模型可能无法有效处理这些超过范围的 token，进而影响推理性能。

3.2 三角位置编码 (Trigonometric Positional Encoding)

这是 Transformer 论文[1] 中使用的位置编码方法,个人感觉是一种很神奇的编码方式，真得很佩服谷歌研究人员的脑洞。具体而言，对于位置 ,它的正弦位置编码的第个分量计算如下

根据上述公式可知，三角位置编码的每一维分量其实是位置的正弦函数(偶数维分量)或者余弦函数(奇数维分量),其根据维度的奇偶性分别采用正弦和余弦函数。这样设计的目的在 Transformer的原始论文[1] 中并没有明确解释。个人感觉这样设计可以让模型可以区分出维度的奇偶性以增强模型的表达能力(个人感觉一些对正余弦设计的解读似乎有点过度解读的感觉，也欢迎大家提出自己的看法)。三角位置编码主要具有以下优点：

三角函数具有周期性，这使得每个维度的分量都具有周期性，从而可以实现自然的外推。如下图所示，每一维分量都是一个三角函数，输入不同的位置即可计算对应的编码值。即使在推理阶段，序列长度超过训练时使用序列的最大长度，也可以基于该维度对应的三角函数直接计算出编码值。
三角位置编码自身具有远程衰减的性质，即对于两个不同位置的位置编码向量，当它们之间的距离较近时，其内积较大；反之，当它们之间的距离逐渐增大时，内积的值会随着减小并呈现出震荡衰减的趋势。如下图所示，和是两个不同位置的位置编码向量，随着它们距离的增加，它们的内积逐渐在震荡衰减。注意，这里三角位置编码自身具有远程衰减特性，笔者后续测试了一下，如果将位置编码与词向量直接相加，即和两个不同的词向量后，其实不太好反映出远程衰减特性，如下图所示。不过，如果是把位置编码与词向量进行拼接(所有向量都是列向量),即和拼接在一起，则仍然具有远程衰减特性，如下图所示。

所以，根据上述两组实验，是不是拼接使用位置编码会更好一些呢？

三角函数具有如下的特性：

上述公式表明，位置的编码向量可以由位置和位置的编码向量组合得到。这是一个很好的性质，表明使用三角函数进行位置编码可以一定程度上表达相对位置，即一定程度上可以让模型理解“相邻位置”的关系。

四.相对位置编码

相对位置编码关注的是一个单词与其他单词之间的位置关系，而不是绝对位置。这种方法更适合处理序列中相对顺序比绝对位置更重要的任务 (例如句子理解)。谷歌的研究人员于2018年提出在Transformer中使用相对位置编码[5],其具体计算方式如下：

其中，和分别表示两个位置和位置的可学习的相对位置向量，、和分别是查询、键和值词向量。

五. 融合位置编码

融合位置编码是一种结合绝对位置编码和相对位置编码优点的位置编码方法。其中一个最具代表性的编码方式是旋转位置编码 [6]，其通过严谨的数学推导，设计出了一种非常优雅的位置编码机制，即能够在词向量中嵌入绝对位置信息，又能在经过注意力机制计算后可以反映出相对位置信息。由于注意力权重计算本质上是在计算向量的内积，因此旋转位置编码旨在解决如下的数学问题：寻找到一个函数和一个函数 ,以满足为了解决上述问题，旋转位置编码从复数角度出发，通过数学推导 (具体的推导过程请参考 [2,3]),寻找到了一组满足上述条件的函数和一个函数。具体而言，对于二维词向量，令

则如下公式成立：

据此，当时， ,其中是几何学中常见的旋转矩阵。函数的作用相当于将词向量以特定角度进行旋转，从而只改变词向量的方向而不改变其长度。这意味着，只需要对向量进行旋转操作便可以将位置信息编码进词向量中。换句话说，在旋转位置编码的设定下，每个词向量的位置信息可理解为每个词向量需要旋转的角度。因此，该位置编码也称之为旋转位置编码。上述公式从二维词向量的角度出发，推导出了旋转位置编码的基本原理。由于旋转矩阵具有正交性，即,因此，对于高维数据(通常词向量的维度为偶数维),可以通过将词向量的维度两两分组，分别对每组进行旋转，来实现高位空间的旋转位置编码。具体计算过程如下：

此外，旋转位置编码借鉴了三角位置编码的设计理念，为每个分组设置了不同的常量,以实现对远程距离的衰减效果，从而更好地步骤序列中不同位置之间的关系：

笔者测试了一下旋转位置编码的远程衰减特性，不过并没有得到很理想的结果，具体原因不是很清楚（不清楚是不是测试代码有问题）。

六. 总结

位置编码的出现主要是为了解决 Transformer 中的注意力机制无法建模位置信息的缺陷。各种各样的位置编码已经被提出，包括绝对位置编码，相对位置编码，还有集各家所长的融合位置编码。由于目前的大模型几乎都是基于 Transformer 架构，因此，位置编码的研究是至关重要的。首先确实非常佩服谷歌的研究人员，可以想到利用三角函数的性质来建模位置编码，引发了后续很多的研究。此外，笔者感觉自己对位置编码的理解还不是特别深刻，并且有一些疑问，是否将位置编码假设具有周期性是合理的？为什么位置编码需要周期性呢？有没有更合适的函数来建模位置编码？相信后续在该领域还会出现更加优雅的位置编码。

本文内容为论文学习收获分享，受限于知识能力，本文对原文的理解可能存在偏差，最终内容以原论文为准。本文信息旨在传播和学术交流，其内容由作者负责，不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题，请及时与我们联系，我们将在第一时间回复并处理。

AI前沿速递

持续分享最新AI前沿论文成果

最新文章

本地部署最强开源模型—DeepSeek-r1（保姆喂饭级教程）

2025 Kaggle 小白练习赛——使用保险数据集进行回归！

深度译读《DeepSeek FAQ》- 关于 DeepSeek 的答疑解惑

2025即插即用，Mamba线性注意力机制模块，持续起飞！

目前主流的attention方法都有哪些？

Tip 2024 | CGA特征融合模块，短短几行代码，有效提点，即插即用

TPAMI 2024 | 真的鲨疯啦！深度视觉学习诚不欺我！

AAAI 2024 | Conv-Former：卷积赋能，实现Transformer效果的即插即用模块！

【计算机视觉新突破】GLOMAP：重新定义全局结构光运动（SfM）的高效系统

如何评价大语言模型架构 TTT ？Transformer这次真的要没了？

NeurIPS | HiLo注意力机制：即插即用，精准捕获高低频特征

Flare7K++：解决夜间耀斑难题的综合数据集与流程

有小黑子说我家ViT在小数据集上不work，我真的忍不了了!

CVPR ｜只用一部分就好，别再傻乎乎的用普通卷积了！

博士招生 | 上海理工大学光学工程博士招生（优青教授课题组，物理、光纤传感、人工智能方向）

如何评价 Kimi 发布的多模态推理模型 k1.5？

告别手工特征提取！SparseViT 开启图像篡改定位新篇

CricaVPR：开启视觉位置识别新篇章，跨图像相关性助力性能飞跃

漫谈 Transformer 中的绝对位置编码、相对位置编码和融合位置编码（旋转位置编码 RoPE）

Nature | 给出材料性质就能输出材料结构，微软最新MatterGen模型，真猛！

博士招生 | 南方科技大学ai{DEAL} 课题组人机交互与教育技术方向博士后招聘

ECCV 2024 | 最新直方图transfomer，直接涨点起飞！

博士招生 | 吉林大学计算机学院90后教授、博士生导师招生、招老师啦！

AAAI 2024 | 动态频域fft模块，几行代码，有效提点，即插即用

得克萨斯大学提出一种解码器，以极低计算成本达成医学图像分割SOTA新性能！

TPAMI 2024 | 神来一笔！无监督半监督怎么进行球形空间领域适应呢？

超越Transformer，魔改的Mamba将横扫顶会？！

ICCV 2023 | 多尺度线性注意力模块，有效涨点，即插即用

博士招生 | 英国斯旺西大学招收研究型硕士（无需上课）和博士

CVPR 2024 | 单头注意力机制(SHSA)，即插即用，涨点起飞！

CVPR 2024 | 最新即插即用注意力机制+ffn层

博士招生 | 新加坡国立大学（NUS）招聘多名机器学习控制相关的全奖博士生 , 博士后

ECCV 2024 | 小波变换卷积的即插即用，引入了频域信息，助你涨点起飞

博士招生 | 加拿大阿尔伯塔大学招收电磁、无线通信、机器学习方向全奖硕士/博士/博士后/访问学者

TPAMI 2024 | 多模态融合超前研究！维度情感识别！

像教女朋友一样教你用Cuda实现PyTorch算子

TPAMI 2024 | 全新框架！深度学习可解释度量学习！

招生 | AI方向博士后招聘--北航杭州国际校园薪金40万起！

厉害了，LSTM+Transformer王炸创新，精准度又高了！

看我操作，手写一个神经网络训练架构！

一句话就能让论文评分飞升！上交大揭露大模型审稿背后的深度逻辑及风险！

【扩散模型】拿下CVPR两篇最佳论文，它究竟有何特别之处？我直呼牛批克拉斯！

博士招生 | 上海交通大学人工智能学院赵波课题组招硕博士生/实习生

一文读懂如何使用图框架构建多代理应用程序

博士招生 | 上海科技大学信息科学与技术学院 - 汪婧雅教授团队招收机器学习方向博士

仅需一万块钱！清华团队靠强化学习让 7B模型数学打败GPT-4o

TPAMI 2024 | 变态但很有效的图像识别方法！对于小样本泛化有奇效！

Stable Video Diffusion整出新活！学习【扩散模型视频】掌握3D/视频生成变革！

北京AI公司联合哈工大深圳联合招聘生物医学AI算法科研实习生（北京深圳均可）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉