【他山之石】NIPS 2024 | 注意力掩码和LayerNorm在Transformer中的作用

科技 2025-01-14 18:04 北京

“他山之石，可以攻玉”，站在巨人的肩膀才能看得更高，走得更远。在科研的道路上，更需借助东风才能更快前行。为此，我们特别搜集整理了一些实用的代码链接，数据集，软件，编程技巧等，开辟“他山之石”专栏，助你乘风破浪，一路奋勇向前，敬请关注！

前言本文与之前将自注意力视为连续时间动力系统的研究不同，作者采用了离散时间建模，更贴近实际Transformer架构。

论文信息

题目：On the Role of Attention Masks and LayerNorm in Transformers

注意力掩码和LayerNorm在Transformer中的作用

作者：Xinyi Wu，Amir Ajorlou，Yifei Wang，Stefanie Jegelka，Ali Jadbabaie

论文创新点

注意力掩码对秩崩溃的影响分析：作者首次系统性地分析了注意力掩码对Transformer中秩崩溃现象的影响。通过引入图论方法，作者证明了在准强连通图的情况下，即使使用稀疏或局部注意力掩码，令牌的秩崩溃仍然会发生，但速率会减缓。这一发现为设计更高效的注意力机制提供了理论基础。
LayerNorm对秩崩溃的缓解作用：作者通过构建非平凡的反例，证明了LayerNorm在某些情况下可以有效缓解令牌的秩崩溃问题。在适当选择值矩阵的情况下，带有LayerNorm的自注意力动态可以同时拥有从1到满秩的任意秩的平衡点。

摘要

自注意力机制是Transformer的关键机制，而Transformer是现代基础模型的核心构建块。最近的研究表明，纯自注意力机制在深度增加时会经历秩崩溃，限制了模型的表达能力和进一步利用模型深度的能力。然而，现有的关于秩崩溃的文献大多忽略了Transformer中的其他关键组件，这些组件可能缓解秩崩溃问题。在本文中，作者对自注意力机制下的秩崩溃进行了综合分析，考虑了注意力掩码和层归一化（LayerNorm）的影响。具体来说，作者发现尽管纯掩码注意力仍然会指数级地崩溃到一个秩为1的子空间，但稀疏或局部掩码注意力可以证明减缓崩溃速率。在LayerNorm的情况下，作者首先展示了对于某些类别的值矩阵，秩为1的子空间崩溃仍然会指数级发生。然而，通过构建非平凡的反例，作者证明了在适当选择值矩阵的情况下，一类通用的序列可能不会收敛到秩为1的子空间，并且带有LayerNorm的自注意力动态可以同时拥有从1到满秩的任意秩的平衡点。作者的结果反驳了之前关于LayerNorm在自注意力秩崩溃中不起作用的假设，并表明带有LayerNorm的自注意力构成了一个比最初认为的更具表达力和多功能的非线性动力系统。

4. 主要结果：带掩码和LayerNorm的注意力

为了研究令牌表示在自注意力动态下的演变及其长期行为，作者通过来衡量令牌相似性：

该度量在数学上等价于[12]中使用的度量，但(4)的形式在一般分析中更容易处理，并且更直接计算。作者的公式的另一个优点是它清楚地表明定理1和定理2不依赖于的具体选择：这些结果适用于任何Lipschitz连续的，其Lipschitz常数使得当且仅当，因为作者可以直接推导出

最后，作者在分析中采用以下假设：

A1 包含自环，即对于每个令牌，。
A2 存在常数，使得

A1确保每个令牌在每一层都有一个邻居，从而使得掩码注意力的计算对于每个令牌在每一层都是良定义的，而A2假设键和查询权重矩阵是有界的，这在实践中对于高效的注意力计算至关重要。

掩码注意力

作者首先分析不带LayerNorm的情况，并关注注意力掩码的影响。为了确保在没有LayerNorm的情况下，令牌轨迹对于所有都是有界的，作者进一步假设：

A3 序列是有界的。

然后，对于一般的注意力掩码，令牌之间仍然存在强烈的连接，并且令牌表示会指数级地崩溃到秩为1。定理1。考虑定义在(2)中的不带LayerNorm的自注意力动态。在A1-A3下，如果是准强连通图，则存在，使得对于所有，

因此，令牌的秩崩溃会指数级发生，即存在，使得

其中是的半径，这意味着令牌会指数级收敛到一个共同向量。上述结果表明，在纯自注意力下，只要序列中存在一个令牌，所有其他令牌都可以在固定层数内直接或间接参与，那么令牌的秩崩溃就会指数级发生。特别是，它将[12]中的主要结果从是完全图推广到更一般的注意力模式类别：注意力模式只需要是准强连通的，这意味着结果适用于实践中使用的各种注意力掩码，包括GPT系列中使用的因果掩码，或许多高效Transformer模型中部署的稀疏注意力模式。作者讨论了以下几个有趣的含义。局部 vs. 全局注意力 指数速率在图半径上单调。这意味着对于半径较大的图，秩崩溃应该较慢。作者的结果间接支持使用局部注意力模式，这不仅使注意力计算更高效（这是这些工作的最初动机），而且隐式地缓解了秩崩溃问题。聚焦 vs. 均匀注意力 此外，指数速率在上单调递减，这意味着越小，秩崩溃越慢。可以将解释为注意力在可达令牌之间的“聚焦”程度，因为在注意力均匀分布在可达令牌时达到最大值。除了应用注意力掩码和限制可达令牌的数量外，控制注意力聚焦程度的另一种方法是通过温度项。较大的值会使可达令牌之间的注意力分配更加均匀，从而使秩崩溃在各层之间更快发生。秩崩溃与通用逼近能力的权衡 最后，对于强连通图，上述结果还揭示了通用函数逼近能力与秩崩溃速率之间的权衡。Yun等人表明，带有强连通图掩码的Transformer是序列到序列函数通用逼近器，然而，对于掩码，它们需要至少的直径层才能实现完整的序列到序列函数逼近属性。这意味着直径较小的掩码（因此半径较小，因为半径直径半径）在函数逼近能力方面更高效，但它们更容易发生秩崩溃。

带LayerNorm的掩码注意力：秩崩溃

到目前为止，作者已经考虑了不带LayerNorm的纯自注意力动态，并关注了注意力掩码的作用。如果在(3)中添加LayerNorm并考虑注意力动态会发生什么？在本节中，作者首先展示一个负面结果，表明对于某些类别的值矩阵，令牌的指数级崩溃到一个共同向量仍然会发生。定理2。考虑定义在(3)中的带LayerNorm的自注意力动态。设是强连通图。假设A1-A2，并且对于所有是正交的，并且初始输入满足：

() ，是满秩的。

则存在，，使得，并且

其中是的半径，这意味着令牌会指数级收敛到上的一个共同点。该结果可以看作是[15]中定理4.1的广义离散版本。值得注意的是，作者的分析纯粹基于高级线性代数工具：非负矩阵的无限乘积及其遍历性，并且可以考虑随时间变化的权重和一般的注意力掩码，而[15]中则是固定且是完全图。满足初始输入条件的一种方法是要求，并以均匀随机的方式初始化令牌在上，那么条件几乎必然成立。这是[15]中处理条件的方式。注意，条件()意味着存在，使得对于所有，，这可以通过超平面分离定理或Farkas引理得出（见附录C中的引理6）。如果初始令牌几何满足比上述更强的条件，则()不再必要，定理2甚至可以直接推广到准强连通图。作者定义，表示令牌之间的最小余弦相似度。如果初始时所有令牌对的余弦相似度都是非负的，那么只要是准强连通的，秩崩溃就会指数级发生。推论1。考虑定义在(3)中的带LayerNorm的自注意力动态。设是准强连通图。在A1-A2下，如果对于所有是正交的，并且，则存在，，使得，并且

其中是的半径，这意味着令牌会指数级收敛到上的一个共同点。全掩码 vs. 因果掩码 作者可以通过指定掩码中的中心节点数量来细化推论1，那么指数速率的上界将是，这意味着秩崩溃的速率会受到掩码中中心节点数量的负面影响。在全注意力的情况下，是完全图，掩码将有个中心节点，与定理2中的上界匹配。在因果注意力的情况下，是因果图，掩码只有一个中心节点，上界会更宽松，表明因果掩码在缓解秩崩溃速率方面相对于全掩码具有优势。后LN vs. 前LN LayerNorm的定义在(3)中遵循原始Transformer论文，如今称为后LN。许多LLMs中的另一种LayerNorm用法是前LN，其中LayerNorm位于自注意力之前，可以写为

注意，定理2和推论1直接适用于前LN的情况，证明类似。

带LayerNorm的掩码注意力：反例

前几节的主要结果似乎有些悲观：无论是带LayerNorm还是不带LayerNorm，自注意力动态似乎注定会在长期内崩溃到秩为1的子空间。然而，在本节中，作者首先构建了一个非平凡的反例，其中仅使用LayerNorm，对于一类通用的输入序列，令牌收敛到一个平衡点，其中秩崩溃不会发生。请注意，对于Transformer模型来说，重要的是它能够防止一类通用输入序列的秩崩溃，而不仅仅是一个特定的输入序列。然后，作者展示了一个一般结果，表明在LayerNorm和适当选择值矩阵的情况下，自注意力动态可以同时拥有从1到满秩的任意秩的平衡点。此外，对于一类通用的输入序列，令牌在结果动态下不会收敛到秩为1的子空间。

4.3.1 说明性反例

为简单起见，作者考虑，并且是因果掩码。然后设，这导致注意力矩阵

作者进一步设

对于。不失一般性，设。然后经过仔细分析，作者发现，根据其初始位置，第一个令牌将收敛到或。假设第一个令牌收敛到。那么第二个令牌的收敛情况如图1所示，其中，。详细的证明可以在附录E中找到。注意，由于LayerNorm的缩放效应，的任何缩放版本在这里同样有效。备注2。对于任何正交矩阵，在这个例子中同样有效，并且结果令牌轨迹为。这个非平凡的反例表明，在LayerNorm动态下，存在适当选择的矩阵，可以防止令牌崩溃到秩为1的子空间，对于非零测度的输入序列。

5. 数值实验

本文目的在于学术交流，并不代表本公众号赞同其观点或对其内容真实性负责，版权归原作者所有，如有侵权请告知删除。

收藏，分享、在看，给个三连击呗！

人工智能前沿讲习

领先的人工智能知识平台

【源头活水】NeurIPS 2024 | 超越KL！大连理工提出WKD：基于WD距离的知识蒸馏新方法

【他山之石】ACM Computing Surveys | 港大等基于可靠性视角的深度伪造检测综述，覆盖主流基准库、模型

【源头活水】DEIM: 在DETR中使用多对一匹配的策略加快收敛

【源头活水】GAN归来：模型大幅简化，训练更稳定，逆袭扩散模型，AI社区疯传

【他山之石】DeepSeek V3论文细节：如何绕开CUDA的垄断！

【他山之石】原来，这些顶级大模型都是蒸馏的

【他山之石】创造历史！DeepSeek超越ChatGPT登顶中美AppStore

【他山之石】全球掀DeepSeek复现狂潮！硅谷巨头神话崩塌，30刀见证啊哈时刻

【源头活水】2025年Next Token Prediction范式会统一多模态吗？

【他山之石】DeepSeek-R1持续刷屏，连Open R1都来了！抱抱脸发起，1天狂揽1.9k星

【源头活水】中国AI太强，Meta工程师吓疯？自曝疯狂熬夜复制DeepSeek，天价高管心虚了

【他山之石】Transformer作者初创重磅发布Transformer²！AI模型活了，动态调整自己权重

【他山之石】扩散模型也能推理时Scaling，谢赛宁团队重磅研究可能带来文生图新范式

【他山之石】顶刊TPAMI 2024！北大提出实用、紧致的图像压缩感知网络PCNet，代码已开源

几秒生成逼真3D场景，泛化媲美Stable Diffusion | 浙大&蚂蚁等提出Prometheus

【源头活水】近8年后，谷歌Transformer继任者「Titans」来了，上下文记忆瓶颈被打破

【他山之石】重新思考图像超分辨率中的不平衡问题以实现高效推理(nips2024)

【源头活水】一个关于MoE的猜想

【他山之石】TPAMI-2024 | Uni-AdaFocus视频理解框架，让AI学会「划重点」，计算效率提升4-23倍！

几秒生成逼真3D场景，泛化媲美Stable Diffusion | 浙大&蚂蚁等提出Prometheus

即插即用，无缝集成各种模型，港科大&蚂蚁等发布Edicho：图像编辑一致性最新成果！

纯卷积实现用于图像生成扩散模型？DiC：重新思考扩散模型中的 3×3 卷积

【他山之石】TPAMI 2024 | 倒置金字塔多任务Transformer用于视觉场景理解

【源头活水】NeurIPS 2024 Spotlight | 轻微的预训练数据扰动如何造就更优秀的扩散模型

【他山之石】NIPS 2024 | 注意力掩码和LayerNorm在Transformer中的作用

【他山之石】NeurIPS'24｜新型成员推理方法CLiD：一举破解文生图模型隐私难题

【源头活水】视频任意门来了！港大&达摩院新作VideoAnydoor：向视频无缝传送物体，同时支持准确动作控制

【他山之石】AAAI 2025 | 基于真实世界雾霾驾驶视频的视频去雾和深度估计

【源头活水】英伟达「世界基础模型」诞生，引爆物理AI革命！75页报告出炉，GitHub狂飙2k星

AAAI 2025 | SparseViT：以非语义为中心、参数高效的稀疏化视觉Transformer

注意力计算减少99.5%，端侧文生图扩散模型成功范式！CLEAR：类卷积线性扩散Transformer

【源头活水】英伟达「世界基础模型」诞生，引爆物理AI革命！75页报告出炉，GitHub狂飙2k星

中科院/中科大/芝加哥大学创新动态Token合并框架，无需微调，依然强大，零样本视频理解的突破性进展！

【他山之石】AAAI 2025 | IML领域首个稀疏化视觉Transformer，代码已开源

【源头活水】人工智能是不是走错了方向？

【源头活水】OpenAI奥特曼发长文「反思」：十年艰难创业路，如今已掌握AGI秘诀

【他山之石】AAAI 2025 | 基于真实世界雾霾驾驶视频的视频去雾和深度估计

【源头活水】DeepSeek V3获竞技场最强开源认证！与Claude 3.5 Sonnet对比实测来了

1.4s 即可生成1024px图像！SnapGen：轻量化架构和训练策略实现端侧文生图

【他山之石】ACCV 2024 | ViT涨点神器！DeBiFormer：双层路由注意力新框架

【源头活水】数据不够致Scaling Law撞墙？CMU和DeepMind新方法可让VLM自己生成记忆

【他山之石】AAAI 2025｜腾讯优图实验室10篇论文入选，含大型语言模型、深度伪造检测等研究方向

【源头活水】聊一聊大模型六小虎和四大厂的2024！

【源头活水】NeurIPS 2024｜让模型预见分布漂移：动态系统颠覆性设计引领时域泛化新革命

【他山之石】AAAI 2025 | 港大提出SparX：强化Vision Mamba和Transformer的稀疏跳跃连接机制

【综述专栏】2024->2025必看的十大「人工智能领域综述」论文

【他山之石】国产之光DeepSeek把AI大佬全炸出来了！671B大模型训练只需此前算力1/10，细节全公开

【源头活水】AAAI 2025 | SparseViT：参数高效的稀疏化视觉Transformer

【源头活水】首次！大模型自动搜索人工生命，做出AI科学家的Sakana AI又放大招

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉