“他山之石,可以攻玉”,站在巨人的肩膀才能看得更高,走得更远。在科研的道路上,更需借助东风才能更快前行。为此,我们特别搜集整理了一些实用的代码链接,数据集,软件,编程技巧等,开辟“他山之石”专栏,助你乘风破浪,一路奋勇向前,敬请关注!
论文信息
题目:On the Role of Attention Masks and LayerNorm in Transformers
注意力掩码和LayerNorm在Transformer中的作用
作者:Xinyi Wu,Amir Ajorlou,Yifei Wang,Stefanie Jegelka,Ali Jadbabaie
论文创新点
注意力掩码对秩崩溃的影响分析:作者首次系统性地分析了注意力掩码对Transformer中秩崩溃现象的影响。通过引入图论方法,作者证明了在准强连通图的情况下,即使使用稀疏或局部注意力掩码,令牌的秩崩溃仍然会发生,但速率会减缓。这一发现为设计更高效的注意力机制提供了理论基础。 LayerNorm对秩崩溃的缓解作用:作者通过构建非平凡的反例,证明了LayerNorm在某些情况下可以有效缓解令牌的秩崩溃问题。在适当选择值矩阵的情况下,带有LayerNorm的自注意力动态可以同时拥有从1到满秩的任意秩的平衡点。
摘要
4. 主要结果:带掩码和LayerNorm的注意力
A1 包含自环,即对于每个令牌,。 A2 存在常数,使得
掩码注意力
A3 序列是有界的。
带LayerNorm的掩码注意力:秩崩溃
() ,是满秩的。
带LayerNorm的掩码注意力:反例
4.3.1 说明性反例
5. 数值实验
本文目的在于学术交流,并不代表本公众号赞同其观点或对其内容真实性负责,版权归原作者所有,如有侵权请告知删除。
收藏,分享、在看,给个三连击呗!