与其颠覆 Transformer,不如专注改良 Attention?
科技
2025-01-26 13:18
山东
--- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 ---1. 与其颠覆 Transformer,不如专注改良 Attention?为什么 Transformer 不会是 AGI 的最终版本?Attention 的局限引出了哪些改良路线?传统 Attention 变体被优化到什么程度了?结合线性 Attention 的架构优势更明显吗?Titans 有机会接替 Transformer 吗?...2. 大厂、AR 厂商们扎堆 AI 眼镜产品,仅为了数据积累能活到下一轮吗?CES 2025 上爆火、大厂排队入局...AI 眼镜赛道情况如何?AI 眼镜相比其他 AI 硬件,有哪些天然的优势?为什么数据对于 AI 眼镜厂商关注的核心?目前市面上热门的 AI 眼镜产品都有哪些异同?为什么说 AI 眼镜产品仅处于「及格」状态?差在哪?......本期完整版通讯含 2 项专题解读 + 29 项本周 AI & Robotics 赛道要事速递,其中技术方面 7 项,国内方面 12 项,国外方面 10 项。 消耗 99 微信豆即可兑换完整本期解读(约合人民币 9.9 元) 要事解读① 与其颠覆Transformer,不如专注改良 Attention?
引言:Transformer 架构自 2017 年被提出以来,基于 Attention 机制的优势迅速崛起,并成为 LLM 的主流架构。然而,计算成本和 KV 缓存问题等局限让业内认为原始的 Transformer 不会是 AGI 的最终版本,因而涌现出大量对 Attention 的改良、近似乃至替换工作,且热度越来越高。替换 Transformer 不如 爆改 Attention?深度学习领域围绕着如何改进 Transformer 架构的讨论从未停歇。此前,许多研究者试图寻找能够完全替代 Transformer 的新架构,以解决其在计算效率和内存占用方面的局限性。然而,随着研究的深入,继续使用Transformer但改进注意力机制(Attention Mechanism)的做法又开始升温。1、随着模型规模的扩大和应用场景的复杂化,Transformer 的局限性不断显现,这些缺陷促使研究者们不断探索新的改进方向① Transformer 最明显局限在于 Attention 机制的二次方的复杂度带来的计算成本,其需要计算每个词与其他所有词的注意力权重,导致时间复杂度为 O(n²),序列长度增加时计算成本急剧上升。② KV 缓存问题同样明显,为了加速推理,Transformer 需要缓存每个词的 Key 和 Value,这在处理长序列时会占用大量内存,空间复杂度为 O(n)。③ Transformer 还存在注意力分散的问题,在长序列中,全局注意力机制可能使重要信息被稀释,导致模型难以聚焦关键信息。④ 由于 Transformer 依赖额外的位置编码来理解词序,但在处理特别长的序列时,位置编码的可靠性会下降。⑤ 此外,Transformer 逐词生成的机制导致了训练和推理不一致问题。2、众多局限引发的共识是,原始的 Transformer 不会是 AGI 的最终版本,但这些局限引出了许多改进工作。3、由于 Attention 机制被广泛认为是 Transformer 成功的关键,因此许多研究都集中在如何改进自注意力机制,以提高其效率和效果。[1-2] [1-1]① 第一种是基于传统 Softmax Attention 的各类改进和变种,涵盖 MHA、MQA、GQA 等。② 第二种是以 RetNet、GLA 和 Lightning Attention 等工作为代表的 Linear Attention 路线。这些方法通过数学变换将计算复杂度从二次方降到线性(O(n)),同时基本保留了原有的模型表现。③ 在试图降低 Attention 二次方复杂度至线性复杂度的工作中,还衍生了 Mamba 为代表的态空间模型和以 DeltaNet 为代表的在线学习等路线。④ 还有类似如 MiniMax-01 的工作尝试结合 Softmax Attention 和 Linear Attention 的,用混合架构发挥两种机制的优势。由 Softmax Attention 衍生的最新变体有什么特点?在自然语言处理(NLP)领域,Softmax Attention 机制及其变体已成为提升模型性能和效率的关键技术。然而,随着模型规模的扩大和任务复杂度的提升,Softmax Attention 的时间复杂度为 O(n²)的局限性逐渐显现。这促使研究者们提出了多种变体,以优化 Softmax Attention 的性能和效率。
![](/static/gotop.png)