DeepSeek 惊艳背后的架构创新

文摘 2025-01-23 21:07 美国

DeepSeek v3 震撼发布，仅用十分之一计算量就达到比肩 Llama 3 405B 的性能！其秘诀在于三大架构创新：多头潜注意力 (MLA) 大幅降低长文本推理成本，混合专家模型 (MoE) 创新解决了路由崩溃难题，多令牌预测显著提升推理速度。DeepSeek 团队对 Transformer 的深刻理解和精妙设计，为 AI 领域树立了新的标杆。

小计算量，大智慧：DeepSeek v3 的惊艳亮相

你是否曾经因为大模型推理成本过高而望而却步？你是否曾经因为处理长文本而感到力不从心？现在，DeepSeek v3 来了！它以革命性的架构创新，将长文本推理成本暴降，算力需求狂砍 90%！

DeepSeek 近期发布的 DeepSeek v3 模型，在开源权重模型中，以其卓越的基准测试性能脱颖而出，可与当前最先进的模型相媲美。更令人惊叹的是，DeepSeek v3 仅用了约 280 万 H800 小时的训练硬件时间，就实现了这一领先性能。这相当于约 4e24 FLOP 的计算量（假设 MFU，即模型 FLOP 利用率为 40%），与性能相近的 Llama 3 405B 相比，训练计算量足足减少了约十倍！

这一突破性的进展，不仅彰显了 DeepSeek 团队强大的技术实力，也为 AI 领域的发展带来了新的启示：通过巧妙的架构设计，可以大幅提升模型的效率和性能，降低 AI 应用的门槛。DeepSeek v3 究竟是如何做到的？让我们一探究竟！

架构揭秘：DeepSeek v3 的三大创新利器

图 1：DeepSeek v3 架构概览图，展示了其两大核心改进：DeepSeekMoE 和多头潜注意力 (MLA)。图中未显示多令牌预测部分。

DeepSeek v3 之所以能够以小博大，关键在于其三大架构创新：多头潜注意力 (MLA)、混合专家模型 (MoE) 的改进以及多令牌预测。这三大创新分别针对 Transformer 架构中的不同瓶颈，实现了性能和效率的双重提升。

1. 多头潜注意力 (MLA)：突破长文本推理的性能瓶颈

• 什么是 KV 缓存？它为什么重要？

想象一下，你在读一本很长的小说，为了理解后面的情节，你需要记住前面的人物关系和事件发展。Transformer 模型也是一样，在进行推理时，为了理解当前输入与历史信息之间的关系，需要访问所有历史信息。为了避免重复计算，模型会将历史信息中的关键信息（键和值向量）存储起来，这就是所谓的 KV 缓存。

KV 缓存的大小直接影响了模型的推理速度和内存消耗，尤其是在处理长文本时，KV 缓存的开销会变得非常巨大。以 GPT-3 为例，它有 96 个注意力头，每个注意力头的维度是 128，并且有 96 个 Transformer 块。这意味着对于每个令牌，我们需要一个 2.36M 参数的 KV 缓存，或者在每个 KV 缓存参数精度为 2 字节时为 4.7 MB。可以想象，当处理长文本时，这个缓存会变得多么庞大！

• 传统方法的局限：分组查询注意力等方法如何牺牲模型质量换取性能？

为了减少 KV 缓存的开销，业界提出了多种方法，例如分组查询注意力 (Grouped-Query Attention, GQA) 和多查询注意力 (Multi-Query Attention, MQA)。这些方法通过将多个查询头分组共享同一个键和值头，从而减少 KV 缓存的大小。例如，Llama 3 70B 和 Mistral Large 2 等模型就采用了 GQA，将 KV 缓存大小减少了大约一个数量级。然而，这些方法本质上是一种“妥协”，它们通过牺牲模型质量来换取性能提升。就好比为了减轻行李负担，你不得不丢掉一些可能有用的物品。

• MLA 的突破：如何在不牺牲质量的前提下，大幅减少 KV 缓存大小？

DeepSeek 提出的多头潜注意力 (MLA) 则另辟蹊径，它在不牺牲模型质量的前提下，大幅减少了 KV 缓存的大小。MLA 的核心思想是将键和值向量的计算分解成两个步骤，并在推理过程中只缓存中间的“潜向量”，而不是完整的键和值向量。

• MLA 的核心原理：低秩矩阵与潜向量的巧妙应用

图 2：MLA 原理图。MLA 将键和值向量的计算分解成两个步骤，引入了潜变量。

如果把计算键和值向量比作从原材料加工成产品，传统的方法是直接进行加工。而 MLA 则引入了一个“中间产品”——潜向量。在传统的 Transformer 中，键和值向量是通过将残差流向量与一个形状为 (注意力头数 * 注意力头维度) x (模型维度) 的矩阵相乘得到的。MLA 则将这个矩阵分解成两个较小的矩阵：一个形状为 (潜变量维度) x (模型维度) 的矩阵，和一个形状为 (注意力头数 * 注意力头维度) x (潜变量维度) 的矩阵。

在推理过程中，只需要缓存形状为 (潜变量维度) x (序列长度) 的潜向量，而不是完整的键和值向量。这就好比，我们只需要存储“中间产品”，而不需要存储最终产品，大大节省了存储空间。通过减小潜变量维度，就可以大幅减少 KV 缓存的大小。

• 低秩压缩的优势：信息共享与差异化表达的完美结合

MLA 之所以有效，是因为它利用了不同注意力头之间信息重叠的特性。多个注意力头需要的信息往往有很多相似之处，低秩压缩则提取出这些共同的信息，并允许不同的注意力头以不同的方式使用这些信息。这就好比，多个厨师可以用相同的食材做出不同的菜肴。这不仅减少了冗余，甚至可能对训练产生有益的正则化效果。

DeepSeek 团队的“好品味”在 MLA 这里体现得淋漓尽致。他们没有盲目追求新技术，而是深入理解了注意力机制的本质，巧妙地利用了低秩压缩和潜向量，在不牺牲模型质量的前提下，大幅提升了长文本推理的效率。

2. 混合专家模型 (MoE) 的进化：告别路由崩溃，拥抱高效训练

• MoE 的基本原理：如何通过专家分工提升模型能力？

混合专家模型 (Mixture of Experts, MoE) 是一种通过将 Transformer 的前馈块替换为多个“专家”网络来提升模型能力的方法。MoE 模型引入了一个路由机制，该机制根据当前的输入，将每个令牌动态地路由到少数几个专家进行处理。这种“专家分工”的模式，使得模型可以用更少的计算量，学习到更多的知识。

• 路由崩溃难题：MoE 训练中常见的“拦路虎”

MoE 模型在训练过程中经常会遇到“路由崩溃”的问题，即模型总是倾向于将所有令牌都路由到少数几个专家，导致其他专家无法得到充分的训练。这就好比一个团队里，总是少数几个人承担了所有工作，而其他人则无事可做，长此以往，团队的整体效率就会下降。

这是因为梯度下降算法总是倾向于沿着当前最优的方向前进，一旦少数几个专家表现出优势，就会形成正反馈循环，导致其他专家逐渐被“冷落”。

• DeepSeek v3 的解决方案：多管齐下，攻克路由崩溃

DeepSeek v3 针对路由崩溃问题，提出了两种创新的解决方案：无辅助损失的负载均衡和共享专家机制。

-   **告别辅助损失：使用动态偏置项实现负载均衡**

传统的解决方法是在训练损失中添加一个辅助损失项，用于衡量专家路由的均衡程度。但 DeepSeek v3 的研究表明，这种“胡萝卜加大棒”式的强制均衡会损害模型的性能。他们提出了一种更优雅的解决方案：使用动态偏置项。

具体来说，每个专家都有一个可学习的偏置项，该偏置项会被加到专家亲和力上。在训练过程中，如果某个专家被激活的次数过少，则会逐渐增加其偏置项，使其更容易被选中。这就好比，给每个专家设定一个“基础人气值”，如果某个专家的人气过低，就稍微提升一下，使其有更多的机会被选中。这种方法避免了辅助损失带来的性能损失，同时又能有效地解决路由崩溃问题。

-   **共享专家机制：打破均衡路由的束缚，实现更灵活的知识分配**

DeepSeek v3 进一步提出了共享专家机制，将专家分为共享专家和路由专家。共享专家始终被激活，负责处理通用知识，而路由专家则根据需要进行选择，负责处理专业知识。这种机制打破了强制均衡路由的束缚，使得 MoE 模型可以更有效地利用不同专家的专业知识，提高了模型的整体性能。

这就好比一个团队里，既有负责日常工作的“常驻成员”(共享专家)，也有根据项目需要随时调配的“特聘专家”(路由专家)。这样，既能保证日常工作的稳定进行，也能灵活应对各种专业任务。

• 共享专家的优势：通用知识与专业知识的合理分配

共享专家机制的优势在于，它可以更合理地分配通用知识和专业知识。例如，一个语言模型需要频繁使用语法和常用词汇等通用知识，而对特定领域的专业知识则访问较少。共享专家可以专门负责处理这些通用知识，而路由专家则可以根据需要处理不同的专业知识。

3. 多令牌预测：加速推理，效率翻倍

• 多令牌预测的机制：一次前向传递，预测多个令牌

图 3：多令牌预测机制图。DeepSeek v3 在预测下一个令牌之后，还会将最终的残差流向量输入到另一个 Transformer 块中，并使用该块的输出预测第二个令牌。

DeepSeek v3 还引入了多令牌预测机制，即在每个前向传递中预测多个令牌，而不是像传统的 Transformer 那样只预测下一个令牌。具体来说，DeepSeek v3 在预测下一个令牌之后，还会将最终的残差流向量输入到另一个 Transformer 块中，并使用该块的输出预测第二个令牌。在训练过程中，DeepSeek v3 会将这两个令牌的预测损失加权求和，作为最终的训练损失。

• 多令牌预测的优势：提升训练效率，实现推测性解码

多令牌预测机制有两个主要的优势：一是提升了训练效率，因为模型可以在一次前向传递中学习到更多信息；二是实现了推测性解码，从而可以显著提高推理速度。

• 推测性解码：如何利用多令牌预测加速推理过程？

推测性解码是一种利用小模型生成多个候选令牌，然后用大模型进行验证的推理加速方法。DeepSeek v3 的多令牌预测机制天然支持推测性解码。在推理过程中，DeepSeek v3 可以一次生成两个令牌，然后用自身进行验证。根据 DeepSeek v3 的技术报告，第二个令牌的接受率在 85% 到 90% 之间，这意味着推理速度几乎可以翻倍！

这就好比，你写文章时，不是一个字一个字地写，而是一次写两个字，然后检查一下这两个字是否通顺，如果通顺就保留，不通顺就修改。这样，你的写作速度就会大大提高！

创新背后的思考：DeepSeek 团队的“好品味”

DeepSeek v3 的这些创新并非简单的暴力搜索，而是基于对 Transformer 架构的深刻理解。DeepSeek 团队展现了他们对 AI 研究的“好品味”：他们没有盲目追求新技术，而是深入理解了 Transformer 架构的本质，巧妙地利用了已有的技术手段，解决了实际问题。

例如，在 MLA 中，他们利用了低秩压缩和潜向量；在 MoE 的改进中，他们利用了动态偏置项和共享专家机制；在多令牌预测中，他们利用了推测性解码的思想。这些方法都不是全新的，但 DeepSeek 团队将它们巧妙地结合在一起，发挥出了巨大的威力。

未来展望：计算优先级的探索

DeepSeek v3 的成功，为未来的 AI 研究指明了方向。一个值得探索的方向是计算优先级的探索。目前，Transformer 模型对每个令牌的计算量都是相同的，这可能存在效率问题。例如，模型在处理一个简单的令牌和一个复杂的令牌时，使用的计算量是相同的。

未来的改进方向可能是根据预测的难易程度，动态调整计算量。例如，可以使用基于注意力分数的动态路由，将更多的计算资源分配给更重要的令牌；或者可以使用早期退出机制，在模型对某个令牌的预测已经足够自信时，提前结束计算。这就好比，考试的时候，我们应该把更多的时间花在难题上，而不是在简单的题目上浪费时间。

可以预见，DeepSeek v3 的发布，将进一步推动大模型领域的发展。我们期待 DeepSeek 团队未来能够带来更多令人惊喜的创新！