深度解析DeepSeek V2:MoE、GRPO与MLA如何革新Transformer注意力机制?

文摘   2025-01-31 11:30   辽宁  


01

DeepSeek V2技术解读


近期,杭州深度求索公司推出了DeepSeek V2,这是一个具有236B参数的大型语言模型,每个token激活21B参数,支持128K的上下文长度。

DeepSeek V2在保持性能的同时,相较于前代模型,大幅降低了训练成本和KV缓存需求,提升了生成吞吐量。


02

模型架构创新


DeepSeek V2在Transformer架构的基础上,进行了两项重大创新。

首先,提出了多头潜在注意力(MLA),通过低秩键值联合压缩降低推理时的KV Cache开销,同时保持性能。

其次,改进了前馈网络(FFN),采用DeepSeekMoE结构,提升了模型效率。


03

MLA压缩与RoPE编码


MLA机制包括对Key和Value进行低秩联合压缩,以及对Query和Key进行RoPE编码。

这种设计旨在减少存储需求,同时提高推理效率。

通过这种方式,DeepSeek V2在保持性能的同时,降低了显存消耗。


04

DeepSeekMoE架构


DeepSeekMoE通过细粒度专家分割和共享专家隔离,提高了专家专业化程度和知识获取的准确性。

这种架构使得DeepSeek V2在激活和总专家参数数量相同的情况下,超越了传统MoE架构。


05

预训练与对齐


DeepSeek V2的预训练语料库包含8.1T的token,其中中文token占比约12%。

模型超参数设置为60层Transformer,隐藏维度为5120。

训练超参数包括AdamW优化器和预热阶梯衰减策略。

此外,DeepSeek V2还通过监督微调和强化学习进行对齐,以提高模型的实用性和安全性。

- END -

推荐阅读

💡添加关注,获取更多AI热点资讯~💡

感谢您的阅读,辛苦您 点赞、在看、分享!

AI说热点
AI说热点,说实时资讯,助你快速了解时事动态。
 推荐账号,扫码关注
推荐账号二维码
 最新文章