01
DeepSeek V2技术解读
近期,杭州深度求索公司推出了DeepSeek V2,这是一个具有236B参数的大型语言模型,每个token激活21B参数,支持128K的上下文长度。
DeepSeek V2在保持性能的同时,相较于前代模型,大幅降低了训练成本和KV缓存需求,提升了生成吞吐量。
02
模型架构创新
DeepSeek V2在Transformer架构的基础上,进行了两项重大创新。
首先,提出了多头潜在注意力(MLA),通过低秩键值联合压缩降低推理时的KV Cache开销,同时保持性能。
其次,改进了前馈网络(FFN),采用DeepSeekMoE结构,提升了模型效率。
03
MLA压缩与RoPE编码
MLA机制包括对Key和Value进行低秩联合压缩,以及对Query和Key进行RoPE编码。
这种设计旨在减少存储需求,同时提高推理效率。
通过这种方式,DeepSeek V2在保持性能的同时,降低了显存消耗。
04
DeepSeekMoE架构
DeepSeekMoE通过细粒度专家分割和共享专家隔离,提高了专家专业化程度和知识获取的准确性。
这种架构使得DeepSeek V2在激活和总专家参数数量相同的情况下,超越了传统MoE架构。
05
预训练与对齐
DeepSeek V2的预训练语料库包含8.1T的token,其中中文token占比约12%。
模型超参数设置为60层Transformer,隐藏维度为5120。
训练超参数包括AdamW优化器和预热阶梯衰减策略。
此外,DeepSeek V2还通过监督微调和强化学习进行对齐,以提高模型的实用性和安全性。
推荐阅读
- • 深入揭秘DeepSeek核心技术GRPO:群体相对策略优化
- • DeepSeek究竟处于一个什么水平?
- • OpenAI指控DeepSeek违规“蒸馏”,背后隐藏了什么真相?
- • 大年初一实锤绿帽一条街,终于到我了,
- • 英伟达股价反弹的秘密:投资者必看的深度分析!DeepSeek的出现AI的百花齐放对英伟达是福是祸?