深度求索(DeepSeek-V3)技术报告解析

文摘   2025-01-28 23:40   山东  

文章来源于:bboczeng


DeepSeek-V3及其对应产品的基准性能(Credit: Deepseek)


刚才花2小时看完了《DeepSeek-V3 Technical Report》(可点击左下角阅读原文访问),下面说下我的感想。


1


文章贡献主要来自系统(Training Infra),而非模型本身。模型本身依然基于传统的Transformer:


① 他们世界首创在大规模LLM训练中系统性部署fp8(8位浮点)量化技术,这大大降低训练对显卡内存的需求,也加快了训练过程;



② 为了正确使用fp8的矩阵乘法,他们优化并改进了CUDA Kernal的调用方式,甚至给英伟达(Nvidia)提出了诸多Tensor Core方面的设计建议,这没有颠覆Nvidia;


③ 他们开发了自己的训练框架DualPipe,实现了16/64通道的流水线和专家(MOE)并行,极大改善了并 行训练中的通信和计算冲突问题,解决了调度瓶颈。


最终,DeepSeek实现了在2048个H800上的集群训练。


2


文章中大部分改进是渐进式的,而非革命性的:


① 对Context 扩展的技术实际上来自2023年文章YaRN,而且最终DeepSeek V3只实现了N=1的MTP,也即比传统的GPT多预测一个词;


② MOE所引入的Aux-Loss-Free Load Balancing技术,其实仅仅是在传统Expert的分配算法面前加入了一个bias term b_{i};


③ DeepSeek MOE上的另一个革新是加入了“共享Expert”,并保证训练时对于每个Token,这些Expert最多分布在4个node上,以减少通信瓶颈;


分了一组Shared Experts,并且给Expert分配系数加入了一个bias term,防止Mode Collapsing;



④ 其独创的Multihead Latent Attention 本质上是将QKV通过线性变换降维到一个Latent Space存入Cache,提高存储速度;这有利于推理任务加速;


⑤ 利用自己在量化交易中的经验,创造性地将某些移动平均值(如Adam参数状态)存在CPU中,减少并行开销,等等。


当然,能够将如此多新的细节整合在一起,并获得一个几乎没有任何Loss Spike的平滑的训练框架,这不得不说是一个奇迹。


3


DeepSeek 在RL和蒸馏方面确实得到了极其宝贵的经验。Deep Seek证明了:


① 推理能力可以通过RL获得;


② 推理能力可有效的被蒸馏到更小的模型上去。


虽然他们也同时观察到,蒸馏可能让小模型的输出变得更长,语言效率降低。此外,如果RL的Reward Model过于简单,这可能会让模型推理仅限于数学和代码任务。


4


总的来说,确实是一个非常好的论文,证明了在极限的精度和优化条件下,训练一个600B大模型成本能走到多低。


Deepseek不至于颠覆硅谷,但确实利空OpenAI,是一个非常好的阶段性进展。


恭喜全世界的AI研究者们!


######


今天美国三大股指暴跌!


延伸阅读:


转载请注明来源于公众号“全球航天事件”!


田村山下
我以我写荐轩辕
 最新文章