作者:方佳瑞,清华大学计算机科学技术博士,腾讯专家工程师
原文:https://zhuanlan.zhihu.com/p/16445683081
本文利用公开信息推导得到DeepSeekV3训练时候的MFU为37%左右,相比V2的MFU提升大概60%,希望对后续技术讨论提供数据支撑。
自2024年12月发布以来,DeepSeekV3在人工智能领域引发了广泛关注。该模型不仅被国内三大顶会公众号上连篇累牍报道,更在海外社交媒体平台X等渠道引发热议。其关键因素之一在于突破性的训练成本控制——仅用557万美元便训练出了性能达到SOTA水平的模型。这一成就不仅引发业界对AI模型训练成本效益的重新思考,更延伸出对美国对华技术出口管制政策有效性的讨论,甚至影响到投资者对英伟达股价走势的判断。
神秘的幻方公司,加之某热点人物跳槽的花边,DeepSeekV3目前俨然成为舆论焦点,其影响力已远远超出技术领域,被置于中美科技博弈、中国创新实力等宏观议题中深入探讨。随着讨论不断发酵,从科技从业者到政策研究者,从资本市场到普通网民,越来越多群体加入这场大讨论,使得DeepSeekV3相关话题持续升温,形成了一场跨领域、多维度的全民热议。
低训练成本是DeepSeekV3独树一帜的特征,也是一时激起千层浪的根源。为什么DeepSeekV3能把成本打下来,网络上已经有大量的分析。
第一,是模型架构设计,通过采用MoE结构,尽管参数有671B但是激活只有37B。
第二,是高效的训练框架(幻方自研的HAI-LLM),创新性地采用了多种高超的工程优化技巧,包括流水线并行,FP8量化,通信计算隐藏等。
模型本身的作用是无可争议的,而训练框架的效率则成为学界和业界关注的焦点。然而,作为衡量训练框架运行效率的核心指标,MFU(Model FLOPs Utilization)却长期被忽视——无论是在技术文献还是公众讨论中,都鲜少被提及,这是让人非常遗憾的。基于此,本文试图通过公开数据,尝试对DeepSeekV3的训练MFU进行系统性测算,旨在为后续的学术研究和行业讨论提供一个可靠的基准参考。
⚠️ 本文可能纰漏,希望大家一起指点改正,集思广益,把MFU算精准。
技术报告和模型开源代码中已经包含了足够的信息,让我们能够计算出精确MFU。方法是计算每个token训练是需要的FLOP数目,然后乘以总的token数,除以总的GPU hours即可得到MFU。
问题的核心是每个token的FLOP数目,它主要包含了MLA部分和MoE部分,Embedding和LM head等非主干部分也占很小一部分。
1. 参数说明
dim = 7168
inter_dim = 18432
moe_inter_dim = 2048
n_layers = 61
n_dense_layers = 3
n_heads = 128
n_routed_experts = 256
n_shared_experts = 1
n_activated_experts = 8
q_lora_rank = 1536
kv_lora_rank = 512
qk_nope_head_dim = 128
qk_rope_head_dim = 64
v_head_dim = 128
2. MLA的forward的FLOP
先规定:qk_head_dim = args.qk_nope_head_dim + args.qk_rope_head_dim
2.1 Q down+up pro:
flops = 2 * bs * seq_len * args.dim * args.q_lora_rank flops += 2 * bs * seq_len * args.q_lora_rank * args.n_heads * args.qk_head_dim
2.2 KV down proj:
flops += 2 * bs * seq_len * args.dim * (args.kv_lora_rank + args.qk_rope_head_dim)
2.3 KV up proj:
flops += 2 * bs * seq_len * args.kv_lora_rank * args.n_heads * (args.qk_nope_head_dim + args.v_head_dim)
2.4 score (Q x K^T): 由于是causal要/2
flops += 2 * bs * seq_len * seq_len * args.n_heads * args.qk_head_dim / 2
2.5 score x V: 由于是causal要/2
flops += 2 * bs * seq_len * seq_len * args.n_heads * args.v_head_dim / 2
2.6 Wo:
flops += 2 * bs * seq_len * args.n_heads * args.v_head_dim * args.dim
3. MoE的forward FLOP
flops += 2 * bs * seq_len * args.dim * args.moe_inter_dim * 3 flops += 2 * bs * seq_len * args.moe_inter_dim
4. MLP的forward FLOP
flops = 2 * bs * seq_len * args.dim * args.inter_dim * 3 flops += 2 * bs * seq_len * args.inter_dim
5. embedding的forward FLOPS
flops = 2 * bs * seq_len * args.dim
6. lm head的forward FLOPS
这里只算一个head情况,先不考虑MTP
flops = 2 * bs * seq_len * args.dim * args.vocab_size
7. MFU计算
按照backward计算FLOP是forward的2倍来计算,注意这里不把attn反向的重计算当成有效flops。
V3总共有61层,前3层用MLP,后58层用MoE来计算。另外每个token激活9(1个share+8个router)MoE Expert。context length按照4K估算。H100_peak_bf16_flops按照989.5 Tflops算(感谢 @Quokka 指正)
我们可以得到flops_per_1T_tokens。然后按照如下公式可以算出MFU:
gpu_hours = 2.664 * 3600 / 1024
MFU = flops_per_1T_tokens * 14.8 / (gpu_hours * H100_peak_bf16_flops)
代码我放在如下仓库中:
https://github.com/feifeibear/DPSKV3MFU/blob/main/dpskv3_flops.py
计算得到的MFU是37.2%。
@菽陌松囿 提出6ND+attn估算法:
按照2.4和2.5算attn_flosp。
MFU_ref = (37 * 6 + 3 * attn_flops * 61) * 14.8 / (gpu_hours * H100_peak_bf16_flops)
估算得到的MFU_ref是40.0%。笔者认为这一个偏高的估计,比如embedding层按参数算flops就不准确了,偏高很多。
⚠️ @233 大佬指出上述计算存在进制不一致问题。我们重新校准
H100_peak_bf16_flops=989.5 TFlops,其实是989.5*1000 MFlops,那我们重新校准:
H100_peak_bf16_flops=989.5 * 1000 / 1024来计算,我们重新校准:
也就是2.664M GPU hours中的M按照1e6来计算:
gpu_hours = 2.664 * 3600 / 1024 / 1e6 * 1024**2
这样所有T和B的单位都是1024了:
如此计算得到的MFU是36.2%。估算得到的MFU是39.0%,这样MFU稍微低了一些。
8. DeepSeek V3和V2的MFU对比
我们顺便对比一下V3相比V2的MFU提升,鉴于两个模型应该是在同一个集群上训练,MFU的差异可以反应技术报告中框架优化的效果。简单期间,我们这次就用参数估算方法。
DeepSeek V3的MFU正比于37(B)*14.8(T)/2.788M(GPU hours) = 196
与之对比,半年前在同一集群完成训练的DeepSeek V2的MFU正比于21(B)/0.1728M(GPU hours Per 1T tokens) = 121
DeepSeek的Infra团队半年内提效196/121 = 61%。
按照2美金一个 H800 GPU hours租金来算,2K卡集群的一个月租金为2000万RMB,DeepSeek Infra团队相当于每个月赚1200万RMB。