计算DeepSeekV3训练的MFU

科技 2025-01-07 00:01 北京

作者：方佳瑞，清华大学计算机科学技术博士，腾讯专家工程师
原文：https://zhuanlan.zhihu.com/p/16445683081

本文利用公开信息推导得到DeepSeekV3训练时候的MFU为37%左右，相比V2的MFU提升大概60%，希望对后续技术讨论提供数据支撑。

自2024年12月发布以来，DeepSeekV3在人工智能领域引发了广泛关注。该模型不仅被国内三大顶会公众号上连篇累牍报道，更在海外社交媒体平台X等渠道引发热议。其关键因素之一在于突破性的训练成本控制——仅用557万美元便训练出了性能达到SOTA水平的模型。这一成就不仅引发业界对AI模型训练成本效益的重新思考，更延伸出对美国对华技术出口管制政策有效性的讨论，甚至影响到投资者对英伟达股价走势的判断。

神秘的幻方公司，加之某热点人物跳槽的花边，DeepSeekV3目前俨然成为舆论焦点，其影响力已远远超出技术领域，被置于中美科技博弈、中国创新实力等宏观议题中深入探讨。随着讨论不断发酵，从科技从业者到政策研究者，从资本市场到普通网民，越来越多群体加入这场大讨论，使得DeepSeekV3相关话题持续升温，形成了一场跨领域、多维度的全民热议。

低训练成本是DeepSeekV3独树一帜的特征，也是一时激起千层浪的根源。为什么DeepSeekV3能把成本打下来，网络上已经有大量的分析。

第一，是模型架构设计，通过采用MoE结构，尽管参数有671B但是激活只有37B。

第二，是高效的训练框架（幻方自研的HAI-LLM），创新性地采用了多种高超的工程优化技巧，包括流水线并行，FP8量化，通信计算隐藏等。

模型本身的作用是无可争议的，而训练框架的效率则成为学界和业界关注的焦点。然而，作为衡量训练框架运行效率的核心指标，MFU（Model FLOPs Utilization）却长期被忽视——无论是在技术文献还是公众讨论中，都鲜少被提及，这是让人非常遗憾的。基于此，本文试图通过公开数据，尝试对DeepSeekV3的训练MFU进行系统性测算，旨在为后续的学术研究和行业讨论提供一个可靠的基准参考。

⚠️ 本文可能纰漏，希望大家一起指点改正，集思广益，把MFU算精准。

技术报告和模型开源代码中已经包含了足够的信息，让我们能够计算出精确MFU。方法是计算每个token训练是需要的FLOP数目，然后乘以总的token数，除以总的GPU hours即可得到MFU。

问题的核心是每个token的FLOP数目，它主要包含了MLA部分和MoE部分，Embedding和LM head等非主干部分也占很小一部分。

1. 参数说明

dim = 7168
inter_dim = 18432
moe_inter_dim = 2048


n_layers = 61
n_dense_layers = 3
n_heads = 128


n_routed_experts = 256
n_shared_experts = 1
n_activated_experts = 8

q_lora_rank = 1536
kv_lora_rank = 512
qk_nope_head_dim = 128
qk_rope_head_dim = 64
v_head_dim = 128

2. MLA的forward的FLOP

先规定：qk_head_dim = args.qk_nope_head_dim + args.qk_rope_head_dim

2.1 Q down+up pro:

flops = 2 * bs * seq_len * args.dim * args.q_lora_rank flops += 2 * bs * seq_len * args.q_lora_rank * args.n_heads * args.qk_head_dim

2.2 KV down proj:

flops += 2 * bs * seq_len * args.dim * (args.kv_lora_rank + args.qk_rope_head_dim)

2.3 KV up proj:

flops += 2 * bs * seq_len * args.kv_lora_rank * args.n_heads * (args.qk_nope_head_dim + args.v_head_dim)

2.4 score (Q x K^T): 由于是causal要/2

flops += 2 * bs * seq_len * seq_len * args.n_heads * args.qk_head_dim / 2

2.5 score x V: 由于是causal要/2

flops += 2 * bs * seq_len * seq_len * args.n_heads * args.v_head_dim / 2

2.6 Wo:

flops += 2 * bs * seq_len * args.n_heads * args.v_head_dim * args.dim

3. MoE的forward FLOP

flops += 2 * bs * seq_len * args.dim * args.moe_inter_dim * 3 flops += 2 * bs * seq_len * args.moe_inter_dim

4. MLP的forward FLOP

flops = 2 * bs * seq_len * args.dim * args.inter_dim * 3 flops += 2 * bs * seq_len * args.inter_dim

5. embedding的forward FLOPS

flops = 2 * bs * seq_len * args.dim

6. lm head的forward FLOPS

这里只算一个head情况，先不考虑MTP

flops = 2 * bs * seq_len * args.dim * args.vocab_size

7. MFU计算

按照backward计算FLOP是forward的2倍来计算，注意这里不把attn反向的重计算当成有效flops。

V3总共有61层，前3层用MLP，后58层用MoE来计算。另外每个token激活9（1个share+8个router）MoE Expert。context length按照4K估算。H100_peak_bf16_flops按照989.5 Tflops算（感谢 @Quokka 指正）

我们可以得到flops_per_1T_tokens。然后按照如下公式可以算出MFU：

gpu_hours = 2.664 * 3600 / 1024

MFU = flops_per_1T_tokens * 14.8 / (gpu_hours * H100_peak_bf16_flops)

代码我放在如下仓库中：

https://github.com/feifeibear/DPSKV3MFU/blob/main/dpskv3_flops.py

计算得到的MFU是37.2%。

@菽陌松囿提出6ND+attn估算法：

按照2.4和2.5算attn_flosp。

MFU_ref = (37 * 6 + 3 * attn_flops * 61) * 14.8 / (gpu_hours * H100_peak_bf16_flops)

估算得到的MFU_ref是40.0%。笔者认为这一个偏高的估计，比如embedding层按参数算flops就不准确了，偏高很多。

⚠️ @233 大佬指出上述计算存在进制不一致问题。我们重新校准

H100_peak_bf16_flops=989.5 TFlops，其实是989.5*1000 MFlops，那我们重新校准：

H100_peak_bf16_flops=989.5 * 1000 / 1024来计算，我们重新校准：

也就是2.664M GPU hours中的M按照1e6来计算：

gpu_hours = 2.664 * 3600 / 1024 / 1e6 * 1024**2

这样所有T和B的单位都是1024了：

如此计算得到的MFU是36.2%。估算得到的MFU是39.0%，这样MFU稍微低了一些。

8. DeepSeek V3和V2的MFU对比

我们顺便对比一下V3相比V2的MFU提升，鉴于两个模型应该是在同一个集群上训练，MFU的差异可以反应技术报告中框架优化的效果。简单期间，我们这次就用参数估算方法。

DeepSeek V3的MFU正比于37(B)*14.8(T)/2.788M(GPU hours) = 196

与之对比，半年前在同一集群完成训练的DeepSeek V2的MFU正比于21(B)/0.1728M(GPU hours Per 1T tokens) = 121

DeepSeek的Infra团队半年内提效196/121 = 61%。

按照2美金一个 H800 GPU hours租金来算，2K卡集群的一个月租金为2000万RMB，DeepSeek Infra团队相当于每个月赚1200万RMB。

深度学习与NLP

专注深度学习、NLP相关技术、资讯，追求纯粹的技术，享受学习、分享的快乐。

最新文章

终于弄懂了《Transformer入门到精通》高清pdf分享

困在“第一学历”里的博士

所有大模型领域学习者必读论文，没有之一！由深度学习三巨头联合撰写！

深度｜Scale AI 95后华裔创始人：AI Agent的分水岭在于产品设计而非技术本身

AMD发布科研Agent，论文自动化评分趋近顶会NeurIPS水平~

微软 Phi-4：小模型的大智慧——技术详解及简单测评

最新中文版大模型书籍《大语言模型从理论到实践》免费pdf分享

GAN归来：模型大幅简化，训练更稳定，逆袭扩散模型，AI社区疯传

DeepSeek创始人专访：中国的AI不可能永远跟随，需要有人站到技术的前沿

Phi-4技术报告解读及简单测评

亲妹控告 Sam Altman 性虐待：将其告上法庭

[送5本]《大模型制造业的构建与实践》制造业人必要破除的AI大模型误区

2024 年度总结 LLM System Research：过去半年的科研心路历程

央国企！入局AI大模型（附66家名单）

让7B千问模型超越o1，微软rStar-Math惊艳登场，网友盛赞

下载10W+深度学习4大神书《深度学习科学》免费pdf下载

叹惜！年仅40岁，985教授离世一年后，成果登上Nature

下载10W+爆火神书《基于LangChain进行生成式AI开发》免费pdf分享

微软Phi-4开源，14B的王~

大厂新年第一裁，微软全部门危！内部员工：客户宁愿跳槽也不想与我们 IT 部门打交道

必看！大模型训练圣经《从头训练大模型》免费PDF分享

突发！长鑫存储、长江存储、中芯等被列入黑名单！

最新中文版大模型书籍《大语言模型从理论到实践》免费pdf分享

深度｜谷歌前CEO：即使美国赢得比赛第一阶段，也有充分理由相信中国最终会赢得这场竞赛，他们能够更快地在大规模产品中采纳技术

deepseek v3训推优化的剖析

英伟达「世界基础模型」诞生，引爆物理AI革命！75页报告出炉，GitHub狂飙2k星

学术顶会变成了“大厂”顶会?

所有大模型领域学习者必读论文，没有之一！由深度学习三巨头联合撰写！

AAAI 2025论文中了：没算法没实验，全靠idea思路好...

Github32k收藏，2025最新《Transformer入门到精通》高清pdf分享

老黄亮出全球最小超算，大模型在家跑！5090惊天问世，惊爆价16499

大语言模型中的查询优化技术：从基础到前沿的全景解析

手机也能玩RAG？谷歌EdgeRAG做到了~

Yann LeCun力荐！Facebook、Meta AI大佬编写《深度学习原理》经典教程书！

痛心！无人机领域顶尖专家张代兵博士去世，年仅47岁！知情人曝光原因…

终于弄懂了《Transformer入门到精通》高清pdf分享

刚刚，奥特曼更新博客：创业第十年，我的反思

TradingAgents：用多Agent框架炒股，多赚6个点收益

计算DeepSeekV3训练的MFU

神书《从零构建大模型》分享，尚未发布，GitHub标星22k！！

讣告：沉痛悼念博士生杜梅同学

必看！大模型训练圣经《从头训练大模型》免费PDF分享

DeepSeek-V3技术报告完整解读

LLM中的Attention实现及优化

在字节干大模型，是一种怎样的体验?

突发！SK海力士裁员！赔偿1年薪水！

[送5本]周志华“西瓜书”《机器学习》官方配套习题集

Infra视角下的DeepSeek-V3，到底有多强？

2025，AI Agents爆发元年~

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉