精读DeepSeek v3技术文档的Tech&Soul Seek

学术 2024-12-30 18:02 江苏

2024年12月26日，DeepSeek AI正式发布了其最新的大型语言模型——DeepSeek-V3，直接在外网刷屏…每秒处理 60 个token，比V2快3倍！MoE架构，6710亿参数，激活370亿参数，训练基于14.8万亿高质量 token，完全开源并直接53页论文把训练细节和盘托出的那种…

QLoRA一作的一个词评价就是：优雅…在平衡性能和成本上，它成了DeepSeek官方绘图中唯一闯进“最佳性价比”三角区的模型…在多项测评上，DeepSeek V3达到了开源SOTA，超越Llama 3.1 405B，能和GPT-4o、Claude 3.5 Sonnet等TOP模型正面掰掰手腕—而其价格比Claude 3.5 Haiku还便宜，仅为Claude 3.5 Sonnet的9%…

昨天宋大宝同学读完了 DeepSeek v3 的文档，心中颇多感慨，忍不住想在这里记录一下他对这款“业界有望启示未来低精度训练走向”的开源大模型的观察与思考：

DeepSeek v3 的亮点绝不仅仅是“Float8”或“超长上下文”这么简单，而是贯穿了从数值精度、注意力机制、MoE 路由到大规模分布式训练的一整套系统性革新，仿佛在宣示一个更激进、更大胆、更工程化的时代正在到来。

首先不得不说，Float8 训练这件事本身就足够让我眼前一亮。DeepSeek v3 不像很多项目那样将 E4M3（前向）和 E5M2（反向）分离使用，而是一刀切地坚持只用 E4M3，辅以分块缩放来“最大化发挥三位尾数的威力”。对外行人来说，这可能听起来有点不可思议：这么低的数值精度，会不会在训练中出现巨大误差？然而作者们巧妙地在每四次 FP8 乘加后进行一次 FP32 累加，把可能造成的误差淹没在更高精度的主累加器里。一来一回之间，反而让整个系统行云流水，稳定度据称只比常规 BF16 做法牺牲了“可容忍的”精度，却能显著地减少内存与算力开销。这背后不仅是数值分析与硬件适配的功力，也体现了追求极限效率的工程思维。

再说他们的“潜在注意力”（Latent Attention）。我们都知道，当前大模型在推理端若想支持数万甚至十数万的上下文，KV Cache 的存储将会极其庞大。传统方式下，每生成一个新 token，都要把 K, V 继续拼接，再做一次大规模矩阵乘法。而 DeepSeek v3 的方案是把输入先乘上降维矩阵，得到一个精简的，之后需要 K、V 的时候再做上采样。既减轻了缓存压力，又能以分块或合并的形式与后续的 Flash Attention 协同。这个点子在保证了多头注意力的灵活性的同时，也有效化解了大部分存储与计算开销。对于那些希望在有限显存中处理超长序列的团队，这可谓是一道最亮的曙光。

再看 DeepSeek v3 在 MoE（混合专家）模型上的改进也别开生面。以前大家都在为如何让各个专家负载均衡而头疼，引入五花八门的损失项、正则化系数等等。可他们偏偏另辟蹊径，在路由层加了“动态偏置”，如果某个专家被数据“淹没”，就自动调高或调低其偏置，让路由分配更均匀。没有特别繁琐的附加损失，更不必担心在多任务多语言场景下因固化分配而产生的“瓶颈”。说到底，这就是对 MoE 路由更深层次的理解：越是灵活、越是自适应，也就越能在大规模分布式训练中凸显潜能。

更值得一提的是：DeepSeek v3 的规模也让人称道：14.8T 的训练语料，其中相当一部分还来自早期 DeepSeek r1 的生成数据。虽然这种“模型自我生成训练集”的方式难免引发对数据多样性和真实性的担忧，但如果他们能在实践中验证合成数据并没有严重偏差，或能通过后期筛选和清洗进行纠偏，那这倒为所有苦于大规模语料不足的团队打开了一扇窗。

当然，再先进的架构也不是银弹。DeepSeek v3 的局限性同样显而易见。比如 FP8 训练对硬件的原生支持与数值稳定性要求极高，不是所有 GPU/TPU 都有足够成熟的驱动与指令集。再比如，“潜在注意力”虽然减少了缓存体积，但依然要在增量上采样时进行一系列精巧的运算合并，对代码实现和算力分配提出了相当高的要求。MoE 动态偏置一旦设计不周，也可能在极端情况下导致路由不稳定。更别提大规模合成数据本身，既是灵活之举，也潜藏了自回归式偏差或语料污染风险。

不管怎样，我仍认为 DeepSeek v3 为未来大模型的技术演化提供了宝贵的样本。它所带来的启示是：在低精度训练上，再也不必“一刀切”地停留在 FP16 或 BF16，还有更极致的选项值得尝试；在注意力结构上，“只存一小块就够了”的思路，可能比直接缓存海量 K, V 更优雅；在 MoE 路由上，“不走正统损失平衡”也许能走出一条更灵活的新路。更重要的是，这些创新点并非空中楼阁，而是经过工程与大规模训练验证，甚至公开了权重，展现出强大的实际操作性。

如果说 LLM 的竞争现已走入深水区，那么 DeepSeek v3 便是一艘锐意创新的远洋巨轮。它既表明了社区对全新数值精度、灵活路由以及超长序列处理的追求，也提醒我们现有方法远非完美，需要不断迭代打磨。从中我感受到的是——无论是科研还是工业落地，面对算力、数据、算法等多方挑战，仍然在边际突破！

具体的TechSeek一撇如下：

1.采用了创新的知识蒸馏方法，将 DeepSeekR1系列模型中的推理能力迁移到标准LLM中。该方法巧妙地融合了R1中的CoT验证和反思模式，显著提高了DeepSeek-V3的推理性能，同时又保留了对输出风格和长度的控制。

2.首次在大规模模型上验证了FP8训练的可行性和有效性。

3.通过协同优化，有效克服了跨节点MoE训练中的通信瓶颈，使得计算与通信几乎完全重叠。设计DualPipe高效流水线并行算法：在单个前向和后向块对内，重叠计算和通信，实现接近于0的all-to-all通信开销。

4.在DeepSeek-V2高效架构的基础上，DeepSeek-V3引入无辅助损失的负载均衡策略，具体而言，该策略为MoE中的每个专家引入了一个偏置项（bias term），并将其添加到相应的亲和度分数中，以确定top-K路由。通过在训练过程中动态调整偏置项，DeepSeek-V3能够在训练过程中保持专家负载的平衡，从而提高模型性能。

5.研发团队还证明，多标记预测目标（MTP）有利于提高模型性能，可以用于推理加速的推测解码。具体实现上，使用多个顺序模块来预测额外的令牌，并保持完整的因果链，每个MTP模块由一个共享嵌入层、一个共享输出头、一个Transformer块和一个投影矩阵组成。对于每个输入令牌，首先将其与下一个令牌的嵌入进行线性组合，然后通过Transformer块进行处理，最后通过输出头计算预测概率。

进技术交流群请添加AINLP小助手微信（id: ainlp2)
请备注具体方向+所用到的相关技术点
关于AINLP
AINLP 是一个有趣有AI的自然语言处理社区，专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享，主题包括LLM、预训练模型、自动生成、文本摘要、智能问答、聊天机器人、机器翻译、知识图谱、推荐系统、计算广告、招聘信息、求职经验分享等，欢迎关注！加技术交流群请添加AINLP小助手微信(id：ainlp2)，备注工作/研究方向+加群目的。

AINLP

一个有趣有AI的自然语言处理公众号：关注AI、NLP、大模型LLM、机器学习、推荐系统、计算广告等相关技术。公众号可直接对话双语聊天机器人，尝试对对联、作诗机、藏头诗生成器、自动写作等，查询相似词，测试NLP相关工具包。

最新文章

2024年RAG：回顾与展望

Baichuan Alignment Technical Report 论文精读

工作近五年，谈谈各类公司和部门的区别

[vLLM vs TensorRT-LLM] ：系统调度schedule比较

千问LLM之LLM的特工行动：工具召唤功能实战案例？Agent 到底是什么？

从infra的视角聊聊DeepSeek-V3

文末赠书 | 技术人的年末书单，这10本最受欢迎！

图解Megatron TP中的计算通信overlap

曾经火热的Graph Embedding和GNN在推荐系统上还有前途吗？

千问LLM：什么是 Sharding? 之ZeRO 优化（Zero Redundancy Optimizer）

谷歌41岁天才科学家SuperGLUE之父英年早逝！两月前留下绝笔：从事大模型研究让我深陷抑郁！

评价deepseek v3：又一个相信自己比英伟达懂GPU计算并做到了的团队

手写self-attention的四重境界 self-attention

微软公布OpenAI闭源模型参数！4o-mini 8B！

LLM 预训练到头了吗？

DeepSeek-V3技术报告解读

长文 | 大模型Post-Training总结

2024年大模型总结与展望（技术下篇）

一本醍醐灌顶的「大语言模型提示工程」教科书，熬夜读完

OpenAI-o3 与 Monte-Carlo 思想

o1-Coder：代码领域的OpenAI o1模型复现

DeepSeekV3带火大模型infra，入门看这篇就够了！

《大语言模型》：人工智能时代的知识盛宴，大模型中文书籍震撼发售！

5个开源RAG框架对比

【多模态&文档智能】OCR-free感知多模态大模型技术链路及训练数据细节

千问LLM：什么是 Sharding? 之数据并行（Data Parallelism）

硬核！实现千亿模型训推全流程的LLM开发利器！

我与vLLM的2024：清华大佬的vLLM开发之路

Qwen2.5技术报告解读：18万亿token训练

精读DeepSeek v3技术文档的Tech&Soul Seek

Building effective agents笔记

雷军挖了个95后AI天才少女做大模型，开出千万年薪！

万字长文梳理 2024 年的 RAG

一文带你全面了解 RAG 核心组件

千问LLM：AI界的“节食”计划

大模型存储效率太低，占用空间太大？推荐一个开源神器！

大模型的基本功

深度学习工作：从追求 SoTA 到揭示新现象

【LLM模型微调】LLMs-PEFT[微调]-QLoRA总结笔记v6.0

75k，确实可以封神了！

DeepSeek-V3发布：编程能力超过 Claude Sonnet 3.5！

2024年大模型总结与展望（技术上篇）

让Agent"少说废话"！打造高效的LLM多智能体系统

Scaling Test-Time Compute：向量模型上的思维链

全是细节｜大模型SFT的100个关键点

Qwen2.5 论文精读

技术人该积累什么，才能避免被AI淘汰？

右脑科技招聘AIGC算法实习生

多模态RAG杀疯了！！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉