DeepSeek-V3 在推理速度上相较历史模型有了大幅提升。在目前大模型主流榜单中,DeepSeek-V3 在开源模型中位列榜首,与世界上最先进的闭源模型不分伯仲。
简介
DeepSeek-V3是一个强大的混合专家 (MoE) 语言模型,总共有 671B 个参数,每个 token 激活 37B。为了实现高效的推理和经济高效的训练,DeepSeek-V3 采用了多头潜在注意力 (MLA) 和 DeepSeekMoE 架构,这些架构在 DeepSeek-V2 中得到了彻底的验证。此外,DeepSeek-V3 开创了一种无辅助损失的负载平衡策略,并设置了多 token 预测训练目标以获得更强大的性能。在 14.8 万亿个多样化和高质量的 token 上对 DeepSeek-V3 进行了预训练,然后进行监督微调和强化学习阶段,以充分利用其功能。综合评估表明,DeepSeek-V3 优于其他开源模型,并实现了与领先的闭源模型相当的性能。尽管性能出色,但 DeepSeek-V3 仅需要 2.788M H800 GPU 小时即可完成完整训练。此外,它的训练过程非常稳定。
模型摘要
架构:创新负载平衡策略和训练目标
DeepSeek-V3 基本架构图。 遵循 DeepSeek-V2,在 DeepSeek-V2 高效的架构之上采用 MLA 和 DeepSeekMoE 进行高效推理和经济训练,首创了一种无辅助损失的负载平衡策略,最大限度地减少了因鼓励负载平衡而导致的性能下降。还研究了多标记预测 (MTP) 目标,并证明它有利于模型性能。它还可以用于推测解码以加速推理。
预训练:实现终极训练效率
我们设计了FP8混合精度训练框架,并首次在超大规模模型上验证了FP8训练的可行性和有效性。 通过算法、框架和硬件的协同设计,我们克服了跨节点 MoE 训练中的通信瓶颈,几乎实现了完全计算-通信重叠。 这大大提高了我们的训练效率并降低了训练成本,使我们能够在不增加额外开销的情况下进一步扩大模型规模。 我们以仅 2.664M H800 GPU 小时的经济成本,在 14.8T token 上完成了 DeepSeek-V3 的预训练,得到了目前最强的开源基础模型,预训练之后的后续训练阶段仅需 0.1M GPU 小时。
训练后:来自 DeepSeek-R1 的知识提炼
我们引入了一种创新方法,将长思维链 (CoT) 模型(特别是 DeepSeek R1 系列模型之一)中的推理能力提炼到标准 LLM(尤其是 DeepSeek-V3)中。我们的流程巧妙地将 R1 的验证和反射模式融入 DeepSeek-V3,并显著提高了其推理性能。同时,我们还控制了 DeepSeek-V3 的输出样式和长度。
模型下载
DeepSeek-V3-基础版 671B 37B 128K https://huggingface.co/deepseek-ai/DeepSeek-V3-Base
DeepSeek-V3 671B 37B 128K https://huggingface.co/deepseek-ai/DeepSeek-V3
注:HuggingFace 上的 DeepSeek-V3 模型总大小为 685B,其中包括 671B 的主模型权重和 14B 的多令牌预测(MTP)模块权重。
为了确保最佳性能和灵活性,我们与开源社区和硬件供应商合作,提供多种在本地运行模型的方法。有关分步指导,请查看第 6 节:如何在本地运行。
对于希望深入了解的开发人员,我们建议浏览README_WEIGHTS.md,了解有关主模型权重和多标记预测 (MTP) 模块的详细信息。请注意,MTP 支持目前正在社区内积极开发,我们欢迎您的贡献和反馈。
评估结果
基础模型
标准基准
最佳结果以粗体显示。差距不超过 0.3 的分数被视为处于同一水平。DeepSeek-V3 在大多数基准测试中都取得了最佳表现,尤其是在数学和代码任务上。
上下文窗口
(NIAH) 测试的评估结果Needle In A Haystack。DeepSeek-V3 在高达128K 的所有上下文窗口长度上均表现良好。
聊天模型
标准基准(大于 67B 的模型)
所有模型的评估配置均将输出长度限制为 8K。包含少于 1000 个样本的基准测试会使用不同的温度设置进行多次测试,以得出可靠的最终结果。DeepSeek-V3 是性能最佳的开源模型,并且与前沿闭源模型相比也表现出了竞争力。
开放式生成评估
英语开放式对话评估。对于 AlpacaEval 2.0,使用长度控制的胜率作为衡量标准。
聊天网站和 API 平台
在DeepSeek的官方网站上与DeepSeek-V3聊天: chat.deepseek.com
在DeepSeek平台上提供与 OpenAI 兼容的 API: platform.deepseek.com
本地运行
DeepSeek-V3 可以使用以下硬件和开源社区软件在本地部署:
DeepSeek-Infer 演示:为 FP8 和 BF16 推理提供了一个简单、轻量级的演示。 SGLang:完全支持 BF16 和 FP8 推理模式下的 DeepSeek-V3 模型。 LMDeploy:支持本地和云部署的高效 FP8 和 BF16 推理。 TensorRT-LLM:目前支持 BF16 推理和 INT4/8 量化,即将支持 FP8。 vLLM:支持具有 FP8 和 BF16 模式的 DeekSeek-V3 模型,实现张量并行和流水线并行。 AMD GPU:支持在 BF16 和 FP8 模式下通过 SGLang 在 AMD GPU 上运行 DeepSeek-V3 模型。 华为Ascend NPU:支持在华为Ascend设备上运行DeepSeek-V3。
感谢你看到这里,也欢迎点击关注下方公众号并添加公众号小助手加入官方读者交流群,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~