DeepSeek-V3是一个具有6710亿参数的强大混合专家模型 (MoE),每个token激活370亿参数。为了实现高效推理和经济高效的训练,DeepSeek-V3采用了在DeepSeek-V2中得到充分验证的多头潜在注意力机制 (MLA) 和 DeepSeekMoE 架构。
此外,DeepSeek-V3开创性地提出了一种无需辅助损失的负载均衡策略,并设置了多token预测训练目标以增强性能。我们
全面的评估表明,DeepSeek-V3 的性能优于其他开源模型,并达到了与领先的闭源模型相当的水平。尽管性能卓越,DeepSeek-V3 的完整训练仅需278.8万H800 GPU小时,且训练过程非常稳定,整个训练过程中没有出现任何不可恢复的损失峰值或回滚。
高效的架构与训练策略
DeepSeek-V3在DeepSeek-V2高效架构的基础上,开创性地提出了一种无需辅助损失的负载均衡策略,最大限度地减少了由于鼓励负载均衡而造成的性能下降。研究了多标记预测 (MTP) 目标,并证明其对模型性能有益。它还可以用于推测性解码以加速推理。
极致的训练效率
DeepSeek-V3设计了一个FP8混合精度训练框架,并首次验证了FP8训练在大规模模型上的可行性和有效性。通过算法、框架和硬件的协同设计,克服了跨节点MoE训练中的通信瓶颈,几乎实现了计算与通信的完全重叠,显著提高了训练效率并降低了训练成本,使得能够在不增加额外开销的情况下进一步扩展模型规模。以仅266.4万H800 GPU小时的经济成本,在14.8万亿tokens上完成了DeepSeek-V3的预训练,产生了目前最强大的开源基础模型。预训练后的后续训练阶段仅需0.1万GPU小时。
知识蒸馏与推理能力增强
DeepSeek-V3 引入了一种创新的方法,将推理能力从长链思维 (CoT) 模型(特别是DeepSeek R1系列模型之一)蒸馏到标准LLM,特别是DeepSeek-V3。该流程巧妙地将R1的验证和反思模式融入DeepSeek-V3,显著提高了其推理性能,同时保持对DeepSeek-V3输出风格和长度的控制。
强大的性能表现
DeepSeek-V3在各种基准测试中均表现出色,尤其是在数学和代码任务上。它在许多基准测试中取得了最佳性能,包括但不限于:MMLU、BIG-bench hard、HumanEval、GSM8K、MATH等等。与其他开源模型相比,DeepSeek-V3在多个领域展现出显著的优势。与闭源模型相比,DeepSeek-V3也展现出极具竞争力的性能。其在英文、中文和多语言基准测试中都取得了令人印象深刻的成绩,证明了其强大的语言理解和生成能力。
便捷的部署与使用
DeepSeek-V3提供了多种部署方式,方便用户在本地或云端运行模型。用户可以通过Hugging Face轻松下载模型权重。为了确保最佳性能和灵活性,DeepSeek团队与开源社区和硬件厂商合作,提供了多种本地运行模型的方法,包括DeepSeek-Infer Demo、SGLang、LMDeploy、TensorRT-LLM、vLLM等,并支持在AMD GPU和华为昇腾NPU上运行。
总结
DeepSeek-V3作为一款参数规模达6710亿的强大开源语言模型,在训练效率、性能表现以及部署便利性方面都取得了显著的突破。其创新的架构设计、高效的训练策略以及知识蒸馏技术,使其在多个基准测试中超越其他开源模型,并达到与领先闭源模型相当的水平。DeepSeek-V3的开源也为AI社区的发展做出了重要贡献,为更广泛的研究和应用提供了强大的基础模型。
项目地址:https://github.com/deepseek-ai/DeepSeek-V3