DeepSeek-V3发布:开源最强MoE,性能比肩GPT-4o,速度提升3倍!

文摘   2024-12-27 00:13   美国  

 

【点击此处,订阅“AI行业趋势”合集】,为您揭示人工智能领域的最新动态与未来走向。无论您是AI从业者、投资者,还是对AI充满好奇的普通读者,都能从中获得启发与思考。

DeepSeek-V3 重磅发布! 这款由 DeepSeek 团队全新自研的 MoE 模型,拥有 671B 的总参数量和 37B 的激活参数量,在 14.8T token 上进行了预训练,并在多个权威评测中超越 LLaMA3.1、Qwen2.5 等一众开源模型,性能直逼 GPT-4o、Claude-3.5-Sonnet 等顶尖闭源模型!更令人振奋的是,DeepSeek-V3 的推理速度相比前代提升了 3 倍,训练成本却大幅降低。 此次,DeepSeek-V3 的发布,不仅带来了技术上的突破,更以其开放的姿态和对长期主义的坚持,为 AI 领域注入了新的活力。最重要的是,在数学等困难任务上,DeepSeek V3 甚至超越了GPT-4o!

DeepSeek-V3 简介:MoE 架构,更大参数,更强性能

模型发布与开源

今天,DeepSeek 团队正式发布了全新系列模型 DeepSeek-V3 的首个版本,并同步开源。用户现在就可以登录官网 chat.deepseek.com,体验与最新版 V3 模型的对话乐趣。同时,API 服务也已同步更新,接口配置无需改动,当前版本暂不支持多模态输入输出。

技术亮点与创新训练策略

DeepSeek-V3 采用了先进的 Multi-head Latent Attention (MLA) 和 DeepSeekMoE 架构。

  • • MLA 架构: MLA 的核心思想是将 Key 和 Value 矩阵联合映射到一个更小的隐空间,在这个隐空间中计算 attention,从而有效减少了 KV 缓存的大小,极大地提升了长文本推理性能。如下图所示,在输出隐层后,传统的 MHA 架构需要存储完整的 K 和 V 矩阵,而 MLA 架构则通过一个低秩矩阵 WDKV 将输入隐层映射到一个更小的隐空间,并在这个隐空间中计算 K 和 V,从而减少了 KV 缓存的大小。



  • • DeepSeekMoE 架构: DeepSeekMoE 架构则通过更细粒度的专家划分和隔离,优化了模型的训练和推理效率。相比于传统的 MoE 架构,DeepSeekMoE 将专家划分得更细,并将一部分专家设置为所有输入共享,一部分专家设置为根据输入动态选择。这种设计使得 DeepSeekMoE 既能像传统的 MoE 架构那样,通过增加模型规模来提升性能,又能像 Dense 模型那样,保持较高的推理效率。

除了架构上的创新,DeepSeek-V3 还引入了两大训练策略的革新:

  • • 无辅助损失的负载均衡策略 (Auxiliary-Loss-Free Load Balancing): 传统的 MoE 模型通常会引入一个辅助损失函数来促进各个专家的负载均衡,但这往往会损害模型的性能。DeepSeek-V3 提出了一种全新的无辅助损失负载均衡策略,通过巧妙的路由机制和动态偏置项调整,实现了专家负载的平衡,同时避免了对模型性能的负面影响。
  • • 多 Token 预测 (Multi-Token Prediction): DeepSeek-V3 在训练过程中,不仅预测下一个 token,还同时预测接下来的多个 token。这种策略增强了模型对未来信息的规划能力,并已被证明可以提升模型的整体性能。同时,该策略还可以加速推理。

两大技术创新:引领 MoE 模型发展新方向

无辅助损失负载均衡:平衡负载,不损性能

在 MoE 模型中,如何让各个专家“各司其职”且“工作量”均衡,一直是一个难题。传统的做法是引入一个辅助损失函数,对那些“偷懒”的专家进行“惩罚”。然而,这种做法往往会“伤敌一千,自损八百”,损害模型的整体性能。

DeepSeek-V3 的一大创新在于,它摒弃了这种“惩罚”机制,转而采用了一种更加巧妙的“激励”策略。 它为每个专家引入了一个可动态调整的偏置项 (bias term),这个偏置项就像是给每个专家设定了一个“起跑线”。对于那些“工作量”较少的专家,DeepSeek-V3 会适当地将它的“起跑线”向前调整,让它更容易被“选中”。这样一来,既保证了各个专家的负载均衡,又避免了对模型性能的负面影响。如果把MoE模型比作一个公司,每个专家是一位员工,DeepSeek-V3的创新在于,它摒弃了传统的、会挫伤员工积极性的“惩罚”机制,转而采用了一种更加巧妙的“激励”策略。它为每个员工设定了一个“KPI”,这个KPI不和最终绩效奖励挂钩,而是和该员工需要付出的努力和工作时长相关。对于那些“工作量”较少的员工,DeepSeek-V3 会适当地将它的“KPI”降低一些,让他更容易被分配到新的工作任务。这样一来,既保证了各个员工的工作量均衡,又避免了对最终的绩效奖励产生负面影响。这种策略通过实验证明,比传统的基于辅助损失的方法更加高效,且模型性能更佳。

FP8 混合精度训练:降低成本,提速增效

FP8 是一种新的浮点数格式,相比目前主流的 BF16 格式,它的数值表示范围更小,但计算效率更高,内存占用更低。然而,由于 FP8 的精度较低,直接将其应用于大模型的训练往往会导致模型性能下降和训练不稳定。

DeepSeek-V3 的另一大创新在于,它首次在如此大规模的 MoE 语言模型上成功应用了 FP8 混合精度训练框架。 通过精细的量化策略和优化技巧,例如采用 tile-wise 或 block-wise 的分组量化方式,以及在关键计算步骤中使用更高精度 (如 FP32) 的累加操作,DeepSeek-V3 成功地克服了 FP8 训练的挑战。如采用per-group scaling factors沿着GEMM的内部维度K。这个功能在标准的FP8 GEMM中没有直接支持。然而,结合我们的精确FP32累积策略,它可以有效地实现。如下方图7 (a)所示, 通过这种方式,可以更好地适应异常值,通过根据更小的元素组调整比例。在附录B.2中,我们进一步讨论了当我们以与权重相同的方式在块基础上对激活进行分组和缩放时出现的训练不稳定性。并且在 14.8T 的超大训练数据集上,证明了 FP8 训练的可行性和有效性。这使得在相同的硬件资源下,可以训练更大规模的模型,或者以更低的成本训练相同规模的模型。



性能实测:全面领先开源模型,比肩最强闭源

综合性能对比:超越 Llama 3,媲美 GPT-4o

DeepSeek-V3 在多个权威的评测基准上进行了测试,结果令人瞩目。与目前最先进的开源模型 Llama 3 405B 相比,DeepSeek-V3 在大多数任务上都取得了领先,特别是在数学和代码生成方面,优势尤为明显。更令人振奋的是,DeepSeek-V3 的性能已经可以与 OpenAI 的 GPT-4o 以及 Anthropic 的 Claude-3.5-Sonnet 等最先进的闭源模型相媲美,展现了其强大的实力。尤其在数学方面,DeepSeek-V3 甚至在部分任务上超越了 GPT-4o!

细分领域优势:知识、代码、数学、中文全面开花

DeepSeek-V3 不仅在综合性能上表现出色,在各个细分领域也展现出了强大的实力:

  • • 百科知识: DeepSeek-V3 在 MMLU、MMLU-Pro、GPQA 和 SimpleQA 等知识类任务上相比前代 DeepSeek-V2.5 显著提升,接近当前表现最好的模型 Claude-3.5-Sonnet-1022。
  • • 长文本: 在 DROP、FRAMES 和 LongBench v2 等长文本评测中,DeepSeek-V3 的平均表现超越了其他模型,展现了其出色的长文本理解能力。
  • • 代码: DeepSeek-V3 在 Codeforces 等算法类代码场景中,远远领先于市面上已有的全部非 o1 类模型;在 SWE-Bench Verified 等工程类代码场景中,也逼近了 Claude-3.5-Sonnet-1022 的水平。
  • • 数学: 在美国数学竞赛(AIME 2024, MATH)和全国高中数学联赛(CNMO 2024)上,DeepSeek-V3 大幅超过了所有开源和闭源模型,展现了其惊人的数学推理能力。
  • • 中文能力: DeepSeek-V3 与 Qwen2.5-72B 在 C-Eval 等教育类评测和代词消歧等任务上表现相近,但在 C-SimpleQA 等事实知识类任务上更为领先。

长文本处理能力突出:效果优于同类模型

DeepSeek-V3 不仅在综合性能上表现出色,在长文本处理方面也展现出了强大的实力。 在 "Needle In A Haystack" (NIAH) 测试中,DeepSeek-V3 在高达 128K 的上下文窗口长度下都能保持良好的性能,这表明其具备处理超长文本的能力。

速度与成本:双重优化,体验升级

推理速度飙升:60 TPS,3 倍于前代

DeepSeek-V3 不仅性能强大,而且推理速度极快。 通过算法和工程上的优化,DeepSeek-V3 的生成速度达到了惊人的 60 TPS,相比前代 V2.5 模型提升了 3 倍。 这意味着用户可以更快地获得模型的反馈,享受到更加流畅的交互体验。

训练成本揭秘:FP8 训练 + 高效架构,经济实惠

DeepSeek-V3 的训练成本也得到了大幅降低。 这主要得益于两大方面:

  • • FP8 混合精度训练: FP8 格式的使用,降低了模型训练过程中的内存占用和计算量。根据测算,采用FP8可以将训练的显存开销减少约44%。
  • • 高效的架构设计: MLA 和 DeepSeekMoE 架构的应用,以及无辅助损失负载均衡策略的引入,都有效提高了训练效率。

这些优化措施使得 DeepSeek-V3 的预训练成本仅为 2664K H800 GPU 小时,后续训练阶段仅需 0.1M GPU 小时。 相比之下,GPT-4的训练成本预估在100-200M美金, 而DeepSeek-V3 的训练成本仅为 5.576M 美金,而且是在性能持平甚至部分超越的情况下!

API 定价与优惠:长期优惠,助力开发者

随着 DeepSeek-V3 的发布,DeepSeek 团队也调整了其 API 服务的定价策略。新的定价为每百万输入 tokens 0.5 元(缓存命中)/ 2 元(缓存未命中),每百万输出 tokens 8 元。

为了让更多开发者能够体验到 DeepSeek-V3 的强大能力,DeepSeek 团队还推出了长达 45 天的优惠价格体验期。在 2025 年 2 月 8 日之前,所有用户都可以享受每百万输入 tokens 0.1 元(缓存命中)/ 1 元(缓存未命中),每百万输出 tokens 2 元的优惠价格。

开源、部署与社区支持:开放生态,共创未来

FP8 权重开源:降低门槛,推动创新

DeepSeek-V3 采用了 FP8 训练,并开源了原生的 FP8 权重。 这使得研究人员和开发者可以更加方便地使用和研究 DeepSeek-V3,降低了大模型应用的门槛,推动了 AI 领域的创新发展。

广泛的社区支持:SGLang、LMDeploy、TensorRT-LLM 等,共建开源生态

DeepSeek-V3 的发布得到了开源社区的广泛支持。 SGLang 和 LMDeploy 等优秀的开源项目已经第一时间支持了 V3 模型的原生 FP8 推理,TensorRT-LLM 和 MindIE 也提供了 BF16 推理的支持。此外,DeepSeek 团队还提供了从 FP8 到 BF16 的转换脚本,方便社区进行模型的适配和应用。这些支持为开发者提供了多种选择,降低了模型部署的难度,促进了 DeepSeek-V3 生态的繁荣发展。

多样化硬件兼容:支持 NVIDIA、AMD、华为昇腾

DeepSeek-V3 不仅支持 NVIDIA 的 GPU,还通过 SGLang 支持了 AMD 的 GPU,并通过 MindIE 框架支持了华为昇腾系列的 NPU。 这种广泛的硬件兼容性,使得 DeepSeek-V3 可以部署在各种不同的硬件平台上,满足了不同用户的需求。

知识蒸馏与长期主义:持续进步,奔向 AGI

知识蒸馏:汲取 DeepSeek-R1 长 CoT 推理能力

DeepSeek-V3 还采用了知识蒸馏技术,从 DeepSeek-R1 模型中汲取了长 Chain-of-Thought (CoT) 的推理能力。 具体来说,DeepSeek 团队首先训练了一个专门用于特定领域(如代码、数学或一般推理)的专家模型,这个专家模型结合了监督微调(SFT)和强化学习(RL)的训练流程。然后,利用这个专家模型生成高质量的 SFT 数据,用于训练最终的 DeepSeek-V3 模型。这种方法使得 DeepSeek-V3 在保持简洁高效的同时,也具备了强大的推理能力。 例如在数学方面,通过蒸馏,DeepSeek-V2.5 +R1 Distill在MATH-500测试中,Pass@1提升了8.6, 得分从74.6提升至83.2。

长期主义:开源精神,探索不止

DeepSeek 团队一直秉承着“以开源精神和长期主义追求普惠 AGI”的信念。 此次 DeepSeek-V3 的发布,不仅体现了他们在技术上的持续创新,也展现了他们对开源社区的坚定承诺。

  • • 持续投入研发: DeepSeek 团队长期投入大量资源进行大模型的基础研究和开发,不断探索新的技术方向,例如本次在 DeepSeek-V3 中采用的 MLA 架构、无辅助损失负载均衡、FP8 混合精度训练等,都是团队长期研发的成果。
  • • 积极参与开源社区建设: DeepSeek 团队积极参与开源社区的建设,将 DeepSeek-V3 的模型权重开源,并与 SGLang、LMDeploy、TensorRT-LLM 等开源项目合作,为开发者提供便捷的部署工具和技术支持。
  • • 推动 AGI 技术普惠: DeepSeek 团队致力于降低大模型的使用门槛,让更多的人能够享受到 AGI 技术带来的便利。通过开源模型、提供 API 服务、推出优惠价格等方式,DeepSeek 团队正在推动 AGI 技术的普惠化发展。

未来,DeepSeek 团队将继续在 DeepSeek-V3 的基础上,探索深度思考、多模态等更丰富的功能,并持续与社区分享最新的研究成果,共同推动 AGI 技术的发展。

应用场景展望:DeepSeek-V3 的无限可能

DeepSeek-V3 的强大性能和高效的推理速度,使其在多个领域都具有广阔的应用前景。

代码生成与辅助编程

DeepSeek-V3 在代码生成任务上表现出色,可以帮助开发者自动生成代码、修复 bug、进行代码补全等,从而提高开发效率。 例如,开发者可以利用 DeepSeek-V3 开发智能的代码编辑器插件,实现代码自动补全、错误提示、代码风格检查等功能,提升开发效率和代码质量。

数学推理与科学研究

DeepSeek-V3 在数学推理方面展现了惊人的能力,可以辅助科研人员进行公式推导、定理证明等工作,加速科学研究的进程。 例如,在数学研究领域,DeepSeek-V3 可以帮助数学家验证猜想、探索新的定理;在物理学、化学等领域,DeepSeek-V3 可以帮助科学家进行复杂的计算和模拟,加速新材料、新药物的研发。

自然语言处理与智能交互

DeepSeek-V3 在自然语言处理方面也具备强大的实力,可以应用于机器翻译、文本摘要、智能问答等多个场景,为用户提供更加智能、便捷的交互体验。 例如,可以利用 DeepSeek-V3 开发更加智能的聊天机器人、智能客服系统、智能写作工具等,提升人机交互的效率和体验。

总结与展望

DeepSeek-V3 的发布,是 AI 领域的一大里程碑。 它不仅在性能上取得了重大突破,在推理速度、训练成本、开源友好性等方面也做出了显著的优化。通过创新的模型架构、训练策略和知识蒸馏技术,DeepSeek-V3 展现了 DeepSeek 团队强大的技术实力和对 AGI 梦想的不懈追求。

DeepSeek 团队表示,未来将在 DeepSeek-V3 的基础上,继续探索深度思考、多模态等更丰富的功能,并持续与社区分享最新的研究成果。 我们期待 DeepSeek 团队能够继续引领 AI 技术的发展,为我们带来更多的惊喜。

附录:相关链接

  • • DeepSeek-V3 论文链接:https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf
  • • DeepSeek-V3-Base 模型下载:https://huggingface.co/deepseek-ai/DeepSeek-V3-Base
  • • DeepSeek 官网:https://www.deepseek.com/

AI行业趋势

【点击此处,订阅“AI行业趋势”合集】,为您揭示人工智能领域的最新动态与未来走向。合集汇集了众多行业专家的深度洞察,涵盖AI技术革新、市场格局演变、应用场景拓展等多个维度。无论您是AI从业者、投资者,还是对AI充满好奇的普通读者,都能从中获得启发与思考。紧跟AI步伐,把握行业脉搏,“AI行业趋势”助您洞悉未来,引领变革!

 

子非AI
子非AI,亦解AI之妙:一站式AI情报站,助你开启智能未来之门。
 最新文章