昨天,国内人工智能初创公司深度求索(DeepSeek)发布了全新大模型DeepSeek-V3。该模型在Aider多语言编程测试排行榜中,已超越Anthropic的Claude 3.5 Sonnet大模型,仅次于榜首的OpenAI o1大模型。效果这么好,并且还节省了 90% 的算力,这么炸裂的效果,让笔者也忍不住一探究竟。如果真这么强,那对于算力这么投资方向要重新考虑了。不管英伟达链也好,ASIC 链条也罢,那不就相当于减少 90% 的销量,妥妥的利空!首先让我们看看论文本身,看看DeepSeek V3是什么。
DeepSeek-V3,这是一个强大的专家混合(MoE)语言模型,总计拥有6710亿参数,每个令牌激活37亿参数。为了实现高效的推理和成本效益的训练,DeepSeek-V3采用了多头潜在注意力(MLA)和DeepSeekMoE架构,这些在DeepSeek-V2中得到了充分验证。此外,DeepSeek-V3首创了一种无辅助损失的负载平衡策略,并设定了多标记预测训练目标以提升性能。本文在148万亿多样化且高质量的令牌上预训练DeepSeek-V3,随后进行了监督细调和强化学习阶段,以充分发挥其能力。全面评估显示,DeepSeek-V3的表现超越了其他开源模型,并达到了领先的闭源模型的性能水平。尽管性能出色,DeepSeek-V3的完整训练仅需278.8万H800 GPU小时。此外,其训练过程非常稳定。在整个训练过程中,本文没有经历任何无法恢复的损失峰值,也没有进行任何回滚。
本文的主要贡献包括:
架构:创新的负载平衡策略和训练目标
基于DeepSeek-V2的高效架构,本文首创了一种无辅助损失的负载平衡策略,该策略最小化了由于鼓励负载平衡而引起的性能下降。 本文研究了多标记预测(MTP)目标,并证明其对模型性能有益。它还可以用于推测性解码以加速推理。
预训练:迈向终极训练效率
本文设计了一个FP8混合精度训练框架,并首次验证了在极大规模模型上FP8训练的可行性和有效性。 通过算法、框架和硬件的共同设计,本文克服了跨节点MoE训练中的通信瓶颈,实现了几乎完全的计算通信重叠。这显著提高了DeepSeek V3的训练效率并降低了训练成本,使我们能够进一步扩大模型规模而无需额外开销。 仅使用2.664M H800 GPU小时的经济成本,本文完成了DeepSeek-V3在14.8T令牌上的预训练,产生了当前最强的开源基础模型。预训练后的后续训练阶段仅需0.1M GPU小时。
后训练:从DeepSeek-R1蒸馏知识
本文引入了一种创新方法,从长链式思维(CoT)模型中,特别是从DeepSeek R1系列模型中,将推理能力蒸馏到标准的大型语言模型(LLMs),特别是DeepSeek-V3中。本文的流程巧妙地将R1的验证和反思模式整合到DeepSeek-V3中,显著提高了其推理性能。同时,本文还控制了DeepSeek-V3的输出风格和长度。
核心评估结果总结
**知识:**在教育基准测试如MMLU、MMLU-Pro和GPQA上,DeepSeek-V3的表现超过所有其他开源模型,分别达到88.5、75.9和59.1。其性能与领先的闭源模型如GPT-4o和Claude-Sonnet-3.5相媲美,缩小了开源与闭源模型在此领域的差距。在事实性基准测试上,DeepSeek-V3在SimpleQA和中文SimpleQA上表现优于其他开源模型。尽管在英语事实知识(SimpleQA)上略逊于GPT-4o和Claude-Sonnet-3.5,但在中文事实知识(中文SimpleQA)上超过这些模型,凸显其在中文事实知识方面的强大。 **编码、数学和推理:**DeepSeek-V3在所有非长链式思维(非长-CoT)开源和闭源模型中,在与数学相关的基准测试上取得了最先进的性能。特别是在如MATH-500的特定基准测试上,表现出强大的数学推理能力,甚至超过了o1-preview。在编程相关任务上,DeepSeek-V3在如LiveCodeBench的编程竞赛基准测试中表现为顶尖模型,巩固了其在该领域的领先地位。在工程相关任务上,尽管DeepSeek-V3的表现略低于Claude-Sonnet-3.5,但它仍显著超越所有其他模型,展示了其在多样化技术基准测试中的竞争力。
其实从论文本身来看,直观感受就两个字:超级炸裂。但是一看训练精度是FP8混合精度,似乎又不是那个味道。知道是哪个味道吗,就是那个不太对的味道。直接说笔者的结论就是号称节省 90% 算力,还能和 chatgpt 匹敌的这个大模型不太行,噱头为主。
笔者的判断到此为止,下面就是深入讲讲为什么是噱头,以及亲自去进行实验测试DeepSeek的效果,并在最后给出笔者的结论。所以如果你对算力投资这块不感兴趣,或者说有自己的判断,就不用购买了。