国产AI之光,正在超越ChatGPT!

财富   2024-12-28 14:12   山东  

DeepSeek V3,在先行“泄露”并引发一片惊叹后,其开发方深度求索终于正式发布了技术报告。报告中,DeepSeek透露了其训练的关键数据,其中最引人注目的是它的高效能和对算力资源的低依赖,同时效果却异常出色。


在预训练阶段,DeepSeek-V3在每个万亿标记上的训练仅需要180K H800 GPU小时,即在拥有2048个H800 GPU的集群上仅需3.7天。因此,预训练阶段在不到两个月内完成,成本为2664K GPU小时。结合119K GPU小时的上下文长度扩展和5K GPU小时的后训练,DeepSeek-V3的完整训练成本仅为2.788M GPU小时。假设H800 GPU的租金为每GPU小时2美元,总训练成本仅为557万美元。请注意,上述成本仅包括DeepSeek-V3的正式训练,不包括与架构、算法或数据相关的先前研究或精简实验的成本。


DeepSeek-V3经过全面的基准测试,尽管DeepSeek-V3-Base的训练成本较低,但综合评估显示,DeepSeek-V3-Base已成为目前可用的最强大的开源基础模型,尤其在代码和数学方面。其聊天版本在其他开源模型上的表现也优于其他开源模型,并在一系列标准和开放式基准测试中实现了与GPT-4o和Claude-3.5-Sonnet等领先闭源模型的性能相当。


DeepSeek-V3被再次誉为“国货之光”,在预训练撞墙,一切都要扭转到推理阶段的变换节点时,DeepSeek V3的一系列技术方法、数据指标和测试性能,以及口碑,都让它成为一件事的最好代表:在“o1”时代,当算力不再是唯一因素时,中国模型开发者的机会更多了。


“性能对标GPT-4o以及Claude-3.5-Sonnet”,而且是用开发者的嘴讲出。DeepSeek-V3为幻方旗下的深度求索公司自研的MoE模型,671B参数,激活37B,在14.8T token上进行了预训练。在DeepSeek V3技术报告公布的性能指标上来看,这个开源MoE模型,已经在性能上“对齐海外领军闭源模型”。


根据官方公告,DeepSeek-V3在多项评测成绩上超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。DeepSeek罗列了几个关键的表现领域:


- 百科知识:DeepSeek-V3在知识类任务(MMLU, MMLU-Pro, GPQA, SimpleQA)上的水平相比前代DeepSeek-V2.5显著提升,接近当前表现最好的模型Claude-3.5-Sonnet-1022。

- 长文本:在长文本测评中,DROP、FRAMES和LongBench v2上,DeepSeek-V3平均表现超越其他模型。

- 代码:DeepSeek-V3在算法类代码场景(Codeforces)远远领先于市面上已有的全部非o1类模型;并在工程类代码场景(SWE-Bench Verified)逼近Claude-3.5-Sonnet-1022。

- 数学:在美国数学竞赛(AIME 2024, MATH)和全国高中数学联赛(CNMO 2024)上,DeepSeek-V3大幅超过了所有开源闭源模型。

- 中文能力:DeepSeek-V3与Qwen2.5-72B在教育类测评C-Eval和代词消歧等评测集上表现相近,但在事实知识C-SimpleQA上更为领先。


这些打榜的行为已经是所有新模型的惯例操作,而因为这些官方数据是在模型悄悄在社区以及一些AI Infra平台上。

(本文由DeepSeek官方通告并经Kimi改编完成)


路过银河AI
凝视深渊过久,深渊将回以凝视。天空的深渊,便是天渊。
 最新文章