国产大模型全球“刷屏”,总训练成本557万美元,性能比肩GPT-4o

文摘   2024-12-31 19:03   北京  

近日,素来被硅谷视为“来自东方神秘力量”的中国大模型创业公司 DeepSeek 再次悄悄惊艳了国内外的 AI 技术圈,其重磅发布了一个全新的超大规模模型——DeepSeek-V3。


来源丨量子位、开源社

论文链接:https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf
免费直接体验:https://chat.deepseek.com/
Hugging Face:https://huggingface.co/deepseek-ai/DeepSeek-V3-Base

GitHub:https://github.com/deepseek-ai/DeepSeek-V3


这个新模型拥有6710亿个参数,但采用了 MOE(混合专家)架构,能根据任务需求激活特定参数,每处理一个词元激活370亿参数,从而实现高效又准确的任务处理。这一次 DeepSeek-V3 的发布令业界振奋,不仅因为它是开源模型,更因为测试结果显示,它已超越诸如 Meta 的 Llama 3.1-405B、阿里 Qwen 等主流开源模型,甚至在性能上逼近 Anthropic 和 OpenAI 等封闭模型,大大缩小了开源和闭源 AI 之间的差距。


可谓是一个“低调的实力派”选手再次搅动了 AI 大模型的风云。


表现震惊AI圈

引发热议背后的一个焦点是,预训练成本之低——这个参数量高达671B的大模型,在预训练阶段仅使用2048块GPU训练了2个月,且只花费557.6万美元。其训练费用相比GPT-4等大模型要少得多,据外媒估计,Meta的大模型Llama-3.1的训练投资超过了5亿美元。
OpenAI创始成员Karpathy对此赞道:

DeepSeek V3让在有限算力预算上进行模型预训练这件事变得容易。

DeepSeek V3看起来比Llama 3 405B更强,训练消耗的算力却仅为后者的1/11。


Meta科学家田渊栋也惊叹DeepSeek V3的训练看上去是“黑科技”:

这是非常伟大的工作。



有哪些亮点?

根据官方12月26日在GitHub上发布的报告,和前代 DeepSeek-V2 一样,新发布的超大模型仍然基于多头潜在注意力(MLA)和 DeepSeekMoE 架构。这种设计确保模型在训练和推理时保持高效,通过专用和共享的“专家”(模型中的独立小型神经网络)机制,每次处理一个词元时激活6710亿参数中的370亿个。

▲ DeepSeek-V3 架构图

除了延续基础架构保证强大性能外,DeepSeek-V3 还引入了两项创新:

 无辅助损失的负载均衡策略:通过动态监控并调整专家的工作负载,让它们均衡运行,同时不影响整体模型性能

 多词元预测(MTP):支持模型同时预测多个未来词元

这一创新不仅提高了训练效率,还让模型的生成速度提升了三倍,从20 TPS 大幅提高至60 TPS,每秒能生成60个 token。

“在预训练阶段,我们使用了14.8万亿高质量、多样化的文本对 DeepSeek-V3 进行了训练……随后,分两阶段对其上下文长度进行了扩展。”DeepSeek 在技术论文中提到,“第一阶段将上下文长度扩展到32K,第二阶段进一步扩展到128K。在此基础上,我们对 DeepSeek-V3 进行了后期训练,包括监督微调(SFT)和基于强化学习(RL)的训练,使模型更加符合人类偏好并释放潜力。在后期训练中,我们引入了 DeepSeekR1系列模型的推理能力,同时精心平衡了模型的准确性和生成长度。”


DeepSeek 对 DeepSeek-V3 模型进行了多项性能测试。在知识领域,基于教育类基准测试(如 MMLU、MMLU-Pro 和 GPQA)中,DeepSeek-V3 表现优异,分别取得了88.5、75.9和59.1的高分,超越了所有其他开源模型,并在性能上接近封闭模型如 GPT-4o和 Claude-Sonnet-3.5。这意味着 DeepSeek-V3 在这一领域大幅缩小了开源模型与封闭模型之间的差距。


其次,在事实性知识测试中,DeepSeek-V3 在 SimpleQA 和中文 SimpleQA 两个基准上领先于其他开源模型。在英文事实知识(SimpleQA)测试中虽稍逊于 GPT-4o 和 Claude-Sonnet-3.5,但在中文事实知识(中文 SimpleQA)中表现更强。


其次在代码、数学与推理领域:

(1) 在数学相关基准测试中,DeepSeek-V3 在所有非长链式思维(non-long-CoT)的开源和封闭模型中表现最为出色。在特定基准如 MATH-500 中,它甚至超过了 OpenAI o1-preview。

(2) 在编程相关任务中,DeepSeek-V3 在编程竞赛基准(如LiveCodeBench)上表现最佳。对于工程相关任务,尽管 DeepSeek-V3 略逊于 Claude-Sonnet-3.5,但仍然显著领先于其他所有模型,显示出其在各类技术基准上的强劲竞争力。


整体而言,DeepSeek-V3 测试结果显示它明显超越了许多领先的开源模型,包括 Llama-3.1-405B 和 Qwen 2.5-72B。在大多数测试中,甚至连封闭的 GPT-4o 也被它击败。不过,在专注于英语的 SimpleQA 和 FRAMES 测试中,OpenAI 的 GPT-4o 依然领先,分别取得了38.2和80.5的分数(相比之下,DeepSeek-V3的分数是24.9和73.3)。在中文和数学类的测试中,DeepSeek-V3 成绩领先于所有对手。在 Math-500 测试中,它得到了90.2的高分,远超 Qwen 的80分这一次优成绩。


不过,Anthropic 的 Claude 3.5 Sonnet 在 MMLU-Pro、IF-Eval、GPQA-Diamond、SWE Verified 和 Aider-Edit 等测试中的得分更高,也给 DeepSeek-V3 这类开源 AI 模型的发展留下一定的空间。


价格方面,DeepSeek 也没有让众人失望,DeepSeek-V3 模型 API 服务定价为每百万输入 tokens 0.5元(缓存命中)/2元(缓存未命中),每百万输出 tokens 8元。

同时,DeepSeek 宣布为新模型设置长达45天的优惠价格体验期:即日起至2025年2月8日,DeepSeek-V3 的 API 服务价格为每百万输入 tokens 0.1元(缓存命中)/1元(缓存未命中),每百万输出 tokens 2元。


最后,官方此次一同开源了原生FP8权重,并提供了从FP8到BF16的转换脚本。


具体而言,SGLang和LMDeploy这两个框架已支持FP8推理,另外两个框架TensorRT-LLM和MindIE则支持BF16推理(适合需要更高精度的场景)。


目前普通用户可以通过官网(chat.deepseek.com)与DeepSeek V3展开对话,API也已同步更新,接口配置无需改动。


知名AI博主AK亲测,只需几行代码就能将它部署到Gradio。



永久福利 直投简历
简历投递:join@speechhome.com
扫码关注我们
助力AI语音开发者的社区

语音之家
助力AI语音开发者的社区
 最新文章