-推荐关注-
新年新气象,一家来自杭州的公司DeepSeek因其最新发布的大语言模型DeepSeek V3在全球AI社区引发轰动。
DeepSeek-V3 为自研 MoE 模型,671B 参数,激活 37B,在 14.8T token 上进行了预训练。
671B参数:这是超大规模模型,与当前领先的模型(如 GPT-4 和 PaLM 2 等)在同一量级。参数量的增加在理论上能够提升模型对复杂任务的表达能力和泛化能力,尤其是在高质量数据上进行预训练时。
激活37B:意味着模型在推理时的有效计算需求更优化,在架构设计上有一定创新
14.8T tokens:这是一个巨大的数据量,这为模型提供了一个扎实的知识基础,有助于更全面的表现,尤其在稀疏长尾知识上。
DeepSeek V3 凭借着仅耗资约557万美元的低成本开发,这款拥有6710亿参数的模型不仅性能优越,还被业界认为是开源领域的“最大黑马”。这一成就不仅代表了技术上的突破,更彰显了中国企业在资源受限环境下通过创新实现弯道超车的实力。
这款模型究竟有多强?又是如何在与GPT-4o、Claude Sonnet等顶级闭源模型的竞争中脱颖而出的?
技术突破
DeepSeek V3的技术创新是其最大的亮点,它采用了“专家混合”(MoE)架构。在这种架构下,尽管总参数量高达6710亿,但每次推理仅激活37亿参数。这种设计在提升效率的同时,也显著降低了硬件负担。与传统的密集参数模型相比,MoE架构通过智能分配计算任务,使得模型能够在性能和资源利用率之间找到最佳平衡。
DeepSeek-V3 采用了多头潜在注意力(MLA)和 DeepSeekMoE 架构,这些在 DeepSeek-V2 中得到了充分验证。此外,在 DeepSeek-V2 高效架构的基础上,开创了一种无辅助损失的负载均衡策略,最大限度地减少了因鼓励负载均衡而导致的性能下降,并设定了一个Multi-Token Prediction (MTP) ,以提高性能。
通过算法、框架和硬件的共同设计,DeepSeek团队克服了跨节点 MoE 训练中的通信瓶颈,几乎实现了完全的计算-通信重叠。显著提高了训练效率,降低了训练成本,使其能够在没有额外开销的情况下进一步扩大模型规模。
价格便宜
DeepSeek V3以其“极致性价比”闻名业界。在大模型研发普遍动辄花费数亿美元的背景下,DeepSeek V3 的训练过程既高效又具有成本效益。使用 2048 个 GPU,历时两个月,总训练成本约为 557 万美元。这与其他大型模型相比显著减少
例如,LLaMA 3 模型消耗了 3000 万 GPU 小时,而 DeepSeek V3 仅以 280 万 GPU 小时实现了可比较的能力。对比之下,OpenAI和Meta等巨头模型的训练成本通常是这一数字的数十倍。
更重要的是,在使用成本上,DeepSeek V3的优势同样显著。这种低成本的特性使得DeepSeek V3成为小型企业和开发者的首选,尤其是在预算有限但对性能要求较高的应用场景中。
输入:每百万个令牌的价格为 0.27 美元,而 Claude 3.5 Sonnet 为每百万个令牌 3 美元,GPT-4o 为每百万个令牌 2.50 美元。 输出:每百万个令牌 1.1美元,而 Claude 3.5 Sonnet 每百万个令牌 15美元,GPT-4o 每百万个令牌 10美元。
表格中展示了优惠前与优惠后的价格。
性能领先
从多个权威基准测试来看,DeepSeek V3在性能表现上令人惊艳。
MMLU-Pro: DeepSeek V3 在语言理解能力上超过了 LLaMA-3.1–405B 和 GPT-4o,表现出更优越的能力。 GPQA-Diamond: DeepSeek V3 在一般问答任务中表现出色。 MATH 500: DeepSeek V3 在数学推理任务中表现出色,准确率达到 90.2%,而 GPT-4o 的准确率为 74.6%,Claude 3.5 Sonnet 的准确率为 78.3%。 AIME 2024: 专注于高级数学竞赛问题。DeepSeek V3 的准确率接近 40%,而 GPT-4 的准确率为 9%,Claude 3.5 Sonnet 的准确率为 16%。 Codeforces: DeepSeek V3 在代码相关任务中的表现非常出色,准确率为 51.6%,而 GPT-4o 和 Claude 3.5 Sonnet 的准确率约为 20%。 SWE Bench: DeepSeek V3 在实际软件任务中具有竞争力,表现优于大多数其他模型,仅次于 Claude 3.5 Sonnet。
根据用户的反馈,DeepSeek V3在特定任务中的表现超越了Claude Sonnet和GPT-4o。例如,在代码块优化和格式化任务中,它能够以极高的效率完成任务,并以清晰的逻辑和准确的输出赢得了开发者的广泛认可。
在竞技场排名中,DeepSeek V3直接打到前十,当前最强开源模型。
OpenAI创始成员Karpathy对此赞道:
作为参考,要达到这种级别的能力,通常需要约1.6万个GPU的计算集群。不仅如此,当前业界正在部署的集群规模甚至已经达到了10万个GPU。 比如,Llama 3 405B消耗了3080万GPU小时,而看起来更强大的DeepSeek-V3却只用了280万GPU小时(计算量减少了约11倍)。到目前为止,模型在实际应用中的表现相当出色,这说明,即便是在资源受限情况下,模型也能展现出令人印象深刻的研究和工程能力。 这是否意味着前沿LLM不需要大型GPU集群?不是的,但这表明,你必须确保不浪费已有的资源,这个案例很好地证明了在数据和算法方面还有很大的优化空间
深远意义
DeepSeek V3的成功并不仅仅是技术上的突破,更是中国AI行业在国际制约下展现出的强大适应能力。
近年来,由于芯片出口限制,中国企业在获取高端硬件资源方面面临巨大挑战。然而,DeepSeek团队通过创新性的优化方法和资源高效利用,成功弥补了硬件上的短板。这一案例展示了中国企业如何在有限条件下,通过技术创新实现全球领先。
DeepSeek V3的推出也为行业树立了一个典范,即开源模型并非只能是“低端选择”。作为开源模型的代表,DeepSeek V3不仅在多个基准测试中超越闭源模型,还通过开放其源代码,为开发者提供了更高的灵活性和参与度。这一策略使得更多人能够利用其技术成果,进一步推动了AI行业的创新。
既便宜又好用
DeepSeek V3的问世无疑是人工智能领域的一个里程碑。它以最低的成本实现了顶级的性能,证明了技术创新和成本控制可以共存。而其背后展现出的中国AI企业在资源受限情况下的适应能力和创新潜力,更值得全球业界深思。
未来,随着更多优化技术的引入,DeepSeek V3的应用场景将更加广泛,从自然语言处理到科学研究,甚至工业生产领域都可能成为其施展才华的舞台。同时,DeepSeek V3也为整个AI行业带来了启示:在技术快速迭代的背景下,如何通过开放合作和资源高效利用,推动技术向更高水平迈进,是每个参与者需要思考的问题。
DeepSeek V3已经点燃了AI领域的新一轮竞争。那么,您对这款“国产之光”的未来发展有哪些期待?欢迎留言与我们分享您的观点!
有需要的,在公众号「AI取经路」发消息「学习资料」即可获取。
--END--
点亮“赞”和“在看”,“分享”好友一起看