过年期间,最火的话题莫过于DeepSeek。
以AI为代表的中美科技大战,实际上是一场三条战线的较量:芯片之争——明面上的主战场;系统结构之争——如何将现有芯片的系统性能发挥到极致;软件算法之争——如何用更高效的算法驱动硬件系统。DeepSeek已经证明,国产团队在算法领域不仅能够与美国抗衡,更实现了超越!那么,在系统结构上呢?我们同样有信心——属于我们的突破,即将问世!
让我们用实力证明,中国科技的未来,有我们浓厚的一笔!
一、关于DeepSeek
2024年12月26日,DeepSeek-V3 发布,为自研 MoE 模型,671B 参数,激活 37B,在 14.8T token 上进行了预训练,暂不支持多模态输入输出。DeepSeek-V3 多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。
百科知识:DeepSeek-V3 在知识类任务(MMLU, MMLU-Pro, GPQA, SimpleQA)上的水平相比前代 DeepSeek-V2.5 显著提升,接近当前表现最好的模型 Claude-3.5-Sonnet-1022。
长文本:在长文本测评中,DROP、FRAMES 和 LongBench v2 上,DeepSeek-V3 平均表现超越其他模型。
代码:DeepSeek-V3 在算法类代码场景(Codeforces),远远领先于市面上已有的全部非 o1 类模型;并在工程类代码场景(SWE-Bench Verified)逼近 Claude-3.5-Sonnet-1022。
数学:在美国数学竞赛(AIME 2024, MATH)和全国高中数学联赛(CNMO 2024)上,DeepSeek-V3 大幅超过了所有开源闭源模型。
中文能力:DeepSeek-V3 与 Qwen2.5-72B 在教育类测评 C-Eval 和代词消歧等评测集上表现相近,但事实知识 C-SimpleQA 上更为领先。
DeepSeek-V3 API 服务定价为每百万输入 tokens 0.5 元(缓存命中)/ 2 元(缓存未命中),每百万输出 tokens 8 元。
2025年1月20日,DeepSeek-R1发布,并同步开源模型权重,并且遵循 MIT License,允许用户通过蒸馏技术借助 R1 训练其他模型。
DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。
注意:V3模型在AIME2024及Codeforces上的测试效果与R1及其它几个模型相比差距比较大。
但是,从下面这幅图我们可以看出,V3与另外一些厂商的算法相比,在AIME2024及Codeforces测试效果来看,相对得分还算比较好。
我们能看出,R1在各方面与V3相比,提升比较高。
在开源 DeepSeek-R1-Zero 和 DeepSeek-R1 两个 660B 模型的同时,通过 DeepSeek-R1 的输出,蒸馏了 6 个小模型开源给社区,其中 32B 和 70B 模型在多项能力上实现了对标 OpenAI o1-mini 的效果。
DeepSeek-R1 API 服务定价为每百万输入 tokens 1 元(缓存命中)/ 4 元(缓存未命中),每百万输出 tokens 16 元。
下图是R1版本的输入输出价格与其它一些模型的对比:
Deepseek 的技术突破:V3 和 R1 模型
Deepseek V3:这是一款混合专家 (Mixture of Experts, MoE) 架构的 Transformer 语言模型,采用了开放权重模式。V3 分为基础模型和指令模型,指令模型经过指令微调等后训练技术,更易于使用,类似于 ChatGPT。V3 的发布时间是 2024年 12 月底,其性能已可与 GPT-4 和 Llama 405B 等顶尖模型相媲美。(实际上不是媲美,而是远远超过)
Deepseek R1:这是一款推理模型,于 V3 发布几周后推出。R1 与 V3 共享许多训练步骤,但在后训练阶段采用了不同的技术,专注于提升模型的推理能力。R1 的独特之处在于其能够展示链式思考 (Chain-of-Thought) 的推理过程,这在以往的模型中较为罕见,引起了 AI 社区乃至更广泛领域的强烈兴趣。
二、DeepSeek对AI行业的影响
1)降低算力成本与训练门槛
DeepSeek通过算法创新(如FP8低精度训练)显著降低了大模型的训练成本。例如,其V3模型的训练成本仅为557.6万美元,相比Meta的Llama3节省了80%的GPU资源。此外,减少了内存占用和通信开销,使得国产GPU在算力不足的情况下仍能高效参与大模型训练。
2)推动开源生态与技术普惠
DeepSeek开源模型吸引了全球开发者,加速了AI技术的普及。其开放的权重和适配工具链降低了模型使用门槛,使中小企业和开发者能够低成本部署AI应用,推动了AI从“实验室”向“产业端”的渗透。
3)重构算力需求规模
尽管算法效率提升,但端侧应用的爆发(如AIPC)持续推高算力需求。DeepSeek在推理端的低成本优势可能推动市场从“训练优先”向“推理扩容”转变,形成“训练-推理双轮驱动”的新格局。
4)国产AI信心倍增
此举打破了国产GPU长期面临的“性能不足导致市场不信任”的恶性循环,通过实际场景验证产品可用性,增强了客户信心,意义重大。美国对华芯片出口限制倒逼国产替代,DeepSeek的成功为这一战略提供了技术支点。
DeepSeek通过算法创新与开源策略,显著降低了AI大模型对高端硬件的依赖,为国产GPU厂商带来了多维度的结构性机遇。
DeepSeek通过模型蒸馏、结构化稀疏注意力等技术,将大模型压缩至更小规模,同时保持高性能,使国产GPU(如摩尔线程、天数智芯)在算力有限的情况下仍能高效运行复杂模型。例如,摩尔线程通过部署DeepSeek蒸馏模型,验证了其GPU的CUDA兼容性和复杂任务支持能力,为国产芯片提供了技术落地的“试金石”。
三、DeepSeek对英伟达的影响
1)短期市场预期受挫
摩根士丹利将英伟达2025年GB200芯片出货量预期从3.5万片下调至2万片,认为DeepSeek的低成本模式削弱了市场对高端GPU的依赖,导致英伟达股价波动,市值一度蒸发超6000亿美元。
2)长期竞争压力加剧
英伟达在高端算力领域仍具优势(如H100/H800的稳定性和性能),但需应对国产替代趋势。DeepSeek推动的低成本训练模式可能降低对高端GPU的依赖,倒逼英伟达优化产品线或调整定价策略。
从不同渠道得到的消息显示,已经有大量的英伟达GPU在被抛售,表明了DeepSeek的出现确实让市场对英伟达高端GPU的前景并不完全看好。
四、DeepSeek对国内GPU厂家的影响
DeepSeek通过算法优化降低了对高端GPU的需求,转而推动中低端芯片在推理端的应用,这可能为国产GPU厂商如沐曦、天数智芯等带来机会。国产GPU厂商无需与英伟达在高端制程上硬拼,转而聚焦中低端市场的差异化竞争。另外,云厂商和算力中心可能因DeepSeek的高性价比转而采购国产GPU,形成生态闭环,这对国产GPU的市场拓展有帮助。
DeepSeek的开源模型(如V3、R1)吸引了大量开发者基于国产GPU进行适配与优化。例如,天数智芯通过快速完成多版本模型适配,推动其软件栈的完善,提升了国产GPU在分布式训练和推理中的效率。开源生态降低了国产GPU的适配门槛,形成“开发者反馈-厂商优化”的正向循环,加速技术成熟。DeepSeek的开源策略吸引了更多开发者使用国产GPU,推动生态建设。智算中心可能增加国产设备采购,进一步促进国产GPU的市场需求。
国产GPU厂商通过适配DeepSeek模型,验证了其产品的兼容性和性能,这有助于建立市场信任。DeepSeek的成功为国产芯片提供了商业化标杆,促进了技术迭代。
1)摩尔线程:通过适配DeepSeek蒸馏模型验证了其GPU的CUDA兼容性,并计划推出夸娥智算集群支持分布式部署。
2)天数智芯:与Gitee AI合作上线模型服务,快速完成多模态模型的适配,验证了国产GPU在复杂任务中的能力。
3)海光信息:DCU架构与英伟达GPU兼容,直接支持DeepSeek模型运行,未来重点优化推理性能。
4)沐曦:联合联想推出国产一体机解决方案,覆盖从训练到推理的全链条,加速行业落地。
5)华为昇腾:提供昇腾平台的开箱即用支持,助力开发者快速部署模型,巩固其在国产算力生态的核心地位。
五、DeepSeek对AI大模型行业落地的影响
我们通常讲,至少70B以上的模型才能进行正常的生产使用,但是传统的Dense模型,总参数量与激活参数量是一致的。例如,Llama3.1 405B的总参数量,在做推理应用时激活参数量也是405B,这么大的激活参数量,使得使用者需要配备非常高端的GPU集群才能部署成功。
而DeepSeek让总参数量为671B的模型,在推理使用时激活参数仅仅为37B,这样就可以用相对低配置的GPU完成部署,这对行业应用的普及是极大的刺激,也会大大推动AI大模型行业快速蓬勃发展。
1)提升了市场总量
DeepSeek采用了MOE技术,大大减少了对高算力GPU的依赖,推动了算法的普及,AI训练和推理市场的总量会快速增加。DeepSeek的低成本特性使中小企业、教育机构等“非头部客户”能够负担AI部署,扩大了国产GPU的目标市场,激活了长尾市场。
2)降低了准入门槛
企业层面:DeepSeek 训练和推理成本低,如 DeepSeek-R1 的训练费用不到 OpenAI GPT-4 的十分之一,API 定价仅为 OpenAI 的三十分之一,使中小企业无需大量资金投入就能使用高性能 AI 技术,将大模型应用于业务,像智能客服、内容生成等领域。
个人层面:激活了个人用户使用大模型的需求,个人能以较低成本使用大模型的能力,如进行文本创作、智能问答等,推动 AI 在个人场景中的应用。
3)加速垂直行业渗透
行业落地方面,端侧应用可能会加速,比如手机、PC等设备。教育、医疗、交通、公安、科研等领域可能因为AI大模型的各方面成本降低而加速落地应用。中小企业甚至个人开发者都可以以低成本调用大模型,加速AI技术进入日常应用场景。
办公领域:钉钉科技推出的专属 AI 一体机,全面适配 DeepSeek R1、V3 671B 及蒸馏模型,可应用于销售知识助理、智能审批、会议质检等高频办公环节。
医疗领域:智云健康宣布将 DeepSeek-R1 模型接入公司自研医疗人工智能系统 “智云大脑”,增强医疗数据挖掘能力,提高慢病管理效率。
大宗商品领域:上海钢联计划借助 DeepSeek-R1 快速蒸馏出全新的 “宗师” 模型,用于更好地处理大宗商品语义理解的复杂性。
六、DeepSeek对系统结构的影响
AI大模型的发展得益于三驾马车,芯片、系统结构和算法。每一波浪潮人工智能的发展速度都与这三者息息相关。这一次AI大模型的发展始于OpenAI的算法和英伟达GPU算力都得到了空前的发展。而DeepSeek的出现,让算法上升到了一个更高的维度。英伟达的GPU还在不断发展,国内的GPU也在不断地追赶英伟达。但是,我们看到,一味地提升单颗GPU的算力,忽略了能耗和故障率的居高不下,是得不偿失的。
在 AI 大模型的发展中,系统结构是一个至关重要且尚未被充分挖掘的领域,对其进行深入研究和优化,将为 AI 大模型的进一步发展提供强大的支撑,与芯片和算法的发展共同推动 AI 技术的进步。
在国外,模型、芯片、系统已经形成了一套非常完备的闭环生态。在国内,DeepSeek做了非常好的一环,就是使国内模型超越了国外模型,或者说在某些场景完成了超越,或者说在方法论层面上完成了超越。但是如何形成国内“模型-系统-芯片”闭环呢?这是我们认为在未来一定会发生的事情。
DeepSeek打响了非常好的第一枪。我们也希望能够通过国内系统和芯片的闭环发展,使它达到这样的一个结果。为了实现这件事,我们有非常好的基础设施和上层的应用。但是在中间软件和硬件的一些协同优化,是我们需要在未来不断努力和提升的。
七、DeepSeek对AIPC的影响
DeepSeek 实现了算法、框架和硬件的优化协同,提高了模型在端侧设备上的运行效率,端侧 AI 的发展有望大幅激活 AI 硬件的商业化生态。通过知识蒸馏,能将大模型能力迁移到轻量化模型,降低智能产品 AI 功能集成门槛,AIPC的发展可能会进一步加速。
八、结论
DeepSeek通过技术创新与开源策略,重构了AI算力需求格局,既冲击了英伟达的高端市场,又为国产GPU厂商提供了弯道超车的机会。其低成本、高效率的特性加速了AI在多个行业的落地,并通过端侧部署推动AIPC等消费电子产品的迭代升级。
Deepseek 的崛起,以及 R1 推理模型的发布,标志着中国 AI 技术正在快速追赶并开始在某些领域超越西方。“DeepSeek 时刻” 不仅是对现有 AI 格局的一次有力冲击,也预示着全球 AI 竞争将进入一个更加激烈和复杂的新阶段。开放权重、推理模型、超大规模算力基础设施等关键词,将成为未来 AI 发展的重要方向。
这场 AI 革命,才刚刚开始。
以下是广告,算力之光商城,提供主流算力设备方案的供需拉通(可点击)!
下图是培训广告,老张是讲师之一,想了解的朋友可以扫描下图二维码咨询。