文|杨泽原 丁奇 潘儒琛 马庆刘 孙竟耀
近期,DeepSeek爆火全球,其以强能力、低成本的特点著称,对全球AI产业链带来强借鉴意义。2025年1月20号发布的DeepSeek-R1性能对标OpenAI o1正式版,其强调强化学习技术路线,推理能力强、性价比突出。我们认为,DeepSeek新一代模型的发布意味着AI大模型的应用将逐步走向普及,加速AI应用全面落地;同时,其有望开启全新的Scaling Law,模型重心逐步从预训练切换到强化学习、推理阶段,助力算力需求持续增长。建议重点关注工具软件和其他重点行业软件、通用管理软件、AI算力三大主线。
▍DeepSeek爆火全球,以强推理能力、低成本加速AI全面落地。
2025年1月20号,DeepSeek-R1正式发布并开源,性能对标OpenAI o1正式版,在网页端、APP和API全面上线。其推理能力大幅提升,同时成本大幅下降,引发全球高度关注,助推AI应用全面落地。
▍模型概况:推理能力对标OpenAI o1,性价比优势突出。
参考DeepSeek官方发布的论文,DeepSeek-R1作为开源强化学习大模型,在数学、编程、复杂问题解决等领域体现强大推理能力:
1)数学方面,R1在AIME 2024测试集中得分79.8,与OpenAI-o1-1217的79.2分和OpenAI-o3-mini(medium)的79.6分处于同一水平;
2)编程方面,R1在Codeforces测试集上得分为2029,与OpenAI-o1-1217的2061和OpenAI-o3-mini(medium)的2036处于同一水平;
3)复杂问题领域,R1在GPQA-Diamond测试集上得分为71.5,较OpenAI-o1-1217的75.7分和OpenAI-o3-mini(medium)的76.8分稍有不足。
整体来看,模型的推理能力与OpenAI o1相当。定价来看,R1的API定价为输入百万tokens 1元(缓存命中)/4元(缓存未命中),输出百万tokens 16元;较OpenA o1定价输入百万tokens 7.5美元(缓存命中)/15美元(缓存未命中),输出百万tokens 60美元,呈现数量级下降。高性价比API服务和模型开源的策略下,DeepSeek-R1有望带动全行业持续降本,助力AI应用全面落地。
▍技术解读:R1-zero将减法做到极致,R1方案采用两阶段强化学习,有望开启全新Scaling Law。
参考DeepSeek发布的论文,R1-zero采用无SFT、纯强化学习技术路线,以DeepSeek-V3为基础,采用GRPO策略优化和规则为基础的奖励函数,涌现出长思维链(CoT)能力,并显著降低计算成本。同时,为了进一步解决R1-Zero可读性差、通识能力不足等问题,公司进一步提出两次强化学习的训练架构,即R1模型,在采用极少标注数据的情况下,既实现了通过规则驱动的大规模强化学习,又实现了混合微调+二次强化学习带来的推理能力泛化。以R1模型架构为基础的探索或将开启全新的Scaling Law。我们认为,R1的技术方案可以被快速应用于复杂推理能力要求高的场景中,如数学、代码、科研等,助力以Agent形式为代表的应用形态全面落地。
▍算力分析:Scaling Law从预训练切换到强化学习和推理,降本是提升市场空间的基础,亦反复得到产业验证。
1)DeepSeek V3+R1带动全球AI大模型降本提效。V3的API定价为输入每百万tokens 0.5元(缓存命中)/2元(缓存未命中),输出每百万tokens 8元;R1的API定价为输入百万tokens 1元(缓存命中)/4元(缓存未命中),输出百万tokens 16元。在DeepSeek R1发布定价后OpenAI也对其o系列模型进行了定价调整。根据OpenAI官网,此前其o1标准版输出端定价60美元/百万token,o1 mini输出端定价12美元/百万token,在R1发布后,目前o1 mini输出端定价已经调整到4.4美元/百万token,并且新推出的o3 mini定价也设置为与o1 mini相同的水平。
2)降本源自DeepSeek持续原创降本方案,如MLA算法、流水线策略、MoE调度等。根据DeepSeek官方论文,2024年5月,DeepSeek发布V2版本模型,就曾引领国内大模型降价,这一代模型中采用了DeepSeek原创的MLA注意力算法,大幅降低Attention算力消耗。2024年8月DeepSeek在主流大模型中率先采用硬盘充当输入端缓存(MLA算法降低带宽需求,使用硬盘成本更低),此项创新让DeepSeek的输入端缓存命中价格降低到缓存未命中价格的10%,为当前全球主流模型最低。根据DeepSeek V3论文,其在全球首创双向流水线策略,并且在全球主流大模型中率先采用FP8低精度数据进行大规模训练,提出更有效的MoE调度与负载均衡等,亦是降本重要因素。根据DeepSeek R1论文,其提出了原创的GRPO强化学习算法,亦大幅节约强化学习环节算力。
3)训练端全球资本开支稳定,推理端算力有望全面爆发。全球算力产业链规模与算力成本息息相关。训练端,1月下旬微软和Meta的业绩发布会显示,这两家公司的资本开支预期并未下降,我们预计全球头部厂商仍将维持算力投入,力争模型层前沿突破,而二三线厂商亦有望受益于更低的训练成本而持续投入。推理端,我们认为算力成本降低将真正促进应用百花齐放,实现AI普及。这一规律正如杰文斯悖论(Jevons Paradox/ Jevons Effect)所示,工业革命时期煤炭价格下降反而促进其在各行业的普及,带动产业规模增长。后续的类似案例不断出现,摩尔定律下晶体管成本呈现指数级下降,反而促进了PC、手机等产业的繁荣;从2G到5G,通信持续提速降费,每bit成本持续下降,催化了移动互联网产业的发展。我们认为,未来AI产业也将呈现这一趋势,算力降本有望带动庞大的应用端产业规模以及推理算力需求。
4)三大Scaling Law接力支撑全球算力需求,国产算力支撑国产大模型商业化。按照英伟达CEO黄仁勋在CES2025的主题演讲,当前全球算力产业正处于Pre-training scaling向post-Training scaling和test-time scaling的切换过程中,未来推理端+强化学习的算力需求将接棒预训练,支撑全球算力产业链稳步增长。对于中国算力产业链而言,实际进展也连续出现,例如根据硅基流动官网,其已经上线由华为昇腾算力支持的DeepSeek API,根据光合组织官方微信公众号,海光信息的DCU已经迅速完整适配DeepSeek R1与V3大模型。我们认为,对于中国国产大模型而言,国产算力是相对稳定可靠的选项,能够支撑国产大模型从研发走向商业化。
▍应用展望:DeepSeek低成本+强能力助推AI应用全面落地,开源开放下生态有望持续壮大。
DeepSeek模型性价比持续提升下,国内AI应用依托丰富生态和成熟流量加速各领域落地,同时模型推理能力的提升对复杂推理场景有明显带动作用,其中,Agent模式有望以更长的任务流程、更好的场景理解、更高的自主能力,成为所有AI应用落地的最佳载体之一,在企业管理、教育、办公、医疗、科研等领域展现应用价值。此外,DeepSeek其各类模型开源开放的特点有助于不同场景应用落地,配套生态有望不断丰富壮大。建议重点关注企业管理(员工助手、面试、营销)、教育(数学、竞赛)、科研(药物、材料研发)、法律(合同全案分析)、医疗(病历纵向追踪)等场景。
▍风险因素:
AI核心技术发展不及预期,AI被不当使用造成严重社会影响,数据安全风险,信息安全风险,行业竞争加剧。
▍投资策略:
DeepSeek新一代模型的发布意味着AI大模型的应用将逐步走向普及,加速AI应用全面落地;同时,其有望开启全新的Scaling Law,模型重心逐步从预训练切换到强化学习、推理阶段,助力算力需求持续增长。建议重点关注工具软件和其他重点行业软件、通用管理软件、AI算力三大主线:1)主线一:工具软件和其他重点行业软件;2)主线二:通用管理软件;3)主线三:AI基础设施。