三条主要算力链:AI算力链主要包括NVIDIA链、ASIC链和国产算力链。NVIDIA链是全球算力的核心,产业规模较大;ASIC链从2024年初开始展现,市场关注度逐渐提高;国产算力链以寒武纪为代表,已呈现出产业趋势。
2025年三条链的变化:预计2025年国产算力链变化最大,其次是ASIC链,NVIDIA链变化相对较小。NVIDIA链虽体量大,但需求仍可持续至2026年。
GB300方案的变化:
主板设计调整:GB300的主板设计更加灵活,提供了更多的计算模块和可插拔可替换的设计,为芯片迭代预留了空间。在内存方面,焊接方案调整为可更换模块,采用新的LPDDR CAMM方案,为后续升级留有余地。此外,VRM组件只保留了一部分,大部分可根据基板需求定制选择。
对机架和集群的影响:GB300方案的调整不仅发生在主板和服务器层面,对整个大机架甚至集群方案都有影响,包括芯片、功率、散热、电源等方面。芯片的变化是最核心的改动来源,功率单卡提升200瓦,总机架功率增加,散热方案也有所改变,液冷方案使用增加,电源部分有更多设计方案调整。
芯片性能提升:GB300芯片的FP64算力性能提升50%,稠密计算算力提升,HBM容量提升至288GB,单卡功率提升至1200瓦。
与潜在产品的差异:GB300最初发布时名为B200 Ultra,后改名为B300,与B200A及后续产品在封装工艺上有一定区别,预计采用最新CoWoS工艺。
与AMD芯片的对比:B300芯片在算力上具有技术领先优势,AMD的MI300X预计到明年年底发布,性能仍比B300弱约30%。目前来看,B300是性能最强的芯片型号。
迭代节奏:英伟达的迭代周期从两年缩短为一年,每两年进行大版本迭代,中间一年进行小工艺链迭代,类似英特尔的Tick-Tock模式。目前的硬件发布节奏在预期内,如Blackwell Ultra(B300)、NVLink 5.0已发布,CCIX 8网卡随B300方案应用,交换机等也有新的迭代计划。
板卡内互联:板卡内从CCIX 7网卡升级到CCIX 8,容量从400G提升到800G。
板卡间及服务器互联:B200用DAC铜缆,GB300可能采用更高规格的AEC铜缆方案。
外部组网:之前用Spectrum 800交换机,现在可支持新的Spectrum Ultra版本。英伟达在互联方案上有自己的生态布局,在外部组网环节提供IB和以太网两套方案,以太网是近两年主推方向,也是与客户妥协的结果。新一代交换机预计在2025年内发布,其性能预计有较大幅度提升,AEC的量与博通的ASIC量相关。
存储环节的变化:HBM容量提升带来整个机架容量的变化,从13.8TB提升至20.7TB,目的是为了做更好的推理,降低推理延迟,节约算力成本。
AI芯片的发展趋势:英伟达认为AI芯片将从训练向推理迁移,推理量级的提升速度可能在某个时间点超过训练的计算量增长,预计2028年推理的算力会超过训练的算力需求。目前微软、Meta、亚马逊等都在做更大集群的方案,以降低推理延迟。
博通的ASIC情况:博通与谷歌、Meta合作,为谷歌贡献了七八十亿的ASIC算力芯片收入,AI收入达到122亿美元左右。ASIC市场率有望从8%上升到2028年的18%,是算力供应中除NVIDIA和AMD通用GPU外的重要构成。
2024年情况复盘:
光模块大涨:SOTA发布后,光模块在2024年上半年有部分大涨,解除了对云厂商资本开支投入持续性的担忧。
通信板块调整与反弹:2024年第三阶段通信板块随大盘调整,9月24日后涨幅可观,铜连接、CPU等与高速连接相关的标的快速上涨。
字节资本开支与AIDC产业:字节2024年资本开支与BAT总体相当,预计2025年资本开支翻倍。字节在2024年下半年大规模招标,其招标量约为国内过去十几年数据中心总存量的1/10。AIDC产业景气度有望持续提升,2023年北美数据中心空置率达到历史最低位,价格上涨,国内2023年空置率较高,但2024年下半年行业需求端拐点已明确,2025年一季度可能出现价格拐点。
2025年产业趋势:
头部厂家景气度高:国内光模块体量是2025年重点关注对象,2024年三季度国内光模块业绩拐点出现,光迅和华工的收入端拐点明显,光模块的升级会改善盈利能力,MPO是值得重点关注的增量部分,太辰光在2024年三季度开始收入和利润有望高速增长。
海外光模块:建网过程中,通信网络在资本开支中的占比预计从5%-10%提升到15%-20%,光模块、铜、MPO、交换机等均有涉及。
光进铜退与铜进光退的争议:光模块具有高速高带宽优点,但功耗大、散热成问题,可能导致丢包和误码,因此在机柜内会使用无源的DAC铜缆来解决散热问题。随着训练速度加快,带宽需求增大,纯铜DAC无法满足需求,AEC作为折中方案出现,其需求与博通的ASIC量相关。铜连接在很长时间内都会存在,不会被光替代。
网络解耦:网络从传统的IB网络向IP网络发展,解耦是大厂的终极追求,可避免被英伟达等卡脖子,扩大集群规模,以太网代表的华为星河网络性能比IB更优,数据中心里的IP体系交换机和交换芯片2025年业绩可期。
技术联盟:北美超以太网联盟(OCP)和国内移动牵头的全调度以太网体系(CET)持续推进标准,解决以太网过去的问题,使网络越来越好用。
AI时代的需求变化:AI时代开启了光模块的黄金时代,AI对流量、算力、数据中心、光模块的需求比云计算更陡峭,爆款应用的出现会带来AIDC的快速扩容。
行业现状与趋势:2024年下半年行业需求端拐点明确,供给端小互联网厂家出清,AI对数据中心的要求使得头部企业更集中,2025年一季度可能出现行业价格拐点。
液冷:液冷在股价上已有所表现,但目前在主要A股上市液冷标的中,利润和收入贡献不大,国内数据中心主体仍以风冷为主,预计2025年液冷会放量,国内光模块和液冷是少数能参与全球竞争且有比较优势的行业。
空芯光纤:2025年可能是空芯光纤开始大规模商用的部分,其能解决传统光纤传输速度、时延、丢包率等问题。
ASIC:2023年、2024年关注模型训练,2025年推理部分在终端应用侧可能会有突破,各种场景的落地会带来ASIC量的变化。
2025年投资机会判断:2025年在ASIC、NVIDIA、国产算力链三条链的投资机会中,优先次序是ASIC,然后是NVIDIA,最后是国产算力链。ASIC兼具业绩弹性和估值弹性,NVIDIA有业绩弹性但估值弹性相对收敛,国产算力链在CPU环节可能有收入没利润。
ASIC产业链投资机会:
亚马逊链:亚马逊2025年Training芯片和Inference芯片出货量相较2024年有明显提升,关注两类投资机会,一是随着亚马逊出货量增长而业绩增长的投资机会,如PCB环节的胜利电子;二是关注亚马逊后续潜在新供应商的投资机会,如广和科技。
Meta链:Meta资源的Meta芯片2024年下半年有明显出货,预计全年出货30万张。其AI服务器由加拿大的天弘科技(Celestica)代工,A股中沪电股份、广和科技、方正科技在其产业链上。
机遇:2025年资本开支持续提升,国产算力芯片在内外压力下向客户加速推广。
竞争格局变化:除已上市公司推出先进芯片外,一级公司产品迭代快,格局缓慢变化。
供应链问题:从海外供应链向国产供应链切换的节奏和难度。
2023 - 2024年回顾与变化:
2023年情况:国内互联网厂商依赖英伟达GPU进口,英伟达占全球AI芯片出货量的48%左右,谷歌占30%左右,英伟达保持垄断地位。
2024年变化:AI芯片向国产化切换,驱动力来自美国出口禁令不断升级和国内政策支持。互联网厂商自研和三方卡是实现国产替代的路径,阿里、百度自研进展较快,华为、海光等三方卡发展较好。
2025年产品迭代与格局变化:
产品迭代困难:要实现A100到H100的跨越,国内芯片厂商最好往4纳米走并大幅提升FP16算力,但受美国对台积电限制,实现难度大,可能选择用两颗7纳米双拼方式,但会有性能损耗和功耗提升。
国产供应链进展关键:华为进度领先,寒武纪、海光等上市公司在国产供应链上做了多年准备,一级公司也在向国内供应链转移。2025年可能有国产产品支持工艺切换,竞争格局将成为投资重点。
国产化进展与2025年投资机会:
国产化进展:地方计算中心和运营商积极推进国产化,国家算力厂项目中英伟达比例下降,国产芯片占主导,云计算厂商也在加速跟进。
2025年投资机会:2025年国产三方芯片的导入预计较为顺利,字节将提升国产芯片采购比例。AI资本开支规划是重要观测点,寒武纪和海光是重要公司,其股价受订单和资本开支预期影响。寒武纪有望获得字节等客户订单,2025年收入有望超130亿人民币,净利润近50亿人民币;海光CPU表现良好,GPU部分有望带来利润增量,明年净利润有望接近50亿元。
全球AI算力需求的影响因素:受需求端(大厂及大型垂直行业企业需求)和供给端(GPU产品供应及国产AI芯片产能)因素影响,关注大厂资本开支程度及中芯国际产业逻辑。
2024年AI算力需求的预期差:2024年全球AI算力需求最大预期差是大厂对原有业务改造的需求,以Meta为代表的美国大厂对原有业务的改造带来的AI算力需求超过市场预期,算法和模型架构的变化带来算力结构的变化,大厂的改造仍在继续。
2025年AI算力需求的关注要点:
需求框架变化:AI算力需求框架从训练和推理两大块扩展,训练包括预训练和后训练,推理包括老应用改造和新应用产生。2025年应关注推理模型能否拉起训练环节算力需求的回落点,以及post-training和new device带来的需求情况。
预训练环节:关注互联网大厂能否合法利用潜在数据及算法结构改进对模型能力的提升。
后训练环节:关注强化学习和CoT对算力提升的影响,预计在2025年上半年大厂训练需求中体现。
大厂AI化改造:继续观察大厂对原有业务架构改造的需求,Meta对推理的需求较高。
新应用和新终端:关注2025年是否能产生新的应用和终端,其可能带动云端算力需求。
模型迭代速度:模型迭代速度加快,OpenAI的O系模型迭代周期短,推理能力泛化能力提升,大厂的资本开支决策受此影响,AI超级周期中应用和终端的格局尚未形成,美国大厂内卷导致模型和算力迭代速度加快,资本开支增加。
ASIC的本质与影响:ASIC的本质是大厂定制化需求,以ASIC为切入点的整个万卡集群的定制化方案是大客户的需求,博通和Marvell能提供完整的解决方案,因此在ASIC市场占据主要份额。融入大厂产业链的不单纯是ASIC,还包括其他
加微信领取星球优惠