调研总结
去年,由于传统云计算削减通用算力支出,以及 AI 订单被英伟达打包吸收,AEC 在高速互联需求中并没有充分受益,市场相对低迷。
今年下半年开始, AI 建设由云厂商自己掌控网络,叠加自研芯片算力部署增多,AEC 的优势(中高距离传输、可控误码率、性价比)被更多客户青睐,出现大幅增长。
AWS、X.AI 等为代表的大型需求方正在大规模部署 AEC,用于机柜内/机柜间的高速互联;微软、谷歌、国内厂商(阿里、字节等)也陆续开始选用。
未来 1~2 年,AEC 市场量价会此消彼长:量快速翻倍、价格逐步下行,整体市场空间稳步扩张,竞争格局也会趋于多元化。
1. AEC在过去一年半的市场变化
去年(指 5~6 月份)英伟达刚推出 GB200 时,市场上讨论的接口可以用 AEC(Active Electrical Cable)连接,包括 Credo 等公司。当时第一批 Credo 的 AEC,微软并不太满意,所以没有下大订单。当时业界普遍认为 AEC 在距离、误码率等方面难以满足数据中心的要求。为什么一年半后,这项技术突然火热起来,比如亚马逊也下了订单,大厂们开始青睐 AEC?
英伟达方案一直有铜缆
在 GH200 系统发布时,第一层是 8 张卡,和第一层交换机互联用的是所谓的 “cartridge”(弹夹),其实就是一束束的铜缆。过去英伟达并没有用 AEC,而是无源铜缆(DAC)。
为什么现在 AEC 又火了
传统的云计算网络(如微软)过去就用过 Credo 的 AEC,但在去年(2~3 月份)时,Credo 股价跌到低点,因为微软削减了很多 AEC 订单。原因是当时传统云计算业务受到 AI 投入挤压,很多订单被砍或推迟。
当时的 AEC 主要是中低速率,用在通用算力数据中心里。而传统云计算在去库存、削减资本开支,把钱都转投到 AI 相关项目上。Credo 曾在财报中公开说明过,被微软砍单的事。
去年对 AEC 来说不太好,因为 AI 的增量被英伟达整合打包(GPU+互联方案)卖给云计算厂商,其中没有 AEC 的位置,英伟达采用的是铜缆(DAC)+ AOC(有源光缆)和多模光模块。
今年下半年开始,更多客户(云厂商)要 自己建 AI 网络,就不全用英伟达打包方案了,因此 AEC 又出现了大量需求,尤其是 AWS 的订单最明显。
2. 英伟达在互联上为何仍坚持 ACC 而不选 AEC?
英伟达似乎并不想用 AEC,而是认为 ACC(Active Copper Cable)就足够了。为什么?
时延因素
AEC 里面需要带有 Retimer 芯片,做信号重定时;而 ACC 只有简单的 Redriver 放大,时延更低。英伟达最看重时延,所以它更倾向 ACC。
高密度部署
英伟达 GPU 算力密度很高,机柜内卡之间的距离较短,ACC 可以胜任且时延低。AEC 的优势在于可以支持更远距离(5~7 米),适合某些算力密度不如英伟达的芯片/集群,比如 AWS 自研 Trainium2,单机柜要放几百张卡,距离更远,就需要 AEC。
成本差距
英伟达认为 ACC 相比 AEC 并没有贵多少,或者说只是略微便宜一些,但主要是时延低更符合它的产品定位。从云计算厂商的角度,如果不是高密度结构,距离较长,则会选 AEC。
3. AEC 需求主要增长来自哪些厂商?
AWS 大量采购 AEC,是用于他们自研的 Trainium2 吗?微软这边又如何?
AWS (Trainium2)
一年要拉货 150 万张左右的卡,这些基本都要用 AEC 去做互联。Trainium2 算力不如英伟达 H100 那么高,所以 400G AEC 就够用(而不是 800G)。明年底可能会有 Trainium3,才会上 800G,届时需求会更大。现在 Credo 一家无法完全满足 AWS 的需求,Credo 也在找新易盛等厂商合作生产 AEC。
微软
过去微软对 AEC 的采购一直比较平稳,主要是通用算力数据中心里用,AI 这边还没有大规模爆发。Credo 的财报里显示大约 11% 份额来自微软。微软现在也开始在 AI 网络自建上用 AEC,但增速远不及 AWS。
其他厂商
X.AI 最近对 AEC 需求很大,明年增速可能比微软还高,他们大量买英伟达卡,但第一层互联要自己选择更有性价比的方案,AEC 就是其中之一。谷歌的 TPU 互联(ICI)现在更多是无源铜缆(DAC),将来速率越高,可能也会升级到 AEC。国内阿里、字节等也在考虑或已开始上 AEC。
4. AEC 与光模块的关系,是否会互相替代?
如果客户在第一层互联用 AEC,那对光模块有没有替代作用?比如说谷歌之后要用 AEC,是否会砍单光模块?
分层结构
GPU/加速卡 ↔ 机柜顶交换机(ToR)
ToR ↔ 更上层交换机
AI 网络一般有多层交换机:
第一层(机柜内)距离短,用铜缆/ AEC/ ACC/ DAC / AOC 等皆可。光模块通常在跨机柜、长距离时使用。
替代效果有限
如果本来是无源铜缆(DAC),现在换成 AEC,对光模块并无影响。
如果本来用的是 AOC(短距离有源光缆)或多模光模块,有可能被 AEC 替代一部分。但英伟达等厂商并不会完全放弃光方案。
整体来说,AEC 会抢占一部分 AOC 或多模光模块份额,但比例不一定很大,取决于各家厂商的布线需求、时延、成本、维护等考量。很多私信笔者问有多少AEC可能抢占光模块份额,这一块不是不给大家算,实际还要根据不同厂商的方案设计来。目前根据已有的订单信息,并没有太多的份额。
5. AEC 市场规模与明年展望
怎么看明年整个 AEC 市场的增量?
规模增速
今年 AEC 市场不到 3 亿美金,Credo 占了主要份额。明年预估可翻倍至 6 亿美金左右。从出货量看,今年或许 100~200 万条,明年可能升至 500 万条规模。价格也会有所下降。
价格趋势
目前 400G AEC 大约 150 美金,800G AEC 约 250 美金。由于更多厂商(例如新易盛等)进入,竞争加剧,价格会一年降 20% 左右。Credo 毛利 60% 多,未来随着国内厂商加入,毛利会被挤压,整体价格将下降。
客户拆解
AWS 今年下半年和明年是最大增量,一家就有 200 万条以上。微软的增量相对平稳,主要还是云计算和部分 AI 网络。X.AI 需求正在高速增长,可能一年要 80~90 万条。谷歌/英伟达只是少量升级,国内阿里、字节等也开始逐步上量,总体呈现快速上行态势。
6. 案例:X.AI 与 GB200 / B300 互联
X.AI 从英伟达买了很多 GB200 或者 B300 芯片,但英伟达的内部 72 卡互联用的不是 AEC,而是无源铜缆或 ACC。那 X.AI 在什么地方用到 AEC?
在一个 GPU 机柜(72 张卡)里,卡与交换机之间(ToR)那一层,需要几米到 5 米以上的缆线长度,而 AEC 可以支撑 5~7 米。对于高密度大机柜,铜缆又要弯绕,实际需要 3~5 米甚至更长。ACC 或 DAC 达不到要求或误码率更高时,就需要 AEC。机柜上层再连其他交换机的链路则可能走光模块,所以 AEC 是在柜内到架顶交换机这一层。
7. 谷歌 TPU 互联的情况
谷歌的 TPU 集群里,64 个芯片组成一个 Cube(相当于一个机柜),内部互联是 ICI,目前好像是无源铜缆,那他们会不会用 AEC?
目前主要用 DAC
谷歌 TPU v6 在 1 个机柜内 64 颗芯片时,用 ICI 互联,多为 DAC。
将来可能升级到 AEC
当速率进一步升级,DAC 距离和误码可能不够,需要 AEC 等主动化解决方案,以保证传输质量。
对光模块影响有限
机柜内连接不算长距离,所以还不是光模块的主战场;外部多机柜层则需要光模块或 OCS。
8. AEC对光模块的替代率
如果大家大量用 AEC,会不会大幅度砍单光模块?
整体来看,影响有限。因为 光模块主要是跨机柜、较长距离场景。第一层或某些短距离互联才会在 DAC / AOC / AEC 之间选择。即便同一数据中心内,客户也会混合使用不同方案。AEC 并不会一口气把 AOC 或光模块全替掉。具体替代比例要看客户拓扑设计、价格、维护成本,以及时延需求等多方面。
9. 国内厂商上 AEC 的动向
字节、阿里也都要开始采用 AEC 吗?可能用于哪些芯片?
字节
在购买寒武纪、英伟达等多家芯片,大量卡并行布置,铜缆方案也有多家供应商。博创科技等在做 AEC、AOC 给寒武纪。
阿里
开始上 400G 的 AEC,量级十万条或更多,但要看供应链产能是否能满足。
10. 价格测算与展望
明年 AEC 量增两三倍,价格可能会降,一家占绝对主导的 Credo 毛利 60%+,如何判断明年市场规模?
整体量快速增长,但单价会有一定幅度下降。今年市场约 2~3 亿美金,明年可能到 6 亿美金,后年还会继续高速增长。Credo、国内新易盛等厂商展开竞争,价格将持续走低,市场格局也在洗牌。
如果觉得对您有帮助,欢迎打赏支持。
专注分享财经信息的专业社区,喜欢请点击下方名片关注。
免责声明:本文材料整理于公司公告、新闻、机构公开研报及社交媒体网络等,对文中所涉专业及个股均不构成投资建议。市场有风险,投资需谨慎。图文如有侵权或违反信批规则请后台留言联系删除。
文章精彩,防止走失,可关注、转发、投币打赏。