中金研究
12月2日,Marvell宣布同AWS达成一份为期5年的协议,向AWS提供定制AEC、DSP、PCIe retimer等产品;3日,AWS发布Trainium2-Ultra Server,采用AEC实现3D环状连接;博通4QFY24业绩会对AI ASIC未来市场空间指引积极,我们认为CSP客户自研ASIC趋势明确,ASIC+以太网灵活开放的组网生态下,配套的短距铜连接AEC产品的渗透率有望提升。
Abstract
摘要
AEC通过集成Retimer改善信号质量实现服务器间7m内高速数据传输。AEC(有源电缆)在铜缆两端集成Retimer芯片,不单能够放大和均衡Tx和Rx端,还可以在Rx端重新进行信号整形,实现信号还原,主要应用于数据中心中短距离连接,如机柜内或相邻机柜、服务器到ToR、叶脊交换机/路由器机架等。相较于DAC,AEC能够实现更长距离的传输,400G速率产品最大传输距离可实现7m,且能实现芯线的轻薄化和线径小型化,降低数据中心服务器散热难度;相较于AOC,AEC在功耗及成本方面具备优势,是介于DAC和AOC之间性价比较高的中间方案。
需求端:CSP积极自研AI ASIC,组网中引入AEC用于短距连接。博通4QFY24业绩会对AI ASIC市场空间增速预期积极,我们观察到海外CSP厂商及科技企业如亚马逊、微软等以及xAI在自建AI算力集群内部组网中已开始部署AEC方案。根据我们测算,AWS采用4*4*4 3D Torus拓扑网络的Trainium2-Ultra服务器架构中,机柜内Trn2芯片和400G AEC之间的数量配比关系为1:1;若网卡到ToR交换机也采用AEC连接,则Trn2芯片和400G AEC数量配置比例约为1:1.5。我们认为随着CSP厂商自研ASIC、自建网络比例提升,AEC硬件需求有望进一步提振,并逐渐从400G向800G/1.6T速率迭代。
供给端:Retimer和铜缆为核心物料,部分光模块厂商切入供应链。AEC由Retimer芯片、铜缆和连接组件构成,我们估测800G AEC BOM成本中,Retimer和铜缆分别占50%、20%。
风险
AI产业需求不及预期;AEC高速铜连接需求不及预期。
Text
正文
AEC:数据中心内部高速短距连接的性价比之选
在数据中心内部,按照传输介质不同,存在光纤连接和铜缆连接两大类网络线缆连接方式,常见的光纤连接包括光模块+光纤、AOC,铜缆连接则主要包含DAC/ACC/AEC。
► 光模块+光纤:光模块搭配光纤是目前应用最为广泛的网络布线方案,光模块和光纤相互独立,用户在使用时将两者连接组装,光模块负责光电转换功能,光纤用于传输光信号,传输距离灵活可控。
► AOC(Active Optical Cables,有源光缆):光模块和光纤集成化,形成一整条线缆,无需用户侧组装。AOC通过光纤传输高速信号,可用于100m内的中短距离互联场景,其支持的传输速率和传输距离均比铜缆更好,且较铜缆重量轻、布线方便,缺点是相较于铜缆成本和功耗较高。
图表1:光模块+光纤和AOC连接对比
资料来源:Fibermall,中金公司研究部
按是否内置电子元件以增强信号,铜缆连接可分为无源铜缆(DAC,Direct Attach Cable)和有源铜缆(Active Copper Cable)。
► DAC(Direct Attach Cable,无源铜缆):不需要外部电源,不内置电子元件增强信号,仅通过两根导线绞合在一起形成双轴电缆。由于不使用电子器件,其功耗几乎为零,在高速线缆解决方案中有着延迟和插入损耗最低、同时成本最低的优点。但同时也因为无源电缆传输仅依赖铜线介质,无法放大信号以提升长距离信号传输下的信号质量,其传输距离受到限制,适用于超短距离连接。
► ACC(Active Copper Cable,有源铜缆):在电缆端部增加信号增强芯片,使得在较长距离的信号传输不出现较大衰减,从而提升信号质量,ACC使用Redriver芯片架构在接收端通过CTLE均衡调整增益、放大信号。AEC(Active Electrical Cable,有源电缆)是有源铜缆的细分种类,在铜缆两端集成Retimer芯片,通过Rx端CTLE/DFE(连续时间线性均衡/判断反馈均衡)、CDR(时钟数据恢复)及Tx端EQ(均衡)实现接收端信号整形,重新还原信号。
图表2:高速铜连接DAC、ACC、AEC连接对比
资料来源:Fibermall,中金公司研究部
Retimer较Redriver有更好的减少信号损耗的能力、信号还原度更高。1)Retimer:Retimer是一种数模混合器件,其工作原理是通过内部嵌有的CDR电路提取输入信号中的嵌入式时钟,再使用未经衰减变形的时钟信号重新传输数据,从而提升信号完整性并消除信号抖动影响;2)Redriver:Redriver是一种模拟信号器件,通过发射端的驱动器和接收端的滤波器放大受损信号,实现对信号损耗的补偿。对比来看,由于含有SerDes PHY的核心部件CDR,Retimer能够实现比Redriver更优的降低信道损耗效果,但由于增加了数据处理过程时延有所拉长。因此,相较于ACC,AEC对信号损耗的补偿能力更强,且可有效阻隔抖动的传递,能够支持更长距离、更高稳定性的数据传输。
图表3:Redriver和Retimer工作原理对比
资料来源:TI官网,中金公司研究部
DAC信号传输覆盖距离随通信速率提升而下降,AEC通过集成Retimer改善信号质量实现服务器间7m内高速数据传输。随着SerDes技术升级、通信总线传输速率提升,单通道SerDes速率从28G NRZ向56G、112G PAM-4以及最新的224G PAM-4演进,DAC覆盖距离从5m(对应28G SerDes)缩短至2-3m(对应112G SerDes)甚至0.5m(对应224G SerDes)。而AEC通过两端配置Retimer芯片修复数据信号、消除噪声,400G和800G速率产品的最大传输距离可分别实现7m、2.5m,2024年10月Credo发布线缆长度为7m的HiWire AEC 800G新品,800G速率产品的最大传输距离进一步拉长,可实现主机到交换机的跨柜连接。
AEC在体积及功耗方面具备优势,能够降低服务器散热难度。AEC内置信号增强集成电路,所以相比DAC更能实现芯线的轻薄化和线径小型化,根据Credo官网,AEC体积相较于DAC降低75%。根据华为官网,在服务器机架之间,数据中心需要在电缆管道或者电缆槽内维持25-50个线束,AEC相比DAC的线缆直径小很多,较大线径的DAC部署会受到空间限制的影响。此外,线束较大同样会阻塞气流,使得数据中心的散热更加困难,因此AEC更适用于大规模、高密度集群的组网连接。而相比AOC,AEC在功耗及成本方面具备优势,根据Precisionot官网,AEC功耗相比AOC降低50%,AEC成本则是AOC成本的1/3左右。
图表4:DAC & AEC & AOC参数性能对比
资料来源:Credo官网,Precisionot官网,中金公司研究部
需求端:CSP积极自研AI ASIC,组网中引入AEC用于短距连接
AI数据中心内部短距连接高景气。不同的服务器架构、交换网络组网架构对应着不同的连接器、铜缆和光模块组成方案。1)在阿里云数据中心三层CLOS网络架构下,Spine和Leaf之间互联的链路长度在2km以内,Leaf到TOR的互联长度通常在100m内,主要使用光模块+光纤连接,链路数量占整个集群内总物理链路数量的1/3;服务器网卡到TOR的链路长度通常在10m内,链路数量占总物理链路数的2/3,这一环节通常使用DAC/AEC/AOC来连接。2)在英伟达GB200机柜服务器架构下,多机柜间互联(ToR交换机之间)主要采用光模块+光纤方案;两个NVL36机柜间的互联通过NVSwitch tray上的OSFP cage及ACC铜缆实现;NVL36/72机柜内Compute Tray与ToR交换机之间通过AOC(也可选择光模块+光纤)进行连接,Compute Tray与Switch Tray之间互联则通过背板连接器+DAC。
图表5:阿里云数据中心典型三层CLOS网络架构图示
资料来源:阿里云基础设施公众号,中金公司研究部
图表6:GB200 NVL36*2架构及线缆连接方案
资料来源:SemiAnalysis,中金公司研究部
图表7:Credo数据中心高速互联解决方案一览
资料来源:《为AI网络提供更优的光互连方案》(Credo,2023),中金公司研究部
CSP客户自研ASIC比例提升,组网中AEC用量有望增加。据博通4QFY24业绩会,基于其目前深度覆盖的三家头部CSP客户,公司预计AI网络和AI ASIC的SAM(可服务目标市场空间)将从 FY24 150-200亿美元增长至FY27 600-900亿美元。我们测算其中ASIC SAM将有望从FY24约160亿美元增长至FY27约600亿美元,3年CAGR约55%。我们认为,对于CSP厂商而言,自研AI ASIC方案具备能效比和单位成本算力的优势,头部ASIC厂商对于市场增速预期判断的提升反映出产业潜在机会扩大。结合产业链调研,我们观察到海外CSP以及科技企业如亚马逊、微软、xAI等自建AI算力集群内部组网已开始部署AEC方案,目前400G AEC为主流产品,我们预期25年有望向800G甚至1.6T AEC迭代。
不同架构下,AI芯片与AEC的数量对应关系存在差异。参考SemiAnalysis,以AWS自研Trainium2-Ultra服务器架构为例,Trainium2-Ultra聚合了4台16卡Trn2服务器,采用4*4*4 3D Torus拓扑架构实现64颗Trn2芯片的互联。Trainium2-Ultra机柜中涉及不同的互联方案,一个Compute Tray上的两颗Trn2芯片之间通过PCB连接;同一台Trn2服务器中Compute Tray之间的互联通过背板连接器+DAC;为了沿Z轴形成一个环面,每颗芯片通过2条NeuronLinkv3 OSFP-XD AEC铜缆与其他Trn2服务器中两颗芯片相连,如此芯片就能在Z轴(Trn2 Server A -> Trn2 Server B -> Trn2 Server C -> Trn2 Server D -> Trn2 Server A)上形成一个3D环绕连接的链,实现4台Trn2服务器的3D聚合。因此,Trainium2-Ultra服务器机柜中需配套64*2/2=64条400G AEC,Trn2芯片和400G AEC的数量配比关系为1:1。此外,网卡到ToR交换机之间也可采用AEC连接,一个Compute Tray上2颗芯片配套2个200G 网卡,可等效为通过0.5条400G AEC连接到ToR交换机上。综上,Trainium2-Ultra 64卡机柜方案下,Trn2芯片和400G AEC的数量配比关系约为1:1.5。
图表8:2台Trainium 2-Ultra Rack之间互联
注:一台Trainium 2-Ultra Rack中包含2台Trn2服务器,每台Trn2服务器中包含8个Compute Tray,每个Compute Tray含2颗芯片。
资料来源:SemiAnalysis,中金公司研究部
图表9:Trainium 2-Ultra Server通过NeuronLinkv3实现64颗芯片间互联
资料来源:亚马逊官网,Ofweek,中金公司研究部
图表10:Trainium2-Ultra SKU中不同线缆连接图解
注:Z轴的点对点带宽为64GByte/s,X轴和Y轴的点对点带宽为128GByte/s,后者带宽为前者的两倍
资料来源:SemiAnalysis,中金公司研究部
根据LightCounting数据(2024年12月报告),2024年AEC市场规模预计约2.18亿美元,2029年AEC市场规模有望达到13.12亿美元,2024-2029年CAGR为43%。DAC/AEC/AOC各有优劣势,我们预计随着通信传输速率不断提升,服务器内部及外部DAC/AEC/AOC线缆有望并存,适配不同互联场景需求。得益于铜缆应用场景增加、以及AEC作为AOC和DAC中间方案性价比较高,在2.5-7m短距传输中优势突出,AEC市场规模增速最快,根据LightCounting数据,AOC/DAC/AEC+ACC市场规模占比有望从2024年的51%/36%/13%转变至2029年的53%/22%/25%,较2023年12月报告AEC市场规模大幅上修。结合前文测算,我们预计2025年AWS Trainium2出货量有望达到150万颗,假设80%采用3D Torus拓扑架构连接方案,对应400G AEC的需求量约180万条,结合150美元单价(参考LightCounting),2025年仅AWS一家CSP对应的400G AEC市场规模约2.7亿美元(LightCounting预测2025年400G AEC全球市场规模为1.1亿美元、整体市场规模约5.25亿美元)。我们认为,随着CSP自研ASIC比例和自行组网比例逐步提升、以及越来越多的厂商升级铜连接方案,AEC硬件需求有望进一步提振,市场规模在LightCounting预测数值的基础上仍有较大上修空间。
图表11:2024及2029E全球服务器互联市场中AOC/DAC/AEC+ACC占比情况
资料来源:LightCounting,中金公司研究部
图表12:2024-2029E AEC市场规模及预测
资料来源:LightCounting,中金公司研究部
供给端:Retimer和铜缆为核心物料,部分光模块厂商切入供应链
AEC由Retimer芯片、铜缆和连接组件构成。Retimer芯片和铜缆为AEC核心部件,我们估测Retimer芯片和铜缆占800G AEC BOM成本比重分别为50%、20%,生产组装成本约占AEC营业成本的20%。
铜缆制作工艺复杂,产业链厂商主要包括芯线供应商、成品线材供应商及线束供应商:1)镀银铜线制造:将合金铜线进行拉丝工序,即通过拉丝机和模具,逐渐减小合金铜线直径并形成所需的线径。拉丝工序是制造中的基础工序之一,其精度和质量直接影响最终产品的性能;再通过电镀/化学镀银的方式制成镀银铜线;2)芯线制造:通过实心押出/物理发泡压出、编织、挤塑护套形成芯线(多为线材供应商内部完成);3)成品线材制造:芯线通过绞线成缆、高速编织屏蔽层、挤塑护套等工艺流程形成成品线材;4)线束组装:成品线材加上两端的连接器形成线束。
光模块厂商参与到铜缆产业链,其组装能力、客户渠道或可复用至AEC。在传统光模块的内部结构中,价值量占比较高的主要是光芯片(激光器芯片和探测器芯片)、和电芯片(DSP、TIA、Driver等),这部分核心光电芯片基本由光模块厂商外采。这些光电芯片和无源光器件以分立式器件的形态为主,光器件之间由光纤或自由空间元件连接,经过贴片、打线、粘接耦合、焊接等工序实现模块化组装。我们认为AEC在数据中心的应用场景与光模块存在交叉和互补,且AEC铜缆的生产组装过程和光模块较为类似,核心有源芯片(Retimer)也需外采。部分国内光模块厂商切入到AEC产业链,配合下游CSP客户进行产品设计和生产,优先卡位AEC铜连接市场。
风险提示
AI产业需求不及预期。随着社会数字化及智能化转型的持续,AI大模型场景落地加速赋能百行百业。我们认为,人工智能的蓬勃发展驱动算力需求持续提升,推升服务器、光模块、交换机等AI硬件需求。若AI大模型或应用落地不及预期、或商业化变现之路受阻,或影响以头部云厂商为代表的AI产业参与方对AI相关基础设施的投资力度和决心,可能会对上游AI硬件设备的市场增速、产品迭代速度产生不利影响。
AEC高速铜连接需求不及预期。数据中心互联的光、铜路线之争持续进行,光、铜用量主要取决于下游CSP及算力厂商的连接方案选择,以及技术路径的变化。AEC是DAC与AOC的中间方案,主要适用于2.5-7m的数据传输场景,若下游CSP客户转而选择采用更多光模块或者DAC互联方案,或者CPO/OIO技术演进超预期,可能影响未来AEC硬件需求。
Source
文章来源
本文摘自:2024年12月27日已经发布的《智算未来系列十三:AEC,数据中心内部高速短距连接的性价比之选》
郑欣怡 分析员 SAC 执证编号:S0080524070006
李诗雯 分析员 SAC 执证编号:S0080521070008 SFC CE Ref:BRG963
查玉洁 分析员 SAC 执证编号:S0080524110001
陈昊 分析员 SAC 执证编号:S0080520120009 SFC CE Ref:BQS925
彭虎 分析员 SAC 执证编号:S0080521020001 SFC CE Ref:BRE806
Legal Disclaimer
法律声明