在2024数据中心标准大会上,康普大中华区技术总监、《智算中心800G/1.6T网络布线技术白皮书》主笔人吴健《关键网络决定智算效率》的精彩演讲,荣获主旨论坛最佳演讲人气王,现将演讲内容整理如下,供广大数据中心从业者参考。
智算中心究竟需要一个什么样的网络?其实大家给出的答案基本上是一致的或相似的,这个答案一定包含两高和两低。两高就是高可靠、高带宽;两低就是低延时和低能耗。我今天不是去讲每一个因素的细节,我想分享一些它们之间的关联性,也就是说这两高和两低是怎么来的,它们之间有着什么样的影响关系?
以GPU为代表的加速器出现,以及并行计算的爆发,使得算力每两年增长三倍;相对而言,传统CPU未来很难达到倍数的提升。对于这种情况,我用一句形象的话来讲,就是“脑子确实快了,但是腿跟不上了”。第一个问题就是,我们怎么能够让腿跟上,也就是让网络提速。来自于2024年初加州大学伯克利分校的一篇论文,很好地诠释了什么叫“脑子快了,腿跟不上”。上面的最快速增长曲线是算力硬件,这是算力提升线。绿色曲线是存储提升线,对于AI来讲,高速存储非常重要,但是也落后于算力本身的需求了。蓝色曲线是GPU卡在设备内部互联速率,也就是Scale up所涵盖的范畴;这种内部连接有多快呢?H100可以达到900GB字节,也就是相当于7.2Tbps的外部网络速率,而现在网络是400Gbps、800Gbps为主,所以红色趋势线提示我们网络跟不上了,甚至应用标准也跟不上了。整个AI产业被一两家显卡厂商拉动,因为他们把并行计算、科学计算、高效计算做到了极致; 事实上GPU的拉动效应并无现行标准体系可遵循,它像是一个“带头大哥”,配套硬件只能跟着它跑.我们需要什么样的网络支持AI,至少有三个方面,它们是有机联系在一起的。第一,带宽。刚才提到400G、800G,1.6T、3.2T一直持续下去。三年之内,有可能800G和1.6T会占据主导地位第二,时延。时延对于网络来讲从来没有像今天这样被看重,对于AI集群来讲,无论是前端网络还是后端网络,对时延都很敏感,要求时延一致性达到前所未有的高度。第三,能耗。能耗决定密度,密度决定空间,空间决定了布局,布局决定网络部署,网络部署决定着物理连接长度。正如能耗行业的口号“我们要珍惜每一度电”
;网路的原则是“重视每一米的连接”。康普与英伟达在超大规模集群实践中总结出一些技术要素,你会看到从100G到1.6T对应的应用标准。智算中心仍然偏爱基于多模技术的短连接场景应用,比如说VR(Very Short
Reach)和SR(Short Reach)的标准,这个场景特别适合于AI集群网络连接,无论是800G还是1.6T都有多模光模块选择。智算中心的距离梯度,通常分为50米,100米,500米和2000米。另外,在性能方面有一个非常重要的技术点,这个点就是多模MPO连接器开始使用APC研磨面。APC是指在MPO研磨面里呈斜角型的接触面,这种技术可以减少回波损耗所带来的噪声。根源在于过去更多是NRZ编码,对于回波损耗不敏感;现在是PAM4编码为主,对于回波损耗更为敏感。在超大规模集群中,当在两个端点之间的链路可能出现多次连接,这种回波反射和插入损耗一样重要,所以在AI网络体系中,APC研磨面将会比常见的UPC平面研磨面要增多。400G以后,对RL(Return loss)参数要求要高于过去的要求,尤其在结构化的布线系统中, APC参数起到决定性的作用。网络在AI集群中究竟扮演着一个什么角色?它的影响究竟有多大
不同的从业者给我的答案不一样,但是有一个观点是一致的:当你的丢包率达到了千分之一的时候,你的训练效率就会显著下降。第二点是延时。当网络延时出现了变化或波动的时候,算力同步性要求类似“木桶原理”,导致GPU利用率会显著下降,算力投资会被浪费。第三,网络故障因素会导致集群出故障究竟有多大的比例?不同的集群,不同的显卡,不同的技术,不同的优化结果也不一样,最恶劣的是,可能有30%的AI集群故障是来自于网络,当然这个“网络”是广义的网络,包括网卡、线缆、光模块和交换机等,加一起大概30%。例如MPO APC研磨面RL(Return
loss)参数不够优化,现场安装时,现场洁净度不够好也可能是影响因素之一。首先, 对于MPO预端接线缆,接头的RL参数对于智算中心的影响非常大,所以我们必须重视APC参数。其次,IB与RoCE网络在物理层上性能无需区别对待,优异的布线系统都可以很好地支持IB和RoCE。关于智算网络的延时,从来没有像现在这样受到重视。我在这里必须先强调几个基本物理学常识。在物理层、光通讯和铜缆通讯都是电磁波信号传递,基本上都是2/3光速,这是由于铜缆NVP(额定传输速率)值,和玻璃纤维的折射率决定的,折算后基本上是2/3光速,也就意味着物理层,每米消耗延时是5纳秒左右。在数据链路层,端口间的数据帧转发时延,基本上是以微秒来计算,大部分设备转发能力在2到3微秒之间,这是交换机方面的延时。计算整体网络架构或集群间互联会通常以毫秒来计算,有了这三层时延概念,我们再谈优化问题。这要看在何种距离范畴里讨论,如果你只是50米,也就只有250纳秒,而一个设备端口的转发可能2-3微秒,只是总延时贡献的十分之一。这种范畴里,距离长短变化对于整体系统性延时,其实微乎其微,优化空间很有限。这是我表达的第一个观点。第二个观点,在AI集群内部,有一个很强的多轨连接方式或并行作业方式,比如流水线并行、张量并行、数据并行等机制,GPU卡之间有同步协调问题;类似于木桶原理,一张卡没完成任务,整体计算任务不能完成,使得训练完成总延时增长,所以延时同步性和稳定性比某一张卡的慢或快更为重要,所以延时一致性是AI集群中一个非常重要指标。讨论延时问题,必须谈谈空心光纤。空心光纤是光不在石英玻璃里传播而是在空气里传播,这种技术的优点和缺点都极其显著。它有极好的优点:低时延。电磁波信号(光也是一种电磁波)在铜介质或石英玻璃中传播都是2/3光速,但在空气中传播就可以接近光速了,提升了30%效率,也就是它的延时降低了30%。优势非常明显,尤其对于跨集群的长距离互联,它的优势更为明显,对于推理阶段,空心光纤的低时延价值可以有充分发挥。缺点也一样明显。整体业务生态需要重构,包括光源、光纤、端接技术、连接器件、运维、修复技术等多个技术领域,都面临着极大挑战。我们期待着它的完善,让信息流有30%效率提升。在集群内部连接线缆,线缆等长是否必须?如果从时延角度,必要性不大,物理层造成的延时差很小;等长只是为了运维方便。怎么解决运维的问题?节省线缆资源,提高连接密度,解决运维问题,就是做预端接缆的定制化。譬如本来只需要5米,你非要塞给30米,意味着25米不用,还得盘绕,还要有空间管理。总之,解决运维的最好办法就是结构化布线,根据网络拓扑采用不等长的主干缆加上等长的短跳线完成灵活连接。网络系统对于高能耗的智算中心有哪些可以优化的角度?
能耗从风火水电等基础设施角度谈得很多了,但从网络角度谈能耗的不多。下图来自思科公司对过去12年能耗增长率分析报告,这个报告被广泛引用,它能体现出一个结论:重视网络设备能耗。未来网络设备提速同时,能耗提升显著,从图中显示最快的不是计算芯片,而是光通讯相关的电芯片和收发器能耗,提升率达到26倍。2024年诺贝尔物理学奖得主,贡献在于神经网络的研究,推演到人工智能的神经网络计算模型。人的计算是靠大脑,大脑的计算是靠神经元,神经元之间的连接是靠轴突和树突,另一篇学术论文得到一个惊人的结论,神经元在工作时候,通讯耗能是神经元计算耗能的35倍。可以预见未来网络连接的复杂性,它需要更高密度,需要更大的连接数量,未来对于通讯方面的耗能,比我们想象得更为巨大。因此CPO (Co-packaged Optics) 共封装技术一定会走下去,它可以很好得解决通讯传输的能耗问题。目前AI集群网络,最现实和最有效的节能方式,就是多模收发器的大量采用。譬如,从400G光模块能耗差异可以看出,单模和多模的能耗差异还是比较显著的,单模平均有30%的能耗提升。所以在短距离场景,多模依然扮演者重要角色。智算中心的机架功率要求很高,然而大多数机房达不到这种高密度机架,这样就需要以空间换密度,把本应该放在同一个机架的服务器放到不同机架里;影响就是物理链路距离加大,管理难度加大,所以在这里面,我们说高密度会影响到布线方式。智算中心多模光纤扮演着重要角色;从模式带宽的角度,无论是长链路还是短链路,只要是用于达到或超越400G的高速连接需求,实践表明OM4始终优于OM3;通过长期测试来分析信号完整性,基于前向纠错机制FEC,无论是10米,20米、30米还是50米,OM4都优于OM3。在运维问题方面,我们看到整个中国市场的乱象,光缆使用者严重忽略或忽视了除光纤玻璃纤维之外的其他技术要素:● 线缆拉力标准过低,施工不规范,光缆损坏严重,或者影响光学宏弯和微弯性能;● 线缆外皮阻燃等级过低或没有标注,甚至不符合机房规范;● MPO APC的验收测试,要么不做,要么不会做。唯一方式是替换,不停地替换。这些问题在智算中心市场非常严重,我在这里只是列了一些关键因素,不再展开讲,只希望引起大家重视。虽然网络是为了计算单元服务,但是为了让网络更好地为计算单元服务,智算中心必须把网络放在核心位置,放在中心位置,让GPU围绕着网络转。这样才能更好实现智算中心对于高带宽,高可靠,低延时,低能耗(多模光模块支持短链路)的要求。以网络为中心去做总体设计,距离比较容易计算和控制;网络区汇聚管理比较容易控制;光纤线槽设计比较容易。譬如,每列机设计布局时,尽量用列中方式,而不是用列头方式;网络区尽量放在机房空间的中部。在AI集群里面,随着卡数越来越大,集群难度也越来越大,必须要采用主干线和跳线缆的结构化部署理念,未来大集群里面结构化布线可以体现从运维、实施安装,故障查找、快速修复方面都有巨大优势。对于结构化的概念,英伟达也认识到它的重要性,所以在英伟达的官网把布线系统也引入到结构化的理念,它不再是点对点的连接,中间可以有更多的连接组件,采用高品质的布线组件,例如上面提到的回波损耗和插入损耗参数提升,可以保障多连接时依然满足高带宽和高可靠。长距离有源跳线(如AOC),大量使用是害多利少;这不是高高在上的设计者说的,这是一线施工从业者说的,是一线运维人员说的,是进行故障诊断和快速修复的人说的,所以AOC大量使用害多利少;它不是没有“利”, 而是要重视它的“害”,在“害”跟“利”之间达到一种平衡,高速率高密度时代我们必须重视结构化整体架构思路。很高心今天能跟大家分享三个重要话题。
我们需要一个什么样的网络来支持AI?答案是高带宽、高可靠、低延时和低能耗;
网络对于AI集群来说非常重要,最佳实践是:请把网络区域放在核心位置。
我们怎样去做一个能够灵活管理和高效运维的超大规模集群?以结构化的思路去支持后端网络和前端网络;支持计算网络、存储网络,管理网络等。
智算中心,需要优化的不仅仅是计算效率,更要重视网络效率。
谢谢大家!
注:识别二维码可下载吴健老师演讲《关键网络决定智算效率》PPT精简版
为率先储备800G乃至1.6T的网络技术,以应对未来数据传输速度和网络带宽需求的迅猛增长,2024年,CDCC牵头组织编写《智算中心800G/1.6T网络布线技术白皮书》。白皮书分析智算业务对网络的关键需求,介绍智算网络的架构设计以及智算中心网络特征,为读者提供建设面向大模型的智算中心网络设计和运维方面的参考。
● 转发本文到朋友圈,并集赞20个;同时点赞视频号演讲视频,截图保存。
● 扫描下方二维码填写快递信息并上传转发截图
● 标准将于12月18日统一快递,请耐心等待。
●本次赠阅限量100本(每个ID仅限1次),如有疑问请添加微信:jishn1235咨询。
● 如需额外定购,请致电010-68002770