大会预告
文章转载自公众号:SDNLAB。本文只做学术/技术分享,如有侵权,联系删文。
随着AI技术的发展,AI产品的普及,社会生活的方方面面正在悄无声息地发生变化。催生和推动AI技术发展进步的两大关键,一个是基于神经网络的AI大模型技术,另外一个是训练这些模型的智算集群。作为AI时代的基础设施,智算集群已经是新时代的关键生产力,不仅仅是科技公司之间角逐的焦点,也是国家战略层面要发力突破的重点。
上周,中国网络大会 CCF ChinaNet 在江苏张家港召开,智算网络成为热门话题,院士、教授以及业界大牛齐聚一堂,畅想AI未来,展望AI网络发展趋势。
智算集群的核心技术是什么呢 ?英伟达的Jensen Huang说过,“Data center as computer,Network defines DC architecture”,网络技术定义了智算集群的架构。事实也是如此,智算集群千卡万卡GPU要通过并行计算的方式来训练大模型,其关键点不就是连接这么多并行计算GPU的网络吗 ?可见网络在其中扮演着非常重要的角色。AI模型在Scaling law的推动下,还将持续扩展模型参数量和训练数据量,以达到更好的模型效果,所以智算集群需要更多的GPU进行互联,组成超大集群,来提供足够的算力。
展望AI发展未来,智算网络的发展仍然充满挑战,无论是更大规模的集群,还是Scale up网络技术路线,都是业界讨论的热门话题,阿里云副总裁蔡德忠先生发表的《规模x10驱动AI智算集群网络架构新一轮变革》就谈到了两个话题,其观点备受瞩目。
01 基于以太网构建更大规模Scale out集群
网络并不是简单地将GPU互联,组成更大规模,就达成“集群化算力”的效果。网络连接好比高速公路,并不是高速通了就可以畅通无阻,规划不合理、车道不足、调度不合理,都会出现拥堵,节假日高峰出行就让人不省心,网络也是如此,在这么庞大的GPU互联中,带宽大小、拓扑设计、负载均衡、任务排布等等,都会影响GPU并行计算中的通信性能。
更重要的是,今天的大模型训练是基于并行计算范式,一个训练任务是计算-通信-计算这种周期性迭代的过程,所有GPU 在一轮计算迭代后都必须同步参数和梯度才能进行下一轮的计算,集群中任何一处有网络拥塞或者故障都会影响整体训练的性能,具有很强的木桶短板效应,所以稳定的高性能网络互联成为智算集群的最核心诉求。
为传统CPU业务设计的数据中心网络架构针对的是大规模分布式计算,已经不能适应大规模并行任务的智算集群。为此,阿里云在去年设计了HPN7.0架构,其论文被顶会SIGCOMM录取,成为网络顶会历史上首篇AI智算网络架构论文,成为业界标杆,为Scale out的以太网技术路线树立旗帜。目前基于以太网来构建大规模智算集群,基本上成为业界的共识,北美的meta、xAI都相继发布了基于以太网的10w级别集群。
02 Scale up网络如何发展
GPU集群演进的另外一个热点话题是Scale up。各大GPU 厂商相继发布了AI rack级产品路标,Scale up范围由目前的8卡增加到64、72卡,甚至将来到576或者更多,所以Scale up网络怎么做,基于什么协议来做,是封闭还是开放,大家都非常关心,这也是UEC和UAL备受关注的原因。
到底什么是 GPU Scale up ?不少人以为Scale up是机内互联,这是一种误解。在8卡系统的时代,因为8卡在一个OS内部,所以确实是机内互联,当NVL36、72这种AI rack的形态出现后,NV link 就不再是“机内互联”,而是一种新型的节点间网络互联,为了和目前的 RDMA 高性能 Scale out 网络区分,行业内还继续采用 “Scale up” 这个叫法。
阿里云给出了一个定义:Scale up就是在一定范围内、在成本和互联技术约束下实现的超高带宽互联。这个超高带宽互联的范围固定并且带宽是Scale out的数倍以上,可以在协议层面优化来支持内存语义。以NVL72为例,实际上是18台服务器通过9台Scale up交换机连在一起的网络域,只不过是在这个域内的带宽9倍于Scale out的大的带宽(7.2Tbps vs 800Gbps),此外还支持了内存操作语义,为了区分,我们依旧称其为Scale up,但实际上是一种更大带宽的新型 scale out 网络。
类似NVL72这种"AI rack"本质上是多台服务器组成的一个小型集群,而不是一台服务器。不同于小型机、大型框式交换机/路由等,都是运行一个主控OS,由于系统复杂,故障率高,已经退出了历史舞台。其中核心组件一旦出现故障,整个 rack 系统都会fail,也因为这个原因(外加成本,运维复杂度等)行业内在很多年前就走向了开放解耦架构,采用更小的 x86 服务器 or 白盒交换机 Scale out。历史的车轮不会倒行,
如上图所示,NVL72 并不是一台大服务器,实际上是为了提供更大带宽互联的一个小型化浓缩的集群,由18个服务器和9 个交换机通过高速铜线互联而成,其中任何一个计算或网络节点出现问题,都不会影响其他服务器节点,整个NVL72的其他部分依然会正常运行,这一点也是类似NVL72这种“AI rack”与其他小型机、大型框式交换机/路由等的本质区别。历史上出现的小型机、大型框式交换机/路由等,都是运行一个主控OS,其中核心组件一旦出现故障,整个系统都会宕机,再加上封闭系统和高昂的成本,行业内很多年前就抛弃了这个方向,走向了开放解耦架构,采用更小的 x86 服务器 or 白盒交换机,通过分布式集群的方法来构建系统。历史不会倒退,类似NVL72的AI rack必然采用分布式方法,成为一个小集群而不是一台服务器。
随着大模型训练和推理对算力性能需求的持续提升,以及性价比的持续驱动,Scale up域会越来越大,也就是说 Scale up 集群的规模会越来越大,从单 rack 到双rack,再到跨多个rack将成为必然趋势,当 Scale up 集群规模达到千卡级别,和传统 Scale out集群就已经具备很多共同点了,这个时候如何设计 GPU 互联架构,需要智算网络的下一轮革新。
Scale up网络大体上可以分成2个技术方向。一个是封闭的私有技术方向,典型代表比如NV、Google(NVLink和TPU互联)。另外一个是基于Ethernet的开放技术方向,这个方向以各大互联网和云计算公司自研GPU(微软、Meta、Tesla等)为代表,包括一些大的GPU芯片公司。最近大家都知道的消息是,某GPU芯片大厂,在谨慎评估后选择了Ethernet作为其下一代GPU Scale up的路线,通过一层互联即可以做到256 GPU的Scale up域。
说起 GPU Scale up 的行业生态,必然会提 UAL,UAL 联盟也已经成立有段时间,据说内部也调整了好几次,从最开始的采用 PCIE 交换机作为 Scale up switch 到转向 Ethernet 作为网络底层,联盟核心成员也有调整,网络芯片龙头老大博通退出,而一向不加入开源组织的 AWS 反而加入,让 UAL 蒙了一层神秘的面纱,标准制定道路漫长,但是众多GPU芯片公司却等不及了,采用可规模落地的 Ethernet 已经成为首选,包括上面说的某GPU芯片大厂都开始转向Ethernet 了。
Ethernet有超大带宽技术和强大的生态支撑,目前UEC、高通量以太网等开放组织还在针对Scale up进行协议的改进来实现低时延、在网计算等核心功能,以及针对内存语义进行优化,所以众多GPU芯片公司都选择了以太网作为Scale up网络的首选技术路线,同时,基于 Ethernet 的Scale up 方案为未来的数据中心网络持续演进,为 Scale up 和 Scale out 二网融合奠定了重要基础。
03 未来网络的融合架构
未来更大规模的Scale up选择Ethernet作为路线后,就可以实现Scale up和Scale out的融合,如下图所示,做到效率更高、成本更低的架构。Scale up范围内进行大带宽的TP、EP、CP等通信,多个Scale up域通过Scale out互联,进行DP、PP等通信,跨Scale up实现合理的带宽收敛即可。同时,独立Scale out网卡+网络的成本也不容小觑,如果将 Scale up 和Scale out 的以太网融合为一张网,通过将不同的Scale up域进行Scale out互联组网,不但少了一张网络和网卡的投入,在运维、扩展上也将更加统一高效。
04 阿里云发布高通量以太网协议路线图和超节点ENode+计划
在大会上,阿里云发布了高通量以太网的协议路线图,规划了年度大版本,半年小版本的演进方式,为国内智算生态的快速发展迭代打好网络基础。同时阿里云还发布了基于高通量以太网的 ENode+ 超节点路线。
笔者了解到,高通量以太网联盟内部已经同步了高通量以太网超节点ENode+的设计,看起来基于以太网Scale up的AI Rack系统也将很快到来,更多产品和技术细节值得期待。
可以看到超节点并不局限在一个机柜内,当Scale up域增大到一定规模后单机柜已经无法容纳算力和网络,就会出现跨机柜的两层组网形态,Rack内和Rack间网络共同构成一个超大带宽的Scale up网络,这个两层网络构建的多机柜系统就成了一个超节点。
高通量超节点机柜ERack+是高通量超节点的关键要素之一。整个机柜将基于以太网高带宽、高速率、high radix的特性进行构建。高超柜会作为一个系统平台,为高通量以太网超节点ENode+的设计和定义、未来Scale up和Scale out的融合、以及高通量以太网的生态互通提供有效的支持。
—END—
点击下方名片
即刻关注我们