智算网络集群的下一步？Scale-up与Scale-out融合架构成关键

科技 2024-11-14 15:50 江苏

随着AI技术的发展，AI产品的普及，社会生活的方方面面正在悄无声息地发生变化。催生和推动AI技术发展进步的两大关键，一个是基于神经网络的AI大模型技术，另外一个是训练这些模型的智算集群。作为AI时代的基础设施，智算集群已经是新时代的关键生产力，不仅仅是科技公司之间角逐的焦点，也是国家战略层面要发力突破的重点。

上周，中国网络大会 CCF ChinaNet 在江苏张家港召开，智算网络成为热门话题，院士、教授以及业界大牛齐聚一堂，畅想AI未来，展望AI网络发展趋势。

智算集群的核心技术是什么呢？英伟达的Jensen Huang说过，“Data center as computer，Network defines DC architecture”，网络技术定义了智算集群的架构。事实也是如此，智算集群千卡万卡GPU要通过并行计算的方式来训练大模型，其关键点不就是连接这么多并行计算GPU的网络吗？可见网络在其中扮演着非常重要的角色。AI模型在Scaling law的推动下，还将持续扩展模型参数量和训练数据量，以达到更好的模型效果，所以智算集群需要更多的GPU进行互联，组成超大集群，来提供足够的算力。

展望AI发展未来，智算网络的发展仍然充满挑战，无论是更大规模的集群，还是Scale up网络技术路线，都是业界讨论的热门话题，阿里云副总裁蔡德忠先生发表的《规模x10驱动AI智算集群网络架构新一轮变革》就谈到了两个话题，其观点备受瞩目。

基于以太网构建更大规模Scale out集群

网络并不是简单地将GPU互联，组成更大规模，就达成“集群化算力”的效果。网络连接好比高速公路，并不是高速通了就可以畅通无阻，规划不合理、车道不足、调度不合理，都会出现拥堵，节假日高峰出行就让人不省心，网络也是如此，在这么庞大的GPU互联中，带宽大小、拓扑设计、负载均衡、任务排布等等，都会影响GPU并行计算中的通信性能。

更重要的是，今天的大模型训练是基于并行计算范式，一个训练任务是计算-通信-计算这种周期性迭代的过程，所有GPU 在一轮计算迭代后都必须同步参数和梯度才能进行下一轮的计算，集群中任何一处有网络拥塞或者故障都会影响整体训练的性能，具有很强的木桶短板效应，所以稳定的高性能网络互联成为智算集群的最核心诉求。

为传统CPU业务设计的数据中心网络架构针对的是大规模分布式计算，已经不能适应大规模并行任务的智算集群。为此，阿里云在去年设计了HPN7.0架构，其论文被顶会SIGCOMM录取，成为网络顶会历史上首篇AI智算网络架构论文，成为业界标杆，为Scale out的以太网技术路线树立旗帜。目前基于以太网来构建大规模智算集群，基本上成为业界的共识，北美的meta、xAI都相继发布了基于以太网的10w级别集群。

Scale up网络如何发展

GPU集群演进的另外一个热点话题是Scale up。各大GPU 厂商相继发布了AI rack级产品路标，Scale up范围由目前的8卡增加到64、72卡，甚至将来到576或者更多，所以Scale up网络怎么做，基于什么协议来做，是封闭还是开放，大家都非常关心，这也是UEC和UAL备受关注的原因。

到底什么是 GPU Scale up ？不少人以为Scale up是机内互联，这是一种误解。在8卡系统的时代，因为8卡在一个OS内部，所以确实是机内互联，当NVL36、72这种AI rack的形态出现后，NV link 就不再是“机内互联”，而是一种新型的节点间网络互联，为了和目前的 RDMA 高性能 Scale out 网络区分，行业内还继续采用 “Scale up” 这个叫法。

阿里云给出了一个定义：Scale up就是在一定范围内、在成本和互联技术约束下实现的超高带宽互联。这个超高带宽互联的范围固定并且带宽是Scale out的数倍以上，可以在协议层面优化来支持内存语义。以NVL72为例，实际上是18台服务器通过9台Scale up交换机连在一起的网络域，只不过是在这个域内的带宽9倍于Scale out的大的带宽（7.2Tbps vs 800Gbps），此外还支持了内存操作语义，为了区分，我们依旧称其为Scale up，但实际上是一种更大带宽的新型 scale out 网络。

类似NVL72这种"AI rack"本质上是多台服务器组成的一个小型集群，而不是一台服务器。不同于小型机、大型框式交换机/路由等，都是运行一个主控OS，由于系统复杂，故障率高，已经退出了历史舞台。其中核心组件一旦出现故障，整个 rack 系统都会fail，也因为这个原因（外加成本，运维复杂度等）行业内在很多年前就走向了开放解耦架构，采用更小的 x86 服务器 or 白盒交换机 Scale out。历史的车轮不会倒行，

如上图所示，NVL72 并不是一台大服务器，实际上是为了提供更大带宽互联的一个小型化浓缩的集群，由18个服务器和9 个交换机通过高速铜线互联而成，其中任何一个计算或网络节点出现问题，都不会影响其他服务器节点，整个NVL72的其他部分依然会正常运行，这一点也是类似NVL72这种“AI rack”与其他小型机、大型框式交换机/路由等的本质区别。历史上出现的小型机、大型框式交换机/路由等，都是运行一个主控OS，其中核心组件一旦出现故障，整个系统都会宕机，再加上封闭系统和高昂的成本，行业内很多年前就抛弃了这个方向，走向了开放解耦架构，采用更小的 x86 服务器 or 白盒交换机，通过分布式集群的方法来构建系统。历史不会倒退，类似NVL72的AI rack必然采用分布式方法，成为一个小集群而不是一台服务器。

随着大模型训练和推理对算力性能需求的持续提升，以及性价比的持续驱动，Scale up域会越来越大，也就是说 Scale up 集群的规模会越来越大，从单 rack 到双rack，再到跨多个rack将成为必然趋势，当 Scale up 集群规模达到千卡级别，和传统 Scale out集群就已经具备很多共同点了，这个时候如何设计 GPU 互联架构，需要智算网络的下一轮革新。

Scale up网络大体上可以分成2个技术方向。一个是封闭的私有技术方向，典型代表比如NV、Google（NVLink和TPU互联）。另外一个是基于Ethernet的开放技术方向，这个方向以各大互联网和云计算公司自研GPU（微软、Meta、Tesla等）为代表，包括一些大的GPU芯片公司。最近大家都知道的消息是，某GPU芯片大厂，在谨慎评估后选择了Ethernet作为其下一代GPU Scale up的路线，通过一层互联即可以做到256 GPU的Scale up域。

说起 GPU Scale up 的行业生态，必然会提 UAL，UAL 联盟也已经成立有段时间，据说内部也调整了好几次，从最开始的采用 PCIE 交换机作为 Scale up switch 到转向 Ethernet 作为网络底层，联盟核心成员也有调整，网络芯片龙头老大博通退出，而一向不加入开源组织的 AWS 反而加入，让 UAL 蒙了一层神秘的面纱，标准制定道路漫长，但是众多GPU芯片公司却等不及了，采用可规模落地的 Ethernet 已经成为首选，包括上面说的某GPU芯片大厂都开始转向Ethernet 了。

Ethernet有超大带宽技术和强大的生态支撑，目前UEC、高通量以太网等开放组织还在针对Scale up进行协议的改进来实现低时延、在网计算等核心功能，以及针对内存语义进行优化，所以众多GPU芯片公司都选择了以太网作为Scale up网络的首选技术路线，同时，基于 Ethernet 的Scale up 方案为未来的数据中心网络持续演进，为 Scale up 和 Scale out 二网融合奠定了重要基础。

未来网络的融合架构

未来更大规模的Scale up选择Ethernet作为路线后，就可以实现Scale up和Scale out的融合，如下图所示，做到效率更高、成本更低的架构。Scale up范围内进行大带宽的TP、EP、CP等通信，多个Scale up域通过Scale out互联，进行DP、PP等通信，跨Scale up实现合理的带宽收敛即可。同时，独立Scale out网卡+网络的成本也不容小觑，如果将 Scale up 和Scale out 的以太网融合为一张网，通过将不同的Scale up域进行Scale out互联组网，不但少了一张网络和网卡的投入，在运维、扩展上也将更加统一高效。

阿里云发布高通量以太网协议路线图和超节点ENode+计划

在大会上，阿里云发布了高通量以太网的协议路线图，规划了年度大版本，半年小版本的演进方式，为国内智算生态的快速发展迭代打好网络基础。同时阿里云还发布了基于高通量以太网的 ENode+ 超节点路线。

笔者了解到，高通量以太网联盟内部已经同步了高通量以太网超节点ENode+的设计，看起来基于以太网Scale up的AI Rack系统也将很快到来，更多产品和技术细节值得期待。

可以看到超节点并不局限在一个机柜内，当Scale up域增大到一定规模后单机柜已经无法容纳算力和网络，就会出现跨机柜的两层组网形态，Rack内和Rack间网络共同构成一个超大带宽的Scale up网络，这个两层网络构建的多机柜系统就成了一个超节点。

高通量超节点机柜ERack+是高通量超节点的关键要素之一。整个机柜将基于以太网高带宽、高速率、high radix的特性进行构建。高超柜会作为一个系统平台，为高通量以太网超节点ENode+的设计和定义、未来Scale up和Scale out的融合、以及高通量以太网的生态互通提供有效的支持。

【活动专栏】

【投稿】：SDNLAB原创文章奖励计划

SDNLAB

SDNLAB是专注网络创新技术的先锋媒体社区和实践应用平台，涵盖AI 网络、DPU/智能网卡、SD-WAN/SASE、Web3.0、零信任、云网融合等相关领域，提供新闻资讯、技术交流、在线实验、行业分析、求职招聘、教育培训等多元服务。

最新文章

未来网络研究与发展思考

为什么 AI 芯片需要 PCIe 7.0 IP 互连？

光联世纪：荣获双奖，引领企业数字化转型与网络安全升级新纪元

Meta 万卡 GPU 集群稳定性剖析与最佳实践

又有中国公司被列入实体清单！

大厂自研白盒交换机：是技术控的倔强，还是钱包君的呼救？

突发！英伟达被立案调查！

十年“变形记”，AMD 如何从英特尔的“平替”发展成强劲对手？

GPU 与 LPU：哪个更适合 AI 工作负载？

P4助力全调度以太网技术（GSE）创新与实践

揭秘 AWS 10p10u 最新网络架构！

2024年全国行业职业技能竞赛-第五届全国电信和互联网行业信息化系统管理员S（云网智能运维与优化方向）全国总决赛在宁圆满落幕

算网融合技术与产业白皮书（附下载！）

英特尔 CEO 帕特·基辛格宣布辞职

美国将136家中国实体列入实体清单（附完整名单）

传140家中国半导体公司被美列入实体清单！

写给小白的大模型入门科普

UEC 和 UAL 应该合并吗？

IDC ：未来 5 年 AI 基础设施支出将超 1000 亿美元

为什么 MPLS 仍是以太网传输技术的首选？

聊一聊算力调度

深度用云——释放企业潜能｜网络先行——云网络卓越架构设计

深度用云——释放企业潜能｜阿里云原生网络AIOps，助力企业深度用好云

阿里云孙成浩：简单易用的智能云网络，让客户专注业务创新

第七届SD-WAN & SASE大会专访——泰信天成刘昱：专注于SD-AIIT，NG-WAN融合算网，让AI为网络所用

从UALink近期发展再看GPU Scale Up的互连方向

天翼云领跑边缘安全加速赛道，斩获品牌、产品创新双料大奖!

狂飙！英伟达营收暴涨 94%！

第一线总经理陈姵妏：构建AI原生可信计算空间助企业加速驰骋智慧浪潮

微软“芯”力全开，首款自研DPU 曝光！

首颗全调度以太网（GSE）DPU芯片发布，中国智算网络发展的又一个里程碑

AI 浪潮下思科“翻船”？网络业务大幅下滑23%！

6G网络内生AI技术白皮书（附下载）

第七届SD-WAN & SASE大会暨云网络大会盛大召开！

倒计时 1 天！丨第七届SD-WAN & SASE大会暨云网络大会报名即将截止

智算网络集群的下一步？Scale-up与Scale-out融合架构成关键

倒计时 3 天！丨第七届SD-WAN & SASE大会暨云网络大会报名即将截止

Arista 财报：AI 后端网络“内卷”成功，前端网络“压力山大”！

参会指南丨第七届SD-WAN & SASE大会暨云网络大会报名倒计时

曝台积电7nm芯片将停供中国大陆！

从云计算技术发展路径看三十年市场用云需求变迁

园区全光网络技术路线：融合才是最优解

我国算力中心大盘点

2024年 SD-WAN & SASE 厂商大盘点!

美政府拟推动英特尔芯片设计业务与AMD或Marvell合并？

AI大模型智算集群高性能网络优化路在何方？

议程发布丨第七届SD-WAN & SASE大会暨云网络大会诚邀您参会

AMD 还需要多久才能超越 Nvidia？

超大规模下的以太网RDMA的局限与展望

一个数据包究竟有多大？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉