从UALink近期发展再看GPU Scale Up的互连方向

科技 2024-11-22 15:51 江苏

GPU的Scale Up互连成为炙手可热的话题，在2024年涌现了众多相关的行业讨论。站在CSP的视角，什么样的技术以及生态才能满足云上智算集群的发展？为什么采用全新的Scale Up设计而不复用当前的以太网和RDMA技术呢？本文借着行业内的一些事件，对GPU超节点的Scale up互连的技术方向观点进行分享。

在GPU算力架构发展的历程和趋势中，行业逐渐意识到大模型的训练推理对显存容量以及带宽有不断增长的诉求，传统的GPU单机8卡方案已经不能满足业务发展的需要，更多卡组成超节点并具备大容量显存和低延的共享的解决方案才能满足大模型的需求。比如阿里云在今年9月份发布了Alink Sytem开放生态和AI Infra 2.0服务器系统，其中底层互连协议部分兼容国际开放标准UALink协议。

10月29日，UALink联盟正式发布，并开启新成员邀请，发起成员包括AMD、AWS、Astera Labs、Cisco、Google、HPE、Intel、Meta 和Microsoft。其中相对于5月份的首次披露的成员，博通消失了，取而代之的是AWS和Astera Labs。其中AWS的加入引人遐想，因为AWS一向低调，很少参与协议组织。这次AWS躬身入局UALink联盟也展示了其对于GPU Scale Up互连需求的思考，以及对于UALink原生支持GPU互连这个技术方向的认同。为什么AWS和阿里云这些CSP陆续拥抱原生Scale Up互连协议，下面我们就对Scale up互连的需求和场景做一些展开论述。

智算集群的互连架构

当前智算集群内，围绕着GPU存在三大互连，分别是业务网络互连、Scale Out网络互连、Scale Up网络互连，它们分别承载了不同的职责：跨业务、集群内、超级点GPU之间连通性。随着AI应用的爆发，推理的GPU规模最终会大大超过训练，由于推理服务同时追求业务请求的低延迟和高吞吐，Scale Up互连技术对于智算超节点意义重大，Scale Up主要是面向大模型推理服务以及兼顾训练。

业务网络互连：承载的是诸如需要计算的输入数据，输出结果，以及在各类存储系统中的模型参数、checkpoint等。需要进行极大范围的互连，并且和云上的存储、业务接口等互通，采用以太网技术，通常支持各类RDMA。

Scale Out网络互连：训练的DP、PP并行计算切分流程，通常要把集群横向扩展到超多的GPU机柜，当前的训练规模已经发展到10w卡，目前国际的标准趋势是，采用专门优化的以太网技术UEC（Ultra Ethernet Consortium）协议。

Scale Up网络互连：以推理的大显存并行计算流量和训练的张量并行（TP）以及专家并行（MoE）流量为主，有在网计算的需求（可以对All reduce在Switch节点上进行加速）。互连规模在未来很多年内都会维持在单柜72～80个GPU，从模型大小和推理需求的发展来看，当前规划能满足很长一段时间的需求。

超节点内部Scale Up互连：注定和设备深度绑定的协议

如何定义一个超节点的边界？这个边界就是网卡。超节点外的以太网是面向连接的设计，实现大面积的连通，超节点内的是面向计算的设计，实现的是部件间的协同。

超节点内通过部件之间深度的耦合，实现了高效协同（包括效率、编程习惯等），这个耦合带来了性能（如带宽、延迟等），特性（内存共享、设备中断等）的需求，在过去很长一段时间内的典型技术是PCIe，它很好的解决了以CPU为中心的互连问题，几乎全部的服务器设备都是PCIe接口的。

当数据中心主要计算类型发生变化的时候，新的挑战出现了，围绕GPU为中心的计算带来了新的挑战：

面向GPU的语义支持：GPU是超众核架构，其在线程调度机制，以及核心的利用率考量上和CPU有着显著的区别。CPU的外设交互模式及RDMA交互模式等，无法有效的满足GPU的访存特性和性能要求。和这个使用模式比较类似的是CXL（Compute Express Link，通用计算的内存扩展技术）的使用方式，但CXL在此场景下也存在局限性，比如大量内存一致性特性支持的开销，以及前向兼容PCIe所有协议栈带来的大量冗余特性。

超高性能诉求：Scale Up相对于Scale Out和业务网络需要更高一个数量级(10倍以上)的带宽。由于GPU算力的狂飙，在当前的算力水平下，Blackwell这一代配置了双向共1.8T的算力，这意味着即使采用224g的phy，单芯片也需要双向共72个serdes差分对，整机柜需要数千根。。如果采用类似网卡的外置控制器方案，在功耗，延迟、稳定性等等都具有极大的劣势。Scale Up互连采用GPU直出，将所有的控制器植入GPU内部是不可避免的选择。

为什么采用全新的Scale Up协议而不复用已有的协议?

Scale UP互连是用于GPU和GPU 互连，是做更大芯片扩展的服务器，是内存和显存共享访问的语义，特点是极低延迟和大带宽，规模在柜内，可扩展为多柜到百芯片级（只是一种能力保留，但是未来很多年都看不到应用），是独立Fabric连接，完全不同于以太网。Scale Out互连是用于服务器之间是基于网卡+交换机的集群互连，是以太网协议，规模在万级以上，普适的互连。

国际的主流厂商，尤其是云计算为代表的应用厂商都积极加入UALink，代表了一个广泛的观点，对于Scale Up，是有价值也有必要从底层协议到系统硬件进行重新设计的，目前业界主流的GPU芯片厂家都会考虑Scale Up采用独立的Link技术，不会和Scale Out合并设计。

特性维度

GPU+AI有着显著的特点，GPU是超多核的编程模型，和擅长通用性的CPU不同，需要使用到大量的内存语义(load/store)访问，同时由于各个GPU之间需要彼此使用HBM的内存，对跨芯片访问带宽和时延有显著的高要求。

其次Scale Up相对于Scale Out和业务网络需要更高一个数量级(10倍以上)的带宽，同时由于对于延迟的需求，需要采用GPU芯片直出互连的设计，协议的轻量化设计具备极大的价值，意味着可以将宝贵的芯片面积节省给GPU的计算核心、更高的IO集成能力、更低的功耗。

互连范围

Scale Up互连注重的是大模型的应用，从模型需求和互连分层的角度来说，Scale Up的互连域是一个独立高性能低延迟内存共享访问的互连域，单柜规模在72～80个GPU，保留百级的扩展能力（未来很多年都看不到应用），节点访问都是显存访问(load/store)，性能和延迟的第一要素，完全不需要采用过于复杂的协议，这个是Scale Out的以太网完全做不到的，如果以太网可以做到，其实就已经简化到和Scale Up一样了，也就不是以太网了，脱离了以太网大规模普适的根本。

当前行业共识和UALink协议联盟发展

业界发展最早和最成熟的是NVIDIA的NVLink技术，然而NVLink并不是开放生态，鉴于此，各家主要厂商或形成了闭环的自有协议方案（如谷歌TPU的OCS+ICI架构及AWS的NeuronLink）。当前行业中实际主流的，都采用的是自有技术，然而各家的演进成本都很高。

考虑到针对终态进行设计，以及共同对抗行业垄断的目的，AMD将其迭代多年的Infinity Fabric协议贡献出来，促成UALink联盟的成立，希望在更多行业伙伴的助力下，持续发挥原生为GPU互连场景设计的优势，使其成为行业的开放标准。

考虑到技术特点和开放生态给云计算公司将带来技术竞争力和供应链等全方位的优势，UALink在发布之后快速得到各家的青睐，尤其是原持有自有协议方案的公司，也积极加入其中。截止11月11日，UALink联盟已有三十余家厂商加入，并在持续扩展中；且涵盖了云计算和应用、硬件、芯片、IP等产业全生态。

当前国际业界已经形成共识：在开放协议领域，以UALink为代表的Scale Up协议和UEC为代表的Scale Out协议，共同支持AI集群互连基础协议的演进。

阿里云在原生Scale Up互连协议领域做出了积极的探索，特别是在9月份ODCC年度峰会上联合信通院和AMD等伙伴发布的ALS(Alink System，加速器互连系统)产业生态，正是朝着解决原生Scale Up互连系统的行业发展规范的目标在努力。ALS将在系统层面同时支持UALink国际标准并兼容封闭方案。ALS包括ALS-D数据面和ALS-M管控面两个主要组成部分。ALS-D在UALink上补充在网计算加速等特性，并支持Switch组网模式。

可以看的出来，阿里云积极推动的支持原生Scale Up协议的ALink System，其核心目标还是聚焦未来以推理需求为主的GPU算力需求，持续以有限规模Fabric独立存在并演进，形成智算超节点内的核心竞争力。

【投稿】：SDNLAB原创文章奖励计划

SDNLAB

SDNLAB是专注网络创新技术的先锋媒体社区和实践应用平台，涵盖AI 网络、DPU/智能网卡、SD-WAN/SASE、Web3.0、零信任、云网融合等相关领域，提供新闻资讯、技术交流、在线实验、行业分析、求职招聘、教育培训等多元服务。

最新文章

未来网络研究与发展思考

为什么 AI 芯片需要 PCIe 7.0 IP 互连？

光联世纪：荣获双奖，引领企业数字化转型与网络安全升级新纪元

Meta 万卡 GPU 集群稳定性剖析与最佳实践

又有中国公司被列入实体清单！

大厂自研白盒交换机：是技术控的倔强，还是钱包君的呼救？

突发！英伟达被立案调查！

十年“变形记”，AMD 如何从英特尔的“平替”发展成强劲对手？

GPU 与 LPU：哪个更适合 AI 工作负载？

P4助力全调度以太网技术（GSE）创新与实践

揭秘 AWS 10p10u 最新网络架构！

2024年全国行业职业技能竞赛-第五届全国电信和互联网行业信息化系统管理员S（云网智能运维与优化方向）全国总决赛在宁圆满落幕

算网融合技术与产业白皮书（附下载！）

英特尔 CEO 帕特·基辛格宣布辞职

美国将136家中国实体列入实体清单（附完整名单）

传140家中国半导体公司被美列入实体清单！

写给小白的大模型入门科普

UEC 和 UAL 应该合并吗？

IDC ：未来 5 年 AI 基础设施支出将超 1000 亿美元

为什么 MPLS 仍是以太网传输技术的首选？

聊一聊算力调度

深度用云——释放企业潜能｜网络先行——云网络卓越架构设计

深度用云——释放企业潜能｜阿里云原生网络AIOps，助力企业深度用好云

阿里云孙成浩：简单易用的智能云网络，让客户专注业务创新

第七届SD-WAN & SASE大会专访——泰信天成刘昱：专注于SD-AIIT，NG-WAN融合算网，让AI为网络所用

从UALink近期发展再看GPU Scale Up的互连方向

天翼云领跑边缘安全加速赛道，斩获品牌、产品创新双料大奖!

狂飙！英伟达营收暴涨 94%！

第一线总经理陈姵妏：构建AI原生可信计算空间助企业加速驰骋智慧浪潮

微软“芯”力全开，首款自研DPU 曝光！

首颗全调度以太网（GSE）DPU芯片发布，中国智算网络发展的又一个里程碑

AI 浪潮下思科“翻船”？网络业务大幅下滑23%！

6G网络内生AI技术白皮书（附下载）

第七届SD-WAN & SASE大会暨云网络大会盛大召开！

倒计时 1 天！丨第七届SD-WAN & SASE大会暨云网络大会报名即将截止

智算网络集群的下一步？Scale-up与Scale-out融合架构成关键

倒计时 3 天！丨第七届SD-WAN & SASE大会暨云网络大会报名即将截止

Arista 财报：AI 后端网络“内卷”成功，前端网络“压力山大”！

参会指南丨第七届SD-WAN & SASE大会暨云网络大会报名倒计时

曝台积电7nm芯片将停供中国大陆！

从云计算技术发展路径看三十年市场用云需求变迁

园区全光网络技术路线：融合才是最优解

我国算力中心大盘点

2024年 SD-WAN & SASE 厂商大盘点!

美政府拟推动英特尔芯片设计业务与AMD或Marvell合并？

AI大模型智算集群高性能网络优化路在何方？

议程发布丨第七届SD-WAN & SASE大会暨云网络大会诚邀您参会

AMD 还需要多久才能超越 Nvidia？

超大规模下的以太网RDMA的局限与展望

一个数据包究竟有多大？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉