从UALink近期发展再看GPU Scale Up的互连方向

科技 2024-11-28 17:56 北京

大会预告

12月5-6日，2024中国生成式AI大会（上海站）将举办，其中，AI Infra峰会将在主会场第二日进行，上海交大副教授、无问芯穹联合创始人兼首席科学家戴国浩，GMI Cloud 亚太区总裁King.Cui，英飞流创始人张颖峰，Jina AI联合创始人兼首席技术官王楠，中昊芯英芯片软件栈负责人朱国梁等14位嘉宾将带来主题演讲和圆桌讨论，欢迎报名～

文章转载自公众号：SDNLAB。本文只做学术/技术分享，如有侵权，联系删文。

GPU的Scale Up互连成为炙手可热的话题，在2024年涌现了众多相关的行业讨论。站在CSP的视角，什么样的技术以及生态才能满足云上智算集群的发展？为什么采用全新的Scale Up设计而不复用当前的以太网和RDMA技术呢？本文借着行业内的一些事件，对GPU超节点的Scale up互连的技术方向观点进行分享。

在GPU算力架构发展的历程和趋势中，行业逐渐意识到大模型的训练推理对显存容量以及带宽有不断增长的诉求，传统的GPU单机8卡方案已经不能满足业务发展的需要，更多卡组成超节点并具备大容量显存和低延的共享的解决方案才能满足大模型的需求。比如阿里云在今年9月份发布了Alink Sytem开放生态和AI Infra 2.0服务器系统，其中底层互连协议部分兼容国际开放标准UALink协议。

10月29日，UALink联盟正式发布，并开启新成员邀请，发起成员包括AMD、AWS、Astera Labs、Cisco、Google、HPE、Intel、Meta 和Microsoft。其中相对于5月份的首次披露的成员，博通消失了，取而代之的是AWS和Astera Labs。其中AWS的加入引人遐想，因为AWS一向低调，很少参与协议组织。这次AWS躬身入局UALink联盟也展示了其对于GPU Scale Up互连需求的思考，以及对于UALink原生支持GPU互连这个技术方向的认同。为什么AWS和阿里云这些CSP陆续拥抱原生Scale Up互连协议，下面我们就对Scale up互连的需求和场景做一些展开论述。

01 智算集群的互连架构

当前智算集群内，围绕着GPU存在三大互连，分别是业务网络互连、Scale Out网络互连、Scale Up网络互连，它们分别承载了不同的职责：跨业务、集群内、超级点GPU之间连通性。随着AI应用的爆发，推理的GPU规模最终会大大超过训练，由于推理服务同时追求业务请求的低延迟和高吞吐，Scale Up互连技术对于智算超节点意义重大，Scale Up主要是面向大模型推理服务以及兼顾训练。

业务网络互连：承载的是诸如需要计算的输入数据，输出结果，以及在各类存储系统中的模型参数、checkpoint等。需要进行极大范围的互连，并且和云上的存储、业务接口等互通，采用以太网技术，通常支持各类RDMA。

Scale Out网络互连：训练的DP、PP并行计算切分流程，通常要把集群横向扩展到超多的GPU机柜，当前的训练规模已经发展到10w卡，目前国际的标准趋势是，采用专门优化的以太网技术UEC（Ultra Ethernet Consortium）协议。

Scale Up网络互连：以推理的大显存并行计算流量和训练的张量并行（TP）以及专家并行（MoE）流量为主，有在网计算的需求（可以对All reduce在Switch节点上进行加速）。互连规模在未来很多年内都会维持在单柜72～80个GPU，从模型大小和推理需求的发展来看，当前规划能满足很长一段时间的需求。

02 超节点内部Scale Up互连：注定和设备深度绑定的协议

如何定义一个超节点的边界？这个边界就是网卡。超节点外的以太网是面向连接的设计，实现大面积的连通，超节点内的是面向计算的设计，实现的是部件间的协同。

超节点内通过部件之间深度的耦合，实现了高效协同（包括效率、编程习惯等），这个耦合带来了性能（如带宽、延迟等），特性（内存共享、设备中断等）的需求，在过去很长一段时间内的典型技术是PCIe，它很好的解决了以CPU为中心的互连问题，几乎全部的服务器设备都是PCIe接口的。

当数据中心主要计算类型发生变化的时候，新的挑战出现了，围绕GPU为中心的计算带来了新的挑战：

面向GPU的语义支持：GPU是超众核架构，其在线程调度机制，以及核心的利用率考量上和CPU有着显著的区别。CPU的外设交互模式及RDMA交互模式等，无法有效的满足GPU的访存特性和性能要求。和这个使用模式比较类似的是CXL（Compute Express Link，通用计算的内存扩展技术）的使用方式，但CXL在此场景下也存在局限性，比如大量内存一致性特性支持的开销，以及前向兼容PCIe所有协议栈带来的大量冗余特性。

超高性能诉求：Scale Up相对于Scale Out和业务网络需要更高一个数量级(10倍以上)的带宽。由于GPU算力的狂飙，在当前的算力水平下，Blackwell这一代配置了双向共1.8T的算力，这意味着即使采用224g的phy，单芯片也需要双向共72个serdes差分对，整机柜需要数千根。。如果采用类似网卡的外置控制器方案，在功耗，延迟、稳定性等等都具有极大的劣势。Scale Up互连采用GPU直出，将所有的控制器植入GPU内部是不可避免的选择。

03 为什么采用全新的Scale Up协议而不复用已有的协议？

Scale UP互连是用于GPU和GPU 互连，是做更大芯片扩展的服务器，是内存和显存共享访问的语义，特点是极低延迟和大带宽，规模在柜内，可扩展为多柜到百芯片级（只是一种能力保留，但是未来很多年都看不到应用），是独立Fabric连接，完全不同于以太网。Scale Out互连是用于服务器之间是基于网卡+交换机的集群互连，是以太网协议，规模在万级以上，普适的互连。

国际的主流厂商，尤其是云计算为代表的应用厂商都积极加入UALink，代表了一个广泛的观点，对于Scale Up，是有价值也有必要从底层协议到系统硬件进行重新设计的，目前业界主流的GPU芯片厂家都会考虑Scale Up采用独立的Link技术，不会和Scale Out合并设计。

特性维度

GPU+AI有着显著的特点，GPU是超多核的编程模型，和擅长通用性的CPU不同，需要使用到大量的内存语义(load/store)访问，同时由于各个GPU之间需要彼此使用HBM的内存，对跨芯片访问带宽和时延有显著的高要求。

其次Scale Up相对于Scale Out和业务网络需要更高一个数量级(10倍以上)的带宽，同时由于对于延迟的需求，需要采用GPU芯片直出互连的设计，协议的轻量化设计具备极大的价值，意味着可以将宝贵的芯片面积节省给GPU的计算核心、更高的IO集成能力、更低的功耗。

互连范围

Scale Up互连注重的是大模型的应用，从模型需求和互连分层的角度来说，Scale Up的互连域是一个独立高性能低延迟内存共享访问的互连域，单柜规模在72～80个GPU，保留百级的扩展能力（未来很多年都看不到应用），节点访问都是显存访问(load/store)，性能和延迟的第一要素，完全不需要采用过于复杂的协议，这个是Scale Out的以太网完全做不到的，如果以太网可以做到，其实就已经简化到和Scale Up一样了，也就不是以太网了，脱离了以太网大规模普适的根本。

04 当前行业共识和UALink协议联盟发展

业界发展最早和最成熟的是NVIDIA的NVLink技术，然而NVLink并不是开放生态，鉴于此，各家主要厂商或形成了闭环的自有协议方案（如谷歌TPU的OCS+ICI架构及AWS的NeuronLink）。当前行业中实际主流的，都采用的是自有技术，然而各家的演进成本都很高。

考虑到针对终态进行设计，以及共同对抗行业垄断的目的，AMD将其迭代多年的Infinity Fabric协议贡献出来，促成UALink联盟的成立，希望在更多行业伙伴的助力下，持续发挥原生为GPU互连场景设计的优势，使其成为行业的开放标准。

考虑到技术特点和开放生态给云计算公司将带来技术竞争力和供应链等全方位的优势，UALink在发布之后快速得到各家的青睐，尤其是原持有自有协议方案的公司，也积极加入其中。截止11月11日，UALink联盟已有三十余家厂商加入，并在持续扩展中；且涵盖了云计算和应用、硬件、芯片、IP等产业全生态。

当前国际业界已经形成共识：在开放协议领域，以UALink为代表的Scale Up协议和UEC为代表的Scale Out协议，共同支持AI集群互连基础协议的演进。

阿里云在原生Scale Up互连协议领域做出了积极的探索，特别是在9月份ODCC年度峰会上联合信通院和AMD等伙伴发布的ALS(Alink System，加速器互连系统)产业生态，正是朝着解决原生Scale Up互连系统的行业发展规范的目标在努力。ALS将在系统层面同时支持UALink国际标准并兼容封闭方案。ALS包括ALS-D数据面和ALS-M管控面两个主要组成部分。ALS-D在UALink上补充在网计算加速等特性，并支持Switch组网模式。

可以看的出来，阿里云积极推动的支持原生Scale Up协议的ALink System，其核心目标还是聚焦未来以推理需求为主的GPU算力需求，持续以有限规模Fabric独立存在并演进，形成智算超节点内的核心竞争力。

—END—

点击下方名片

即刻关注我们

算力猩

隶属于智猩猩，关注计算芯片创新，解读中国算力突破。

算力网（络），应该是什么

先进封装技术解读 | 台积电

IBM 的大规模 A100/H100 GPU 集群 Infra 建设

22页PPT详解 NVIDIA RTX™ 5880 Ada 及训推一体机【附下载】

AI数据中心：网络设计和选型标准

突破内存墙：DRAM技术演进及3D DRAM革命

SC24｜谷歌AI加速器：TPU v6e Trillium技术解析

公开课预告：大规模异构GPU集群的互联、运维与调度｜基流科技技术负责人敬阳主讲

揭秘 AWS 10p10u 最新网络架构！

AI时代的以太网：应对大规模GPU集群网络挑战

智算中心正在CDN化

博通3.5D F2F技术：定义AI XPU的未来

NVIDIA RTX™ 5880 Ada 性能解析与私有化大模型部署｜在线研讨会直播预告

AI数据中心历史、技术与关键企业

揭秘！世界第一个采用CXL 3.1交换机的AI集群

公开课预告：大模型时代的智算GPU集群｜阿里云智能集团智算集群产品专家陈祎主讲

GPU服务器支持的“卡数”由哪些因素决定？

HBM制裁加码下的困境与出路

Meta 万卡 GPU 集群稳定性剖析与最佳实践

通往万亿晶体管GPU之路

亚马逊芯片帝国背后的功臣

比GPU快20倍？d-Matrix推理性价比分析

AWS最强AI芯片，深度解读！

功能安全的图形显示解决方案与汽车制造业模拟数字孪生平台 | NVIDIA 加速汽车制造与智驾开发专场直播预告

公开课预告：OISA构建开放高性能GPU卡间互联体系｜中国移动研究院李锴主讲

NVIDIA GH200 内部架构探究

UEC 和 UAL 应该合并吗？

AI Infra峰会与大模型峰会议程全公布！2024中国生成式AI大会上海站本周举行，报名即将截止！

公开课预告：针对先进封装的2.5D/3D Chiplet协同设计仿真EDA工具探讨｜硅芯科技创始人赵毅主讲

一文看懂Infinity Fabric

大模型时代：交换机衡量指标、技术演变及性能分析

爱芯元智吴炜：多模态大模型在端侧的创新实践与挑战｜GenAICon 2024上海站演讲预告

智算中心：现状、挑战、策略与未来机遇

GenAICon 2024上海站主会场议程公布！34位学者专家全景式解构大模型与AI Infra

追赶NVIDIA，国产AI芯片需努力的5个方面

光羽芯辰创始人周强：通向个人大模型之路｜演讲预告

从UALink近期发展再看GPU Scale Up的互连方向

无问芯穹首席科学家戴国浩教授：软硬协同与多元异构，共筑大模型算力底座｜演讲预告

公开课预告：智算中心 AI Scale-Up 网络技术｜益思芯科技解决方案副总裁唐杰主讲

大规模AI计算时代的存储：挑战与优化

聊一聊算力调度

全球化布局：AI 企业如何补齐算力短板，保障GPU集群稳定性｜GMI Cloud 亚太区总裁 King.Cui演讲预告

中国系统级封装大会SiP China 2024周三开启！免费报名～

面向大规模AI计算的高性能网络架构：Enfabrica ACF-S解决方案深度解析

近30家大模型与AI Infra企业来了！年度生成式AI大会上海站公布最新嘉宾，报名进入最后阶段

高性能GPU服务器硬件拓扑及集群组网

GPU互连新标准：UALink联盟能否打破NVIDIA垄断？

高性能智算集群设计思考与实践｜阿里云智算集群产品解决方案负责人丛培岩演讲预告

全球化布局：AI 企业如何补齐算力短板，保障GPU集群稳定性？｜GMI Cloud 亚太区总裁 King.Cui演讲预告

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉