UEC 和 UAL 应该合并吗?

科技   2024-12-03 13:26   北京  

大会预告

12月5-6日,2024中国生成式AI大会(上海站)将举办,其中,AI Infra峰会将在主会场第二日进行,上海交大副教授、无问芯穹联合创始人兼首席科学家戴国浩,GMI Cloud 亚太区总裁King.Cui,英飞流创始人张颖峰,Jina AI联合创始人兼首席技术官王楠,中昊芯英芯片软件栈负责人朱国梁等14位嘉宾将带来主题演讲和圆桌讨论,欢迎报名~


文章转载自公众号:SDNLAB。本文只做学术/技术分享,如有侵权,联系删文。


对于scale-up 和 scale-out AI系统,是否有必要分别成立不同的联盟,换言之,Ultra Ethernet Consortium(UEC)和Ultra Accelerator Link(UAL)能否合并为一个组织?
UEC 致力于推动以太网技术的发展,以满足 scale-out AI/HPC 应用的需求。它通过制定标准和改进硬件来提升以太网的带宽、降低延迟并提高效率,从而促进数千个互连节点间的高性能通信。
UAL联盟旨在提供一系列规范和标准,使业界能够开发出用于AI加速器的高速互联技术,使多个AI加速器能够像单个紧密耦合的单元一样协同工作,从而提升系统的整体性能。
UAL的GPU到GPU互连规范最初受到AMD Infinity Fabric的影响,后者采用与PCIe类似的物理层和数据链路层来实现超低延迟。然而,这种严格的低延迟要求通常会导致互连的带宽低于以太网。Nvidia很早就意识到了这一点,并在其NVLink协议中避免使用PCIe语义。NVLink 5.0通道的运行带宽为200 Gbps,是PCIe Gen6带宽的三倍。
在分布式训练/推理工作负载中,scale-up架构主要承载高带宽的张量并行流量,这些流量携带着部分矩阵乘法的结果。为了提高效率,计算框架可以流水线化处理这些乘法运算,或在结果传输时重叠执行其他计算。
在高性能计算(HPC)工作负载中,GPU内存被整合在一起,形成一个大型的统一内存池。然而,当数据驻留在另一个GPU上时,这种方法会面临因缓存未命中而导致的GPU线程停滞等问题。编译器可以通过使用已知的分布式计算技术将计算与通信重叠来减轻这些停滞,从而缓解对低延迟的需求。
UAL团队意识到带宽和延迟之间应优先考虑带宽,在scale-up模式下,他们选择了以128 Gbps的速率运行 Gen6 技术。然而,随着数据传输速率的提高,信号在传输过程中发生错误的概率也会相应增加。为了应对这一问题,需要更强的前向纠错(FEC)技术。
有传言称,UAL团队目前正在从PCIe方案转向类似以太网的物理链接,以与Nvidia的200 Gbps通道速度相竞争。以太网式的SerDes,凭借PAM4,以及可能用于400 Gbps及以上SerDes的PAM6实现了更远的传输距离和更高的带宽,但需要强大的FEC技术来解决更高的错误率问题,这会增加延迟。不过,更高的带宽允许更多的加速器连接到单个交换机,并且互连可以使用铜缆跨越机架连接,正如Nvidia在2024年GTC大会上所展示的,一个拥有72个GPU的系统使用铜缆在服务器之间进行连接以实现扩展。
这引发了这样一个问题:为什么不采用统一的scale-up 和 scale-out 机制?UEC开发的机制能否应用于scale-up网络?
UEC的新传输协议基于以太网/IP运行,但scale-up型交换不需要IP路由。对于主要涉及内存读写和原子操作的scale-up型流量而言,IP路由开销(总计66字节,包括传输协议头部)是过高的。尽管UEC正在考虑为HPC工作负载使用大约50字节的压缩报头,但开销仍然很大。此外,使用符合 UEC 标准的以太网交换机作为scale-up型交换机在面积和功耗方面效率低下,因为这些交换机与服务器内的高功率GPU共置,并且有严格的功耗限制。
一种替代方案是使用类似以太网的SerDes作为物理层,它具备强大的FEC能力,可以处理更高的pre-FEC 错误率,拥有更好的均衡技术和更大的deskew buffers ,并且使用针对内存操作优化的自定义传输协议,这与Nvidia的NVLink协议类似。NVLink定义了64至256字节(下一代最高也许可达1000字节)的flit的读/写和原子操作,使用16字节的报头用于命令、循环冗余校验(CRC)和控制字段。这使得256字节传输的效率达到约94%,相比之下,以太网链路的效率仅为80%。CXL对内存操作有类似的语义。任何新协议都可能采用类似的语义来实现GPU内存之间的flit交换。
除了在scale-up架构技术方面处于领先地位之外,Nvidia 的优势还在于拥有一个从 scale-up到 scale-out的统一软件框架和API,例如SHARP,其主要目标是在scale-up和 scale-out网络内直接卸载和加速复杂的集体操作,从而减少需要通过网络传输的数据量,进而降低整体通信时间。SHARP得到了NVLink交换机和scale-out型Quantum InfiniBand交换机的支持。他们可能很快也会在其以太网交换机中增加对SHARP的支持。
UEC正在开发一种称为INC(In-Network Collectives)的规范作为替代方案。UAL可能也需要定义一个类似的规范。将这两者置于同一体系下,可以为 INC 和其他 SW API 实现统一的软件 API 开发,从而在scale-up和 scale-out网络中利用相似的组件。在HPC配置下的一些UEC硬件特性,如链路级重试、基于信用的数据传输以及加密/解密标准,也可以用于scale-up扩展。
博通此前退出了 UAL,据传是因为他们不赞同最初采用 PCIe 式互连的方法。既然UAL的方向可能已经改变,那么博通是否会重新加入UAL?还是会独自或通过UEC着手开发scale-up规范呢?如果是后者,那么scale-up领域将会保持碎片化状态,延缓广泛采用的速度。 
在业界对scale-up和 scale-out规范没有达成一致的情况下,与 Nvidia 竞争将变得十分困难。两个联盟要么合并成一个,要么合作加速发布scale-up和 scale-out系统的开放标准,这对双方都有利可言。
原文链接:
https://www.linkedin.com/pulse/should-uec-ual-merge-sharada-yeluri-85mcc/

—END—


点击下方名片


即刻关注我们


算力猩
隶属于智猩猩,关注计算芯片创新,解读中国算力突破。
 最新文章