大模型的聚光灯照向以太网: ETH-X的scale up网络

文摘   2024-07-02 09:16   上海  

请关注公众号并设为星标,便于收到文章更新提示。

引言 — 大模型像是人工智能爆发时代的一个业务怪兽,迅速吞噬着现代计算机的三个主要要素:计算,内存和网络。这三者都成为了底层的关键路径,推动着技术的快速发展。

这篇文章继续介绍ODCC的ETH-X项目,以及夏季全会上的内容分享,封面是美丽的大连。


根据Scaling Law(规模定理),增大模型规模与增加训练数据量是直接提升AI大模型智能水平与性能的关键途径。但对集群算力需求的将呈指数级增长。

长序列是AI大模型发展的另一个重要方向,但是会加大对训练和推理算力资源的需求,尤其是对显存资源的需求。


目前只依靠单芯片算力,和scale out集群算力来提升算力资源遇到了限制:

单芯片性能提升受到内存墙问题约束,HBM容量带宽增长赶不上算力增长速度的限制。

另一种通过Scale out扩展集群规模提升整体算力的方式也受到GBS(Global Batch Size)不能无限增长的限制,导致集群规模增大到一定程度后,HFU明显下降。

最后,模型参数量增大需要更大的模型并行规模,模型并行中Tensor并行或MOE类型的Expert并行都会在GPU之间产生大量的通信,当前典型一机八卡服务器限制了Tensor并行的规模或Expert并行通过机间网络。


HBD(High Bandwidth Domain)是一组以超带宽(HB)互联GPU-GPU的系统。


通过构建更大的HBD系统,以scale up方式提升系统算力是解决上述问题的有效途径之一。

我之前分享过一篇META和MIT的文章,讨论HBD的大小:

用于训练拥有数十亿参数的大型语言模型的优化网络架构

另外就是英伟达NVL72的暴力美学。

暴力美学的优雅化——NVidia的Rack Scale

HBD超节点典型代表与业务收益举例


Nvidia将HB互联不仅用于GPU-GPU之间,而是将其应用到GPU-CPU/Memory的超大带宽互联,例如GH200、GB200产品。通过此方式为GPU提供一个超带宽访问CPU/Memory的能力。


相反若使用异步的memory offload方式将降低对时延的约束,并发利用多节点CPU/Memory,发挥HB互联的带宽优势。另外,当前memory offload已具备一定软件生态上的基础,例如Zero offload。


综上所述,超节点是一个以超大带宽(HB)互联16卡以上GPU-GPU以及GPU-CPU/Memory的scale up系统,以HBD超节点为单位,通过传统scale out扩展方式可形成更大规模、更高效的算力集群。超节点Scale Up的核心需求是超大带宽(HB),但规模不需要很大。Scale Out的核心需求是超大规模。因此Scale Up网络与Scale Out网络更适合是相互独立共存的两张网络。


以太网技术凭借开放的生态、多样的产业链环境,为技术的长期演进发展提供支撑。当前以太网技术上从端口带宽及交换容量方面已具有较强的竞争基础。如以太网单端口800G MAC标准已成熟并产业化,以太网单芯片51.2T交换容量 ETH-switch也已在2023年产品化商用。


ETH-X超节点参考架构与预期收益评估

ETH-X技术规范构成与项目计划


ODCC的夏季全会上分享主题如下,共同探讨了ETH-X超节点在高性能计算、人工智能、数据中心网络架构优化等方面的潜在影响和应用前景。


1. 腾讯网络首席架构师夏寅贲提出通过scale up方式,以超大带宽互联GPU构成HBD则成为突破算力瓶颈的重要方向。ETH-X项目利用以太网技术,建立高带宽、灵活扩缩的GPU间直连网络,及GPU与CPU/Memory的高速大容量互联系统,以此突破现有算力限制。


2. 锐捷AI技术部经理李述利介绍了AIGC计算建模方案相关的方法论,阐述了AI集群中各个关键变化因素对于业务性能的影响,并针对超大规模集群系统下的典型场景,分析了大模型训练与推理的性能收益。


3. 华勤系统架构师邢星从供电和散热以及互联领域,介绍了超节点整机柜和计算节点的设计,强调了通过兼容多种不同厂商的OAM GPU模组,有效提升了系统设计的一致性和通用性。


4. 锐捷网络硬件架构师程旭升基于ETH-X交换节点设计,分析了模块化设计理念方案,并依据交换节点面板及背板通道的插入损耗,提出了针对性的改进建议,旨在进一步提升信号传输效率。


5. 快手网络架构师余曦通过分析厂商已有的超节点产品在机柜内及机柜间的物理互联方式,为ETH-X系统的scale-up网络互联方案设计提供指引,并结合ETH-X项目组内计算合作伙伴和交换合作伙伴的技术能力,提供了合理的ETH-X scale-up网络互联方案建议。


6. 英特尔平台架构师王楠在介绍Gaudi3产品及其整机架解决方案时,强调了利用灵活且符合开放标准的网络连接技术,借助以太网接口来实现数以万计AI加速器的高效互连,从而为人工智能系统提供强大的支持。


7. 博通交换芯片事业部方案架构总监何宗应针对ETH-X超节点项目,分析了Scale-up互联网络的特征,通过总结Tomhawk5芯片的端侧调度网络方案、Jeircho3-AI的交换机端到端调度网络方案以及Thor2的端侧网卡方案,分享了UEC在以太网赋能AI/ML集群方面的创新成果。


8. 云合智网产品架构师蔡烽立足智算网络需求,阐述了构建高性能智算网络的体系,实现了国产智算中心网络构建,并从标准化、实际需求及芯片性能、功耗、面积等角度深入探讨了Scale Up芯片的设计考量。


9. 云豹智能产品总监吕涛分享了基于DPU技术的超节点Memory Pool应用实例,并探讨了面向未来超节点的DPU技术发展趋势与演进路径。


参考文献:

1. ODCC文章链接:

https://www.odcc.org.cn/news/p-1793939807426928641.html

3. ODCC公众号文章:重塑网络格局,探索未来新程!2024 ODCC夏季全会网络工作组会议顺利召开!




为感谢支持,已点赞/分享/赞赏10篇/次以上的朋友,请加微信,进入微信群。我将发放免费加入知识星球的链接。

IT奶爸-知识星球



高阅读量文章





IT奶爸
实践是检验“专家”的唯一标准。一群认真执着的IT奶爸的学习和分享。
 最新文章