GPU互连新标准:UALink联盟能否打破NVIDIA垄断?

科技   2024-11-23 19:09   北京  

大会预告

12月5-6日,2024中国生成式AI大会(上海站)将举办,30+位嘉宾已确认参会演讲。其中,上海交大副教授、无问芯穹联合创始人兼首席科学家戴国浩,GMI Cloud 亚太区总裁King.Cui,英飞流创始人张颖峰,Jina AI联合创始人兼首席技术官王楠,中昊芯英芯片软件栈负责人朱国梁将在AI Infra峰会带来分享,欢迎报名~


UALink联盟(UALink Consortium)正式成立,现已开放企业成员申请。联盟宣布首个技术规范UALink 1.0将于2025年第一季度公开发布。目前核心成员(Promoter Members)包括AMD、Astera Labs、AWS、Cisco、Google、HPE、Intel、Meta和Microsoft等科技巨头。
UALink联盟致力于制定开放标准和技术规范,推动AI加速器高速互连技术的产业化发展。其核心目标是为大型语言模型(LLM)训练和复杂计算任务提供GPU集群互连解决方案。这一开放标准旨在实现类似NVIDIA NVLink的GPU互连能力,但面向整个产业开放。
值得关注的是,联盟汇聚了众多互为竞争对手的科技巨头,他们选择通过开放合作来推进AI及加速器计算工作负载的技术演进。

01 技术演进:CPU架构的瓶颈突破


在高性能计算(HPC)领域,业界较早意识到传统CPU架构的局限性。得益于大规模并行计算能力和超高数据吞吐量,GPU在深度学习、基因组测序和大数据分析等领域的性能显著优于CPU。这种架构优势和可编程特性使GPU成为AI计算的首选加速器平台。特别是在LLM规模每半年翻倍的发展态势下,GPU的计算效率和处理速度优势更为突出。
然而,在现有服务器架构中,CPU作为系统主控,所有数据流都需要经过CPU进行路由转发。GPU必须通过PCIe总线与CPU连接。无论GPU计算性能多强,系统整体性能仍受制于CPU的数据路由能力。随着LLM和数据集规模的持续扩张,尤其在生成式AI(Generative AI)领域,这一架构瓶颈在大规模GPU集群协同计算时表现得尤为突出。对于超大规模数据中心和前沿AI模型研发机构而言,如训练GPT-4、Mistral或Gemini 1.5等模型的GPU集群(通常由数千GPU节点跨机架部署),系统延迟已成为关键挑战。
这一技术瓶颈不仅影响模型训练,也给企业IT部门大规模部署生成式AI推理(Inference)服务带来挑战。对于AI和HPC等计算密集型工作负载,CPU架构对系统及集群性能的制约已显著影响到计算性能、部署成本和推理精度等多个层面。

02 UALink技术解读


UALink联盟致力于开发新一代加速器直连架构标准,实现加速器间绕过CPU的直接通信。该技术规范定义了一种创新的I/O架构,单通道可达200 Gbps传输速率,支持最多1024个AI加速器互连。相比传统以太网(Ethernet)架构,UALink在性能和GPU互连规模上都具有显著优势,互连规模更是大幅超越Nvidia NVLink技术。
数据中心网络架构可分为三个层面:前端网络(Front-end Network)、纵向扩展网络(Scale-Up Network)和横向扩展网络(Scale-Out Network)。前端网络通过CPU上的以太网网卡(NIC)连接广域网,用于访问计算存储集群和外部网络。后端网络专注于GPU互连,包含纵向扩展和横向扩展两个维度。UALink主要应用于纵向扩展场景,支持数百GPU低延迟高带宽互连。而横向扩展网络通过专用网卡和以太网技术支持超大规模GPU集群(1万至10万级别),这是Ultra Ethernet技术的主要应用领域。
以Dell PowerEdge XE9680服务器为例,单台服务器最多支持8块AMD Instinct或Nvidia HGX GPU。采用UALink技术后,可实现百台级服务器集群内GPU的直接低延迟访问。
随着算力需求增长,用户可通过Ultra Ethernet Consortium(UEC)技术实现更大规模扩展。2023年,Broadcom、AMD、Intel和Arista等行业领导者成立UEC,致力于提升AI和HPC工作负载的性能、扩展性和互操作性。AMD近期发布的Pensando Pollara 400网卡是首款符合UEC规范的产品。
UALink是一个实质性的开放标准,而非针对Nvidia NVLink的竞争性标准。联盟已组建专门工作组,正在开发具体技术标准和解决方案。
核心成员已开始布局底层技术,如Astera Labs推出的Scorpio系列交换芯片。其中P-Series支持基于PCIe Gen 6的GPU-CPU互连(可定制化),X-Series专注于GPU-GPU互连。这些基础架构为未来支持UALink标准奠定了技术基础。
值得注意的是,UALink在加速器、交换芯片、Retimer等互连技术上保持中立立场,不偏向特定厂商,目标是建立开放创新的技术生态系统。
对企业IT管理者和CIO而言,UALink的价值在于提供更高效的训练和推理平台,具备自我管理和自我优化能力,同时降低TCO。

03 Nvidia NVLink与市场格局


UALink的出现固然是对Nvidia市场主导地位的回应,但其更深层意义在于确保GPU互连这一关键技术不被单一厂商垄断。主流服务器供应商Dell、HPE、Lenovo对UALink和NVLink的支持策略值得关注(目前Lenovo作为Contributor加入UALink联盟,Dell尚未加入)。NVLink采用专有信令实现Nvidia GPU互连,而UALink支持多厂商加速器,并允许符合标准的厂商提供底层架构组件。
对服务器厂商而言,支持多种互连标准确实增加了从设计、制造到认证、支持的成本。虽然UALink方案具有吸引力,但考虑到Nvidia在市场中的强劲需求,预计短期内市场格局不会发生根本性变化。

04 数据中心计算的协同发展


UALink联盟的成立是行业重要里程碑,有助于解决AI模型训练过程中日益复杂的技术挑战。随着Astera Labs等厂商开发底层互连架构,Dell和HPE等公司构建配套硬件平台,这种技术创新将从AWS和Meta等超大规模用户延伸到企业IT部门,推动AI技术的广泛落地。
理想情况下,市场需要一个统一的加速器互连标准。当前,看到AMD、Intel、Google、AWS等竞争对手携手推动开放标准,展现了产业协同创新的积极态势。
----------
参考资料:Kimball, Matt, and Patrick Moorhead. "Digging Into the Ultra Accelerator Link Consortium." Forbes, November 7, 2024. https://www.forbes.com/sites/moorinsights/2024/11/07/digging-into-the-ultra-accelerator-link-consortium/.

—END—


点击下方名片


即刻关注我们


算力猩
隶属于智猩猩,关注计算芯片创新,解读中国算力突破。
 最新文章