分布式智算中心无损网络场景及现状

科技   2024-10-29 07:56   四川  

本文来自“分布式智算中心无损网络技术白皮书”。AI 大模型训练/推理需要智算网络具备超大规模、超高带宽、超低时延、超高可靠等关键特征。如何设计高效的集群组网方案,提升 GPU 有效计算时间占比(GPU 计算时间/整体训练时间),对于 AI 集群训练效率的提升至关重要。

下载链接:

分布式智算中心无损网络技术白皮书

《数据中心液冷技术合集》
1、数据中心液冷解决方案
2、浸没式液冷发展迅速,“巨芯冷却液”实现国产突破
3、液冷需求白皮书
4、液冷构建绿色HPC

5、面向未来重新定义液冷

RDMA技术专题汇总(1)

RDMA技术专题汇总(2)

RDMA技术专题汇总(3)

RDMA技术专题汇总(4)

RDMA技术专题汇总(5)

1、面向分布式AI智能网卡低延迟Fabric技术.pdf

2、RDMA参数选择.pdf

3、RDMA技术白皮书(中文版).pdf

4、RDMA技术在数据中心中的应用研究.pdf

5、华为面向AI时代的智能无损数据中心网络.pdf

《数据中心前沿网络技术合集(1)》

《数据中心前沿网络技术合集(2)》

分布式智算中心无损网络场景

超大规模 GPU 集群成为大模型训练的必要条件,而算力需求的指数级增长对 AI 基础设施带来极大挑战。在构建万卡甚至十万卡集群时,由于机房空间/电力不足、机房散热等问题,智算中心单点算力规模建设受限。

为破解智算基础设施供给难题,中国电信践行“以网强算”的技术路线,即利用无处不在的网络资源弥补小规模智能计算的差距,再结合集中式的算力调度策略,提升整网智算利用率。目前,“以网强算”已成为国际格局和产业环境下中国最具优势的发力点。

“以网强算”将多个智算中心互联成一个大型虚拟智算集群,通过分布式智算中心无损网络(也称 RDMA 拉远),实现区域内多智算中心协同计算,满足更大规模的算力需求。目前,分布式智算中心无损网络主要适用于两类场景:算-算拉远和存-算拉远。

1)算-算拉远场景

我国单点智算中心规模普遍偏小,规模为 100-300PFLOPS 的小型智算中心占比超 70%,而规模超过 1EFLOPS 的大型智算中心仅占 25%,且多由云提供商及大型企业自建,集中在京津冀、长三角和粤港澳。算-算拉远可以将区域内多个已经建成的智算中心的算力进行整合,从而无需建设超大规模集约型智算中心就能够训练更大的模型。

此外,单个智算节点往往会存在资源利用率不足、闲散算力资源浪费的问题。在算力使用过程中,租户算力诉求与实际部署算力往往不一致,导致算力零散在本地,智算中心算力资源碎片化。如何把零散的资源整合起来,系统优化算力基础设施,布局盘活机房,促进跨集群算力高效互补和协同联动成为充分发挥算力的关键能力。算-算拉远能够充分利用碎片资源来执行合适的任务,提升系统利用率。

2)存-算拉远场景

高性能、高可靠存储是公有云最基础的服务之一。当前公有云中广泛采用存算分离架构,即计算集群和存储集群可能位于 Region 内的不同 DC 中,而互连计算集群和存储集群的网络成为实现云存储服务高性能和高可靠性的关键。存-算拉远可以将 Region 内的计算集群和存储集群无损互联,满足数据本地化需求,保障数据安全。

分布式智算中心无损网络挑战

在探索跨智算中心构建超大规模智算集群过程中,算力和网络均遇到了诸多问题和挑战。首先,集群拉远部署相比于本地集群部署在 DCN 协议面需要解决时延和丢包两个难题。

1)拉远增加网络传输时延:AI 训练每轮迭代会通过集合通信进行参数同步,而集合通信内部存在多轮数据交互,以及多次跨长距通信。长距拉远后,传输距离每增加 10km,通信时延增加 10ms 左右,对 AI 大模型的训练效率产生极大影响。

2)网络拥塞丢包,使性能急剧下降:当前 AI 训练采用 RDMA 协议,而RDMA 的高效率依赖于极低的丢包率。数据显示,当网络的丢包率大于 10-3时,RDMA 有效吞吐将急剧下降;2%的丢包率会使 RDMA 吞吐率下降为 0。因此,要使得 RDMA 吞吐不受影响,丢包率必须保证在十万分之一以下,最好为零丢包。在长距拉远场景下,当网络出现拥塞时,若没有在 RTT(往返时间)内及时缓解拥塞,就会发生丢包,导致一轮迭代训练时间增加,大模型的训练效率下降。

其次,集群拉远部署和本地集群部署相比在传输网也需要解决高带宽和稳定性难题。

1超大带宽、灵活组网保证长距拉远算效:在跨 DC 分布式训练场景中,需要提供充足的互联带宽,并根据智算中心空闲服务器数量灵活组网,避免网络拥塞,实现高效传输。

2高可靠机制保证 AI 训练的稳定:检查点(checkpoint)机制是 AI 训练的必要需求,主要用于在训练过程中保存模型的权重,以便在训练中断或模型更新时恢复训练,从而提高训练的效率和稳定性。网络还需要具备抗多次断纤能力,防止网络故障引起 AI 训练中断。

3故障分钟级检测及定位:模型训练期间可能受施工震动、挤压弯折、意外挖断、接头松动、老化等影响,从而导致光缆故障,训练也会随之中断。为保证训练的稳定,要求网络具备故障时分钟级自动检测和定位、分钟级提前预警的能力,以保证智算拉远训练时的高可用。

针对以上难题,若要实现长距无损传输,需要协同优化 IP 层和光传输层技术,构建分布式智算中心无损网络,实现多数据中心协同提供服务。在 IP 层,一方面可以优化集合通信算法,减少长距链路的流量传输,从而消除流量交叠现象;另一方面可以引入全局负载均衡和精准流控技术,实现多节点互联网络的无拥塞、高吞吐。在光传输层,一方面可以依托城域网或区域网延伸覆盖智算节点,并在资源不足区域新建 800G/1.2T 超大带宽的互联网络,构建高品质光互联;另一方面,可以提高网络故障处理能力,实现高可靠、智慧化运维。

业界研究概况

大模型推动智算基础设施建设快速发展,但电力供应、机房空间成为大规模智算建设的瓶颈。业界正在积极探索将分布在多个智算中心的算力协同起来,进行跨 DC 的大模型分布式训练。

谷歌利用自研低成本、高性能 TPUv4 超级计算机(SuperPod)满足大模型训练/推理算力需求,其中每一个 SuperPod 可以提供 1 Exaflop 级(每秒百亿亿次浮点运算)的运算能力。目前,谷歌已经部署了数十台 TPUv4 SuperPod,并完成跨多个数据中心的 Gemini Ultra 大模型训练,此前 5400 亿参数语言模型 PaLM也是用 个 TPUv4 SuperPod 训练的。OpenAI 与微软也在计划建设十万甚至百万级 GPU 卡的算力集群,以满足 GPT-6 模型训练需求。但由于电力受限,预计将GPU卡分布在几个或几十个地区,并利用开放 Ethernet 协议替换 IB 协议来实现跨区域 GPU 之间的互联。

Meta 宣布推出两个具备 2.4 万个 GPU 卡的 AI 集群,分别采用 RoCE 和 IB 协议,并在硬件、网络、存储、性能等方面进行深度优化,以支持大语言模型如 Llama 3 的训练。为了解决 AI 训练集群造价昂贵问题,Meta又提出去中心化异构训练,利用分布式、异构和低带宽互联的 AI 训练资源来训练基础大模型,降低训练成本。

阿里提出“双上联+双平面+多轨”的 HPN7.0 网络架构,该网络架构中单个Pod 规模已经达到 15K GPU,可满足绝大多数 LLM 的训练需求。为建设更大规模智算集群,设计了不同 Pod 之间通过核心层互连,从而在单个集群中支持超过十万个 GPU 节点。目前,HPN7.0 网络架构已经在阿里云上线运行 个多月,实践表明 LLM 训练的吞吐性能相比传统数据中心网络而言提升了 14.9%

百度智能云基于 CENI 打造了跨广域工业视觉大模型算网融合技术,依托百度自研昆仑芯以及百度文心视觉大模型,将算力、网络、大模型和应用场景融合,实现行业大模型跨广域精调、推理服务。测试结果显示,在相距超 300 公里的两地之间,该技术使行业大模型跨广域推理效率提升 42%。此外,NTT 在 Mitaka 和 Yokosuka之间通过全光子网络(APN)搭建 LLM 远程训练测试环境,将训练数据保存在企业本地,而使用数百公里外数据中心的 GPU 进行训练,训练效果与本地的训练效果相近。

当前单点智算中心算力规模受限、算力资源碎片化严重,难以承载大规模AI 训练业务。采用跨 AZ、跨 Region 的多个数据中心组成的 AI 训练集群可有效支撑十万卡甚至百万卡级别的 AI 训练任务,同时提高资源利用率,是未来智算产业发展和探索的重要方向。

来源:中国电信股份有限公司研究院等

下载链接:
精华:信创框架报告(收藏)
金融科技行业系列报告:金融信创
信创和云原生趋势下的未来基础架构展望(2023)
2023信创产业新发展趋势报告及100强

《62+份超融合技术及报告合集》

《超融合行业实战合集》 

国产服务器操作系统发展报告(2023年)

信创专题(数据库):信创的关键环节

超融合信创云基础设施解决方案介绍

VMware国产化替代专题
《5000+份全栈云技术及行业知识汇总》
超融合2节点部署方案介绍
异构融合计算技术白皮书
超融合数据中心网络
下一代超融合架构白皮书

《48+份超融合技术及报告合集》

《数据中心技术合集》

《2024 云栖大会技术分享合集(4)》

《2024 云栖大会技术分享合集(3)》

《2024 云栖大会技术分享合集(2)》

《2024 云栖大会技术分享合集(1)》

《服务器及存储用液冷部件技术规范合集》

1、服务器及存储用液冷部件技术规范 第1部分:冷板 2、服务器及存储用液冷部件技术规范 第2部分:连接系统 3、服务器及存储用液冷部件技术规范 第3部分:冷量分配单元 4、服务器及存储用液冷部件技术规范 第4部分:监控系统


本号资料全部上传至知识星球,更多内容请登录全栈云技术知识星球下载全部资料。

‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧  END  ‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧‧

免责申明:本号聚焦相关技术分享,内容观点不代表本号立场,可追溯内容均注明来源,发布文章若存在版权等问题,请留言删除,谢谢。

温馨提示:搜索关注“全栈云技术架构”微信公众号,“扫码”或点击“阅读原文”进入知识星球获取10000+份技术资料。

全栈云技术架构
涵盖微服务架构、云计算、边缘计算、高性能计算、云边协同和训练推理。
 最新文章