01 背景
02 摘要
03 Infra系统
RSC-1 是一个通用 ML 集群(例如,训练一些 LLM),规模为 16,000 个 A100 GPU;
RSC-2 专注于计算机视觉应用,规模为 8,000 个 A100 GPU。
3.1 调度和存储 Infra
基于闪存存储,采用 NFS 协议并兼容 POSIX 的存储服务。便于使用,为用户提供主目录、Python 环境及执行常见操作(如 Checkpointing)的读写能力。
AirStore,自定义、高带宽的存储服务。通过自定义的高性能只读缓存服务 AirStore 加速数据集访问,同样依托于大规模闪存存储。
ObjectStore,高容量与高吞吐量的对象存储服务。用于 Checkpoint 和文件存储,应对 NFS 存储有限的问题。
3.2 计算和网络 Infra
3.3 集群 Infra 的见解
高严重性检测异常会立即向 Scheduler 发出信号,移除该节点并重新调度所有在该节点上执行的作业。包括 GPU 不可访问,NVLink 错误,不可纠正的 ECC 错误,行重映射(failed row-remaps),PCIe 或 IB 链路错误,块设备错误或挂载点缺失。
而较低严重性的检测异常则会等节点上的作业完成(无论成功与否)再向 Scheduler 发送移除节点信号并进行修复。
未触发任何健康检查异常的节点可用于作业调度。
3.4 指标
3.5 故障分类
04 理解大型ML训练集群的现状
故障率持续波动。
故障模式起伏不定:比如 23 年末,驱动程序错误导致 Xid 错误成为 RSC-1 上作业失败的主要来源;24年夏季,IB 链路故障激增同样推高了两个集群的故障率。
新的健康检测揭示新的故障模式:图中标识了新的健康检查(之前就在发生,但未被准确识别)添加到集群的时间点,这也会导致故障率看似增加。
基于作业训练参数、作业优先级和集群资源可用性作为输入的 ETTR 期望值公式。这里,公式通过假设 Checkpointing 频率和重启开销,使得能够模拟作业的可靠性特征。需要注意的是,期望 ETTR(E[ETTR]) 对于较长的训练最为有效——根据大数定律,较长的训练趋向于使观测到的 ETTR 值更接近这一期望值。利用对期望 ETTR 的解析公式,可以帮助快速估算并理解优化措施的影响,例如将故障率减半的影响是什么?
利用作业级数据对 RSC-1 和 RSC-2 集群进行 ETTR 估计的设计空间探索研究。继续使用先前的参数作为工具,探索不同因素对作业开销的相对重要性——探讨在之后大规模 GPU 训练中,实现合理 ETTR(>=0.90)所需的必要条件。
05 提升集群稳定性和效率
5.1 识别和修复故障节点
excl_jobid_count:驱逐节点上的作业数量。
xid_cnt:节点上单一 Xid 错误数量。
tickets:为某节点创建的修复工单数量。
out_count:节点从 Scheduler 中移除的次数。
multi_node_node_fails:由单节点引起的多节点作业失败次数。
single_node_node_fails:由节点引起的单节点作业失败数量。
single_node_node_failure_rate:节点上单节点作业失败的比例。
5.2 通过自适应路由增强网络结构韧性
第一个实验中,使用 mlxreg 工具修改网络中的端口寄存器,引入位错误(BER)。随后,针对 512 GPU,在启用与未启用 AR 的情况下,运行 nccl-tests 中的 AllReduce 基准测试。如下图 Fig 12a 所示,在链路错误条件下,AR 能够维持更高的带宽。
第二实验中,在 64 个节点上分组进行 AllReduce 的多轮迭代,每组包含两个节点(16 个 GPU),以展示 AR 在资源竞争环境下的表现。如下图 Fig 12b 所示,网络中充斥着多个 NCCL 环路时,使用 AR 的性能波动较小,且 AR 能实现更高的性能。这是因为 AR 能够保护 GPU 免受拥塞链路的瓶颈效应。通过使用交换机根据端口负载选择的输出端口,AR 将不良链路的影响分散到各个任务中,而非仅惩罚恰好映射到这些不良链路的训练任务。
06 关键教训和研究机会
在介绍了集群运维和优化方面的经验后,作者认为有多个机会可以提升可靠性、管理日益增长的 Infra 复杂性,并与框架和算法共同设计解决方案。
07 参考链接
https://arxiv.org/abs/2410.21680
https://slurm.schedmd.com/overview.html
https://docs.nvidia.com/deploy/xid-errors/index.html
https://ai.meta.com/research/publications/the-llama-3-herd-of-models/
https://pytorch.org/assets/pytorch2-2.pdf
https://www.alibabacloud.com/help/zh/ack/ack-managed-and-ack-dedicated/user-guide/gpu-faq#55a6b327214cg
https://arxiv.org/abs/2403.07648
https://arxiv.org/abs/2402.15627
—END—
点击下方名片
即刻关注我们