HotChips2024,OpenAI主题演讲

文摘   2024-08-30 08:24   上海  

<Predictable Scaling and Infrastructure> 主题演讲整体来说干货不多,主要做了以下几点分享:

1、ChatGPT介绍及GPT*系列Scale及特性介绍;

2、Scaling laws及推理需求增长;

3、集群RAS(稳定性-可用性-可运维)


OpenAI在这里介绍了几个影响系统稳定的点:以分众计的光学组件MTBF、HBM使用周期、常见的SDCs系统损坏及爆炸半径较大。同时给出了几点解决方案:

1、最小化维修成本(Minimize cost of repair)

  • 遵循以下错误处理机制,优先做到catchable异常。Exception> Process Restart> GPU Reset> Node Reboot> RMA:异常> 进程重启> GPU重置> 节点重启> RMA(退货维修替换)。


2、最小化故障影响范围(Minimize blast radius)

  • 链路抖动,不影响相邻端口。

  • 内存错误只应影响自己的GPU。


3、优雅降级(Graceful degradation)


4、验证自动化(Validation)


5、电源管理(Power Management)

  • 电源遥测监控、外置电源,解决电源瓶颈及训练同步期间的电力抖动。

    • 在训练期间,数万个GPU可能同时增加或减少功耗,如所有GPU等待检查点或集体通信完成,或整个训练作业的启动或关闭。它可能导致数据中心的功耗瞬间波动数十兆瓦,拉伸电网的极限。

  • 期望做到动态电力调节。

    • 中午更高的温度影响GPU动态电压和频率缩放等。



但其实集群稳定性方面仍有非常多的问题值得研究,后续结合应用场景做相关介绍。

  • 硬件优化提高系统有效训练时间。如快速处理各种中断(如PCIe、Nvlink、RDMA等故障)及硬件故障(GPU或主机组件故障、数据静默损坏和计划外的单个主机维护事件)。

  • 高性能计算集群构建、集群互联网络拓扑及异构集群训练、算法优化、通信 网络优化避免热点问题;

  • 存储优化以应对集群存储需求及I/O突发、I/O调度优化吞吐及TP99延迟;

  • 软件工具优化如快速诊断和定位问题及调试问题,解决诸如如NCCL网络库问题及框架异常等;






土人观芯
AGM微电子运营,探讨关于半导体的一切,聊聊半导体公司的运营,半导体技术的科普,也给公司打打广告。
 最新文章