在2024年Hot Chips大会上,OpenAI就构建可扩展AI基础设施进行了一小时主题演讲《可预测的扩展与基础设施》(Predictable Scaling and Infrastructure)。
是什么 收集文本、代码、图像、音频、数学数据集。 预训练模型以预测下一个词元。 后续训练模型,例如:遵循指令、进行对话、使用工具。 怎么做 在大规模加速器集群上对Transformer进行同步随机梯度下降训练。 结合多种数据形式和模型并行化。 从人类反馈中进行强化学习。
在产品评论上训练了一个字符级神经网络。 观察到:有一个神经元编码了情感! 最终实现了最先进的情感分析。
下一个词元的预测模型反映了底层的生成过程。 如果数据来自互联网,那么底层生成过程就是世界。 虽然听起来宏大,但通过所罗门诺夫归纳推理理论可以证明其合理性。
关于规模演进:自2018年起,GPT-1初具雏形,GPT-2提升连贯性,GPT-3实现上下文学习,GPT-4达到实用水平。预计未来模型将更具实用性并展现新行为。
GPT-1:2018年6月发布,通过特定任务的微调引入了最先进的语言理解。 GPT-2:2019年2月发布,带来了连贯的文本生成和零样本迁移能力。 GPT-3:2020年3月发布,实现了上下文学习。 GPT-4:2023年3月发布,旨在实际应用中有用。
关键观察:规模扩大带来更优质、更实用的AI。
这个例子要求GPT-4能够: 理解英语和法语。 在物理问题的上下文中解释一个图表。 解决问题!
OpenAI如何确知训练更大模型会带来更好效果?观察表明,每当计算量翻倍,结果就会改善。图表显示即使计算量增加四个数量级,模型性能仍在提升。
在编程等任务上也发现类似模式。这基于对数平均刻度,避免简单编程问题过度影响通过/未通过权重。
MMLU基准测试旨在成为机器学习的终极标准,但由于对数进展,GPT-4已在该测试中获得约90%得分。
行业前沿模型训练计算量增长图显示,自2018年起,该计算量每年约增加4倍。
GPT-1最初仅用几周完成训练,如今已扩展为使用大型GPU集群。
2018年前,计算量年增长率从6-7倍降至4倍,因为许多低垂果实已被摘取。未来,成本和能耗将成为更大挑战。
推理方面,需求由智能驱动。大部分推理计算资源用于高端模型,小型模型消耗较少。推理GPU需求显著增长。
计算规模扩展具有可预测性,并有望继续增长。 智能推动推理需求。 当前时代,技术和经济都具备了大规模发展的条件。
我们相信世界需要更多的AI基础设施——晶圆厂产能、能源、数据中心等——比当前规划的更多。 构建大规模的AI基础设施以及具有韧性的供应链,对经济竞争力至关重要。 OpenAI将尽力提供帮助!
世界需要比计划更多的AI基础设施。
实际太阳能需求(黑线)与专家预测对比显示,尽管预测线持续上升,专家意见分歧。
过去50年,摩尔定律保持线性增长,时间超出预期。
OpenAI认为AI需要大规模投资,因为计算量增加已带来超过八个数量级的效益。
集群级RAS(可靠性、可用性、可服务性)
光学器件的平均故障间隔(MTBF)仅以分钟计。
更不用说高带宽内存的不可恢复错误(DUE)、电路板故障等。
软错误(SDC):常见且有时难以重现。
故障的影响范围极广。
OpenAI强调必须为大规模部署设计。例如RAS(可靠性、可用性、可服务性)。集群规模庞大,硬件和软件故障频发。无声数据损坏可能发生,有时即使隔离GPU也无法重现。集群故障影响范围广泛。
OpenAI表示需降低维修成本,缩小故障影响范围,减少组件间相互影响。
最小化维修成本。 异常 > 进程重启 > GPU重置 > 节点重启 > RMA(退货维修)。 示例:理想情况下,扩展写入失败应为可捕获的异常。 最小化影响范围。 示例:一个端口的链路抖动不应影响邻近端口。 示例:理想情况下,不可纠正的内存错误只影响自身GPU,即使在存在一致性内存结构的情况下。 可替换性降低影响范围。
一种思路是采用渐进式降级,类似STH托管集群做法,以减少技术人员干预。规模化情况下,验证至关重要。
考虑优雅降级。 某些故障更值得技术人员花费时间处理。 示例:禁用次级内存的故障模块,而不是要求RMA。 验证必须是自动化、快速、全面的,并且可以在现场执行。 示例:在指控软错误后进行深入的正确性检查。
电力将成为主要挑战,因全球电力资源有限。GPU同时启停给数据中心负载管理带来挑战。
电源瓶颈意味着我们需要最大化现有电源的使用。 同步训练步骤会导致电源消耗的波动。 目标:集群内部实现动态电源调配。 需求:低延迟电源遥测和带外电源管理。
OpenAI的经验教训与我们相似。值得注意的是,在四个要点中,性能仅占其一。
可预测的扩展促使迅速增加AI训练计算的使用。 向世界提供AI将需要大规模的基础设施建设。 设计需面向大规模部署。 性能只是众多需求中的一个。
---【本文完】---
近期受欢迎的文章:
更多交流,可加本人微信
(请附中文姓名/公司/关注领域)