热辣薯条(Hot Chips 2024) - OpenAI的Scaling

文摘   2024-08-29 08:22   上海  

在2024年Hot Chips大会上,OpenAI就构建可扩展AI基础设施进行了一小时主题演讲《可预测的扩展与基础设施》(Predictable Scaling and Infrastructure)。

ChatGPT的"是什么"和"怎么做"
  • 是什么
    • 收集文本、代码、图像、音频、数学数据集。
    • 预训练模型以预测下一个词元。
    • 后续训练模型,例如:遵循指令、进行对话、使用工具。
  • 怎么做
    • 在大规模加速器集群上对Transformer进行同步随机梯度下降训练。
    • 结合多种数据形式和模型并行化。
    • 从人类反馈中进行强化学习。

学习生成评论并发现情感
  • 在产品评论上训练了一个字符级神经网络。
  • 观察到:有一个神经元编码了情感!
  • 最终实现了最先进的情感分析。

预测即压缩
  • 下一个词元的预测模型反映了底层的生成过程。
  • 如果数据来自互联网,那么底层生成过程就是世界。
  • 虽然听起来宏大,但通过所罗门诺夫归纳推理理论可以证明其合理性。

关于规模演进:自2018年起,GPT-1初具雏形,GPT-2提升连贯性,GPT-3实现上下文学习,GPT-4达到实用水平。预计未来模型将更具实用性并展现新行为。

规模回报
  • GPT-1:2018年6月发布,通过特定任务的微调引入了最先进的语言理解。
  • GPT-2:2019年2月发布,带来了连贯的文本生成和零样本迁移能力。
  • GPT-3:2020年3月发布,实现了上下文学习。
  • GPT-4:2023年3月发布,旨在实际应用中有用。

关键观察:规模扩大带来更优质、更实用的AI。

规模有效
  • 这个例子要求GPT-4能够:
    • 理解英语和法语。
    • 在物理问题的上下文中解释一个图表。
    • 解决问题!

OpenAI如何确知训练更大模型会带来更好效果?观察表明,每当计算量翻倍,结果就会改善。图表显示即使计算量增加四个数量级,模型性能仍在提升。

在编程等任务上也发现类似模式。这基于对数平均刻度,避免简单编程问题过度影响通过/未通过权重。

MMLU基准测试旨在成为机器学习的终极标准,但由于对数进展,GPT-4已在该测试中获得约90%得分。

行业前沿模型训练计算量增长图显示,自2018年起,该计算量每年约增加4倍。

GPT-1最初仅用几周完成训练,如今已扩展为使用大型GPU集群。

2018年前,计算量年增长率从6-7倍降至4倍,因为许多低垂果实已被摘取。未来,成本和能耗将成为更大挑战。

推理方面,需求由智能驱动。大部分推理计算资源用于高端模型,小型模型消耗较少。推理GPU需求显著增长。

AI计算的乐观前景
  1. 计算规模扩展具有可预测性,并有望继续增长。
  2. 智能推动推理需求。
  3. 当前时代,技术和经济都具备了大规模发展的条件。

Sam Altman
  • 我们相信世界需要更多的AI基础设施——晶圆厂产能、能源、数据中心等——比当前规划的更多。
  • 构建大规模的AI基础设施以及具有韧性的供应链,对经济竞争力至关重要。
  • OpenAI将尽力提供帮助!

世界需要比计划更多的AI基础设施。

实际太阳能需求(黑线)与专家预测对比显示,尽管预测线持续上升,专家意见分歧。

过去50年,摩尔定律保持线性增长,时间超出预期。

OpenAI认为AI需要大规模投资,因为计算量增加已带来超过八个数量级的效益。

集群级RAS(可靠性、可用性、可服务性)

  • 光学器件的平均故障间隔(MTBF)仅以分钟计。

    • 更不用说高带宽内存的不可恢复错误(DUE)、电路板故障等。

  • 软错误(SDC):常见且有时难以重现。

  • 故障的影响范围极广。

OpenAI强调必须为大规模部署设计。例如RAS(可靠性、可用性、可服务性)。集群规模庞大,硬件和软件故障频发。无声数据损坏可能发生,有时即使隔离GPU也无法重现。集群故障影响范围广泛。

OpenAI表示需降低维修成本,缩小故障影响范围,减少组件间相互影响。

集群级RAS
  • 最小化维修成本。
    • 异常 > 进程重启 > GPU重置 > 节点重启 > RMA(退货维修)。
    • 示例:理想情况下,扩展写入失败应为可捕获的异常。
  • 最小化影响范围。
    • 示例:一个端口的链路抖动不应影响邻近端口。
    • 示例:理想情况下,不可纠正的内存错误只影响自身GPU,即使在存在一致性内存结构的情况下。
  • 可替换性降低影响范围。

一种思路是采用渐进式降级,类似STH托管集群做法,以减少技术人员干预。规模化情况下,验证至关重要。

集群级RAS
  • 考虑优雅降级。
    • 某些故障更值得技术人员花费时间处理。
    • 示例:禁用次级内存的故障模块,而不是要求RMA。
  • 验证必须是自动化、快速、全面的,并且可以在现场执行。
    • 示例:在指控软错误后进行深入的正确性检查。

电力将成为主要挑战,因全球电力资源有限。GPU同时启停给数据中心负载管理带来挑战。

电源管理
  • 电源瓶颈意味着我们需要最大化现有电源的使用。
  • 同步训练步骤会导致电源消耗的波动。
  • 目标:集群内部实现动态电源调配。
  • 需求:低延迟电源遥测和带外电源管理。

OpenAI的经验教训与我们相似。值得注意的是,在四个要点中,性能仅占其一。

要点总结
  • 可预测的扩展促使迅速增加AI训练计算的使用。
  • 向世界提供AI将需要大规模的基础设施建设。
  • 设计需面向大规模部署。
  • 性能只是众多需求中的一个。



---【本文完】---

近期受欢迎的文章:

  1. 下一代生成式AI基础设施:存储与网络

  2. Meta:大规模AI基础设施

  3. 专家论坛:AI基础设施的发展(GTC 2024)

  4. SNIA专家访谈:AI对基础设施的挑战

  5. AI推动基础设施前沿:内存是关键(Meta)



更多交流,可加本人微信

(请附中文姓名/公司/关注领域)

IT奶爸
实践是检验“专家”的唯一标准。一群认真执着的IT奶爸的学习和分享。
 最新文章