首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

热辣薯条(Hot Chips 2024) - OpenAI的Scaling

文摘 2024-08-29 08:22 上海

在2024年Hot Chips大会上，OpenAI就构建可扩展AI基础设施进行了一小时主题演讲《可预测的扩展与基础设施》（Predictable Scaling and Infrastructure）。

ChatGPT的"是什么"和"怎么做"

是什么

收集文本、代码、图像、音频、数学数据集。
预训练模型以预测下一个词元。
后续训练模型，例如：遵循指令、进行对话、使用工具。

怎么做

在大规模加速器集群上对Transformer进行同步随机梯度下降训练。
结合多种数据形式和模型并行化。
从人类反馈中进行强化学习。

学习生成评论并发现情感

在产品评论上训练了一个字符级神经网络。
观察到：有一个神经元编码了情感！
最终实现了最先进的情感分析。

预测即压缩

下一个词元的预测模型反映了底层的生成过程。
如果数据来自互联网，那么底层生成过程就是世界。
虽然听起来宏大，但通过所罗门诺夫归纳推理理论可以证明其合理性。

关于规模演进:自2018年起,GPT-1初具雏形,GPT-2提升连贯性,GPT-3实现上下文学习,GPT-4达到实用水平。预计未来模型将更具实用性并展现新行为。

规模回报

GPT-1：2018年6月发布，通过特定任务的微调引入了最先进的语言理解。
GPT-2：2019年2月发布，带来了连贯的文本生成和零样本迁移能力。
GPT-3：2020年3月发布，实现了上下文学习。
GPT-4：2023年3月发布，旨在实际应用中有用。

关键观察:规模扩大带来更优质、更实用的AI。

规模有效

这个例子要求GPT-4能够：

理解英语和法语。
在物理问题的上下文中解释一个图表。
解决问题！

OpenAI如何确知训练更大模型会带来更好效果?观察表明,每当计算量翻倍,结果就会改善。图表显示即使计算量增加四个数量级,模型性能仍在提升。

在编程等任务上也发现类似模式。这基于对数平均刻度,避免简单编程问题过度影响通过/未通过权重。

MMLU基准测试旨在成为机器学习的终极标准,但由于对数进展,GPT-4已在该测试中获得约90%得分。

行业前沿模型训练计算量增长图显示,自2018年起,该计算量每年约增加4倍。

GPT-1最初仅用几周完成训练,如今已扩展为使用大型GPU集群。

2018年前,计算量年增长率从6-7倍降至4倍,因为许多低垂果实已被摘取。未来,成本和能耗将成为更大挑战。

推理方面,需求由智能驱动。大部分推理计算资源用于高端模型,小型模型消耗较少。推理GPU需求显著增长。

AI计算的乐观前景

计算规模扩展具有可预测性，并有望继续增长。
智能推动推理需求。
当前时代，技术和经济都具备了大规模发展的条件。

Sam Altman

我们相信世界需要更多的AI基础设施——晶圆厂产能、能源、数据中心等——比当前规划的更多。
构建大规模的AI基础设施以及具有韧性的供应链，对经济竞争力至关重要。
OpenAI将尽力提供帮助！

世界需要比计划更多的AI基础设施。

实际太阳能需求(黑线)与专家预测对比显示,尽管预测线持续上升,专家意见分歧。

过去50年,摩尔定律保持线性增长,时间超出预期。

OpenAI认为AI需要大规模投资,因为计算量增加已带来超过八个数量级的效益。

集群级RAS（可靠性、可用性、可服务性）

光学器件的平均故障间隔（MTBF）仅以分钟计。

更不用说高带宽内存的不可恢复错误（DUE）、电路板故障等。

软错误（SDC）：常见且有时难以重现。
故障的影响范围极广。

OpenAI强调必须为大规模部署设计。例如RAS(可靠性、可用性、可服务性)。集群规模庞大,硬件和软件故障频发。无声数据损坏可能发生,有时即使隔离GPU也无法重现。集群故障影响范围广泛。

OpenAI表示需降低维修成本,缩小故障影响范围,减少组件间相互影响。

集群级RAS

最小化维修成本。

异常 > 进程重启 > GPU重置 > 节点重启 > RMA（退货维修）。
示例：理想情况下，扩展写入失败应为可捕获的异常。

最小化影响范围。

示例：一个端口的链路抖动不应影响邻近端口。
示例：理想情况下，不可纠正的内存错误只影响自身GPU，即使在存在一致性内存结构的情况下。

可替换性降低影响范围。

一种思路是采用渐进式降级,类似STH托管集群做法,以减少技术人员干预。规模化情况下,验证至关重要。

集群级RAS

考虑优雅降级。

某些故障更值得技术人员花费时间处理。
示例：禁用次级内存的故障模块，而不是要求RMA。

验证必须是自动化、快速、全面的，并且可以在现场执行。

示例：在指控软错误后进行深入的正确性检查。

电力将成为主要挑战,因全球电力资源有限。GPU同时启停给数据中心负载管理带来挑战。

电源管理

电源瓶颈意味着我们需要最大化现有电源的使用。
同步训练步骤会导致电源消耗的波动。
目标：集群内部实现动态电源调配。
需求：低延迟电源遥测和带外电源管理。

OpenAI的经验教训与我们相似。值得注意的是,在四个要点中,性能仅占其一。

要点总结

可预测的扩展促使迅速增加AI训练计算的使用。
向世界提供AI将需要大规模的基础设施建设。
设计需面向大规模部署。
性能只是众多需求中的一个。

---【本文完】---

近期受欢迎的文章：

更多交流，可加本人微信

（请附中文姓名/公司/关注领域）

实践是检验“专家”的唯一标准。一群认真执着的IT奶爸的学习和分享。

最新文章

聊一聊DDR（12）-DRAM的CS Training Mode(CSTM)

从Mooncake分离式大模型推理架构谈谈RDMA at Scale

聊一聊DDR（11）-DDR频率

液冷，网络，与整机柜 -- Intel IPDC 2024见闻

他山之石，集思广益 | IT奶爸文章奖励计划

英伟达，过热了么？

一文读懂 SFP家族

喜迎双11之月亮湖 -- 热辣薯条(Hot Chips 2024)

谷歌、康宁大超预期

Cerebras处理器架构细节

光计算互连（OCI）

AI 网络背景下 RDMA 的 Why， What & How 以及 Next

“E人”外卖小哥的“I人化”：Gaudi的RoCE优化实现

ETH-X项目及交换/计算节点结构散热设计介绍

近文小结与感谢 - 寄小读者

NVL机架的“中杯，大杯和特大杯”

热辣薯条(Hot Chips 2024)- 英特尔的至强D

RDMA与外卖小哥

英伟达在OCP，对于MGX机架的介绍

Load/Store over ETH乎？

先从一个基础的性能指标说起——CPU频率

CPU架构 -- Power

热辣薯条(Hot Chips 2024) - OpenAI的Scaling

热辣薯条(Hot Chips 2024) - 特斯拉的TTPoE

热辣薯条(Hot Chips 2024) - 博通的CPO

热辣薯条(Hot Chips 2024) - 英特尔的Gaudi

热辣薯条(Hot Chips 2024) - 英伟达的Blackwell

40+AI芯片/Chiplet/RISC-V企业已确认演讲！生成式AI时代最火AI芯片峰会9月举办

向左走，向右走 — 聊聊50亿美元的ZT收购

CPU架构 - CPU的各级缓存

NVL的硬件架构分析-（1）

Aurora Exascale Architecture（PPT）2024

暴力美学背后的细腻布局

Llama 3技术报告解读(1)- AI基础设施和并行策略

LLM推理需要什么样的硬件平台？（2）

LLM推理需要什么样的硬件平台？（1）

音乐，小说，与计算题 - 4： NVL72要出X86版本？！

再来谈谈大模型的分离式推理架构

Transformer架构详解文章与视频

H20跨入百万片俱乐部？

大模型的聚光灯照向以太网: ETH-X的scale up网络

大模型的聚光灯照向网络——当超节点遇上超节点

再谈谈三万亿的破绽

烈日下的绿色森林 —— 英特尔的能效核

暴力美学的show time —— 皮衣教主的Computex 2024 keynote

AI/ML中使用的集体操作（collectives），以太网卸载以及硬件实现

音乐，视频，与计算题 - 3

生成式AI的GPU网络 - 2

音乐，视频，与计算题 - 2

生成式AI的GPU网络

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉