HotChips2024，OpenAI主题演讲

文摘 2024-08-30 08:24 上海

<Predictable Scaling and Infrastructure> 主题演讲整体来说干货不多，主要做了以下几点分享：

1、ChatGPT介绍及GPT*系列Scale及特性介绍；

2、Scaling laws及推理需求增长；

3、集群RAS（稳定性-可用性-可运维）。

OpenAI在这里介绍了几个影响系统稳定的点：以分众计的光学组件MTBF、HBM使用周期、常见的SDCs系统损坏及爆炸半径较大。同时给出了几点解决方案：

1、最小化维修成本（Minimize cost of repair）

遵循以下错误处理机制，优先做到catchable异常。Exception> Process Restart> GPU Reset> Node Reboot> RMA：异常> 进程重启> GPU重置> 节点重启> RMA（退货维修替换）。

2、最小化故障影响范围（Minimize blast radius）

链路抖动，不影响相邻端口。
内存错误只应影响自己的GPU。

3、优雅降级（Graceful degradation）

4、验证自动化（Validation）

5、电源管理（Power Management）

电源遥测监控、外置电源，解决电源瓶颈及训练同步期间的电力抖动。

在训练期间，数万个GPU可能同时增加或减少功耗，如所有GPU等待检查点或集体通信完成，或整个训练作业的启动或关闭。它可能导致数据中心的功耗瞬间波动数十兆瓦，拉伸电网的极限。

期望做到动态电力调节。

中午更高的温度影响GPU动态电压和频率缩放等。

但其实集群稳定性方面仍有非常多的问题值得研究，后续结合应用场景做相关介绍。

硬件优化提高系统有效训练时间。如快速处理各种中断（如PCIe、Nvlink、RDMA等故障）及硬件故障（GPU或主机组件故障、数据静默损坏和计划外的单个主机维护事件）。
高性能计算集群构建、集群互联网络拓扑及异构集群训练、算法优化、通信网络优化避免热点问题；
存储优化以应对集群存储需求及I/O突发、I/O调度优化吞吐及TP99延迟；
软件工具优化如快速诊断和定位问题及调试问题，解决诸如如NCCL网络库问题及框架异常等；

http://mp.weixin.qq.com/s?__biz=MzAxODU3NzA2OA==&mid=2649472571&idx=2&sn=fd2d19bbb490f5d7555de935133cdc2a

土人观芯

AGM微电子运营，探讨关于半导体的一切，聊聊半导体公司的运营，半导体技术的科普，也给公司打打广告。

最新文章

基于FPGA的CAN总线控制器的设计（附代码）

客户要十几个UART接口也能支持？

光刻机的自嗨与自知，根源在于产业机制

AG32：要十几个UART接口也能支持？

AG32和通用MCU的区别

象帝先的悲歌，国产GPU如何“打井自救”

AG32 MCU微型光伏逆变器应用

阳谋——看美国是如何主导光刻机协同共管的！

A家FPGA/CPLD系列的国产替代

AGM FPGA 开发流程和转换流程(其他 AGM pin to pin替代型号也可以参考)（案例型号AG10KL144H）

最酷的 FPGA 技术之一：DFX 实例精讲

Altera FPGA系列的国产替代

美国半导体管制的新拉拢对象——韩国

高速数据采集：AGM AG32替代MCU+CPLD/FPGA交互应用方案（一颗料搞定）

从国足惨败看组织建设的检验

“祛魅”英伟达：华为昇腾与谷歌TPU

AG32 MCU微型光伏逆变器方案

基于FPGA的开源项目：FOC/SHA/USB/JPEG等

TI C2000的国产替代路线

AI芯片第一股的估值玄学

AG32 MCU 便携式电能质量分析仪方案

细数FPGA的“几宗罪”

AGM AG32/AGRV2K系列纯CPLD使用流程（AGRV2KL48 为例）供流程参考

RISC-V爆火背后，芯片架构迎来“Android时刻”

高速数据采集：AGM AG32替代MCU+CPLD/FPGA交互应用方案（一颗料搞定）

Intel砸锅卖铁，Altera沦为弃子了吗？

芯片流片一次成本有多高？

芯片IP与代流片的商业迷局：芯原、锐成芯微与灿芯的横向比较

新品 | AG32三合一芯片：M4 MCU+2K CPLD+64Mbit PSRAM

在 FPGA 上实现以太网的“低级”指南

AG32和通用MCU的区别

象帝先出局，国产GPGPU厂商淘汰加速

基于 FPGA 的低成本、低延时成像系统

好牛！小伙用AG32做了个输液器，测温快，精度高！原理竟是这样的……

HotChips2024，OpenAI主题演讲

在美投资建厂的芯片企业会竹篮打水一场空吗？

合作伙伴：上海仓腾SMT工厂

Ti C2000主导市场，国产芯片能否创新突破？

谁说搞单片机没前途？拆解卖好几千的空气净化器

高速数据采集：AGM AG32替代MCU+CPLD/FPGA交互应用方案（一颗料搞定）

Altera FPGA的国产替代型号

直接购买AG32官方开发板！

调高对大陆市场苹果16市场预期的展望

AG32和通用MCU的区别

使用哪种方式可以将 MATLAB 算法转换到FPGA中运行？

AG32诚招代理：M4 MCU+CPLD

国产芯片的黑神话在哪？

AG32和通用MCU的区别

Jim Keller，使用Risc-V构建AI

诚招代理商 | AG32 MCU+cpld系列

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉