每隔几年,劳伦斯利弗莫尔国家实验室Lawrence Livermore National Laboratory就会安装世界上速度最快的超级计算机。HPC 中心通常会选择一台不仅能完成管理美国军方核武器储备任务的机器,而且还能选择多种技术来推动超级计算机的发展。
最近在 SC24超级计算机会议上,由AMD 提供支持、惠普企业和劳伦斯利弗莫尔国家实验室合作打造的El Capitan 被评为 SC24 Top 500 榜单中最强大的超级计算机。在许多指标上,El Capitan 可以与超大规模计算公司和云构建者为 AI 训练运行而启动的大型机器相媲美。 El Capitan 是一款专门为运行有史以来最复杂、最密集的模拟和建模工作负载而定制的机器,它恰好非常擅长处理 GenAI (生成式人工智能)革命核心的新型大型语言模型。
得益于HPE Cray 设计的“Rosetta” Slingshot 11 互连和惠普企业销售的 EX 系列系统的核心组件,El Capitan 已经采用了HPC 增强型可扩展以太网,这与超级以太网联盟(Ultra Ethernet Consortium) 试图推进的以太网类似,因为超大规模计算公司和云构建者厌倦了为他们的AI 集群支付InfiniBand 网络的高昂费用。根据粗略计算得出,El Capitan 每单位 FP16性能的成本是Microsoft Azure、Meta Platforms、xAI 和其他公司正在构建的大型“Hopper” H100 集群的一半。
作为国家安全不可或缺的一部分,El Capitan 突破系统设计的架构极限,其设计混合AMD CPU-GPU 计算引擎,这些引擎具有超快的HBM 内存。
El Capitan 与其他超大规模 公司构建的野兽级别的机器之间的一个巨大区别是El Capitan 将管理可能导致地球灭绝事件的核武器。美国库存中的核武器需要进行模拟,以确保它们正常运行——《核试验禁令条约》禁止我们炸毁一枚核武器来确定是否真的发生了。还必须重新设计库存中的核武器并重新使用其炸药,但禁试意味着这只能通过模拟来实现。因此,美国能源部为超级计算投入了巨额预算。
El Capitan 混合 CPU-GPU 系统已在劳伦斯利弗莫尔安装并几乎满负荷运行,人们一致认为,这是世界上传统模拟和建模工作负载性能最高的系统。其中包括中国 “天河三号”(2.05 百亿亿次浮点运算)和“海洋之光”(1.5 百亿亿次浮点运算)超级计算机的传闻峰值性能。
2022 年 6 月,Lawrence Livermore和 AMD 宣布他们将采用融合的CPU-GPU 设备,AMD 几十年来一直将其称为加速处理单元或 APU,作为 El Capitan 系统的主要计算引擎。从那时起,每个人都在试图猜测 “Antares” Instinct MI300A 设备的时钟速度是多少,设备中有多少个GPU 计算单元,以及它们将以什么时钟速度运行。事实证明,MI300A的时钟会更高,因此需要更少的时钟才能达到性能。
Lawrence Livermore公司的首席技术官 称El Capitan 系统中有 87 个计算机架,还有数十个额外的机架用于放置其“Rabbit”NVM-Express 快速存储阵列。
El Capitan 在液冷Cray EX 机架中总共拥有11,136 个节点,每个节点有四个MI300A 计算引擎,整个系统共有44,544 个设备。每个设备都有128 GB 的 HBM3 主内存,由 CPU 和 GPU 芯片共享,运行频率为5.2 GHz,可为 CPU 和 GPU 芯片提供总计 5.3 TB/秒的总带宽。
根据 11 月份 Top500 排行榜的数据,MI300A CPU 芯片组的运行速度为1.8 GHz,而 AMD 规格表显示 GPU 芯片组的峰值运行速度为 2.1 GHz。有三个“Genoa”X86 计算复合体,每个复合体有八个内核,总共 24 个内核,采用台湾半导体制造公司的5 纳米工艺蚀刻而成。MI300A设备上的六个Antares GPU 芯片组上有228 个 GPU 计算单元,总共有 912 个矩阵内核和 14,592 个流处理器。在矢量单元上,MI300A的峰值 FP64性能为 61.3万亿次浮点运算,在矩阵单元上,FP64是其两倍,为122.6 万亿次浮点运算。
每个 El Capitan 节点的峰值FP64 性能为250.8 teraflops,将所有这些节点连接在一起时,你将获得2,792.9 petaflops 的 FP64 总性能,前端有 5.475 PB 的 HBM3 内存。CPU 和 GPU 计算芯片下方有四个 I/O 芯片,它们将这些元素粘合在一起并粘合到HBM3 内存上;这些芯片采用台积电的6 纳米工艺蚀刻而成。
有趣的是,MI300A封装上仍然有六个计算芯片(AMD术语中的 XCD),与六个 GPU 芯片完美平衡。橡树岭的“Frontier”超级计算机是El Capitan 的姊妹机型,其定制“Trento”CPU XCD(单个芯片上每个节点八个)与四个独立的双芯片“Aldebaran”MI250X GPU 的比例也是一比一。这种一比一的封装方式在多代Cray 超级计算机中一直沿用,这可能并非偶然。从某种意义上说,MI300A是一台六路X86 CPU 服务器,与六路GPU 系统板交叉耦合。
以下汇总表显示了劳伦斯利弗莫尔的El Capitan 模块和桑迪亚国家实验室的“El Dorado”系统中的 El Capitan 系统及其“Toulumne”和“rzAdams”芯片的进给和速度
如上图,有四个Infinity Fabric x16 端口,它们具有128 GB/秒的总带宽,以内存一致的方式将四个MI300A 设备相互连接。
另外还有四个端口,每个APU 一个,从MI300A 中引出,可以配置为PCI-Express 5.0 x16 插槽或Infinity Fabric x16 插槽,在这种情况下,它们设置为前者,以允许插入Slingshot 11 网络接口卡,这些接口卡实际上通过Slingshot 11 结构将整个系统中的APU 相互连接起来。
从技术上讲,该系统在用于运行用于对超级计算机进行排名的高性能Linpack 基准测试的部分上达到了2,746.38 petaflops。 (如果物理机器中总共有44,544 个 APU,即机器容量的 98.3%,则该部分机器激活了 43,808 个APU。)额定性能末尾的46 千万亿次浮点运算(性能的第三和第四位有效数字)比2024 年 11 月 Top500 榜单上除 34 台机器外的所有机器都要大。当你说“2.7百亿亿次浮点运算”时丢弃的那些四舍五入数字几乎与巴塞罗那超级计算中心的“MareNostrum 5”超级计算机的大小相同。
如果 Lawrence Livermore 让 HPL 在系统中的所有 APU 上运行,El Capitan 的性能将再提高 1.65%,the next-platform认为计算、内存和互连相互作用的改进可以将其再提高 5% 左右。如果Lawrence Livermore能够将软件和网络调优性能提高 7.5%,那么该机器的峰值 HPL 容量将突破 3 百亿亿次浮点运算。