号称史上最快超级计算机科技巨兽El Capitan为GenAI加码

文摘 2024-11-19 15:04 日本

每隔几年，劳伦斯利弗莫尔国家实验室Lawrence Livermore National Laboratory就会安装世界上速度最快的超级计算机。HPC 中心通常会选择一台不仅能完成管理美国军方核武器储备任务的机器，而且还能选择多种技术来推动超级计算机的发展。

最近在 SC24超级计算机会议上，由AMD 提供支持、惠普企业和劳伦斯利弗莫尔国家实验室合作打造的El Capitan 被评为 SC24 Top 500 榜单中最强大的超级计算机。在许多指标上，El Capitan 可以与超大规模计算公司和云构建者为 AI 训练运行而启动的大型机器相媲美。 El Capitan 是一款专门为运行有史以来最复杂、最密集的模拟和建模工作负载而定制的机器，它恰好非常擅长处理 GenAI （生成式人工智能）革命核心的新型大型语言模型。

得益于HPE Cray 设计的“Rosetta” Slingshot 11 互连和惠普企业销售的 EX 系列系统的核心组件，El Capitan 已经采用了HPC 增强型可扩展以太网，这与超级以太网联盟(Ultra Ethernet Consortium) 试图推进的以太网类似，因为超大规模计算公司和云构建者厌倦了为他们的AI 集群支付InfiniBand 网络的高昂费用。根据粗略计算得出，El Capitan 每单位 FP16性能的成本是Microsoft Azure、Meta Platforms、xAI 和其他公司正在构建的大型“Hopper” H100 集群的一半。

作为国家安全不可或缺的一部分，El Capitan 突破系统设计的架构极限，其设计混合AMD CPU-GPU 计算引擎，这些引擎具有超快的HBM 内存。

El Capitan 与其他超大规模公司构建的野兽级别的机器之间的一个巨大区别是El Capitan 将管理可能导致地球灭绝事件的核武器。美国库存中的核武器需要进行模拟，以确保它们正常运行——《核试验禁令条约》禁止我们炸毁一枚核武器来确定是否真的发生了。还必须重新设计库存中的核武器并重新使用其炸药，但禁试意味着这只能通过模拟来实现。因此，美国能源部为超级计算投入了巨额预算。

El Capitan 混合 CPU-GPU 系统已在劳伦斯利弗莫尔安装并几乎满负荷运行，人们一致认为，这是世界上传统模拟和建模工作负载性能最高的系统。其中包括中国 “天河三号”（2.05 百亿亿次浮点运算）和“海洋之光”（1.5 百亿亿次浮点运算）超级计算机的传闻峰值性能。

2022 年 6 月，Lawrence Livermore和 AMD 宣布他们将采用融合的CPU-GPU 设备，AMD 几十年来一直将其称为加速处理单元或 APU，作为 El Capitan 系统的主要计算引擎。从那时起，每个人都在试图猜测 “Antares” Instinct MI300A 设备的时钟速度是多少，设备中有多少个GPU 计算单元，以及它们将以什么时钟速度运行。事实证明，MI300A的时钟会更高，因此需要更少的时钟才能达到性能。

Lawrence Livermore公司的首席技术官称El Capitan 系统中有 87 个计算机架，还有数十个额外的机架用于放置其“Rabbit”NVM-Express 快速存储阵列。

El Capitan 在液冷Cray EX 机架中总共拥有11,136 个节点，每个节点有四个MI300A 计算引擎，整个系统共有44,544 个设备。每个设备都有128 GB 的 HBM3 主内存，由 CPU 和 GPU 芯片共享，运行频率为5.2 GHz，可为 CPU 和 GPU 芯片提供总计 5.3 TB/秒的总带宽。

根据 11 月份 Top500 排行榜的数据，MI300A CPU 芯片组的运行速度为1.8 GHz，而 AMD 规格表显示 GPU 芯片组的峰值运行速度为 2.1 GHz。有三个“Genoa”X86 计算复合体，每个复合体有八个内核，总共 24 个内核，采用台湾半导体制造公司的5 纳米工艺蚀刻而成。MI300A设备上的六个Antares GPU 芯片组上有228 个 GPU 计算单元，总共有 912 个矩阵内核和 14,592 个流处理器。在矢量单元上，MI300A的峰值 FP64性能为 61.3万亿次浮点运算，在矩阵单元上，FP64是其两倍，为122.6 万亿次浮点运算。

每个 El Capitan 节点的峰值FP64 性能为250.8 teraflops，将所有这些节点连接在一起时，你将获得2,792.9 petaflops 的 FP64 总性能，前端有 5.475 PB 的 HBM3 内存。CPU 和 GPU 计算芯片下方有四个 I/O 芯片，它们将这些元素粘合在一起并粘合到HBM3 内存上；这些芯片采用台积电的6 纳米工艺蚀刻而成。

有趣的是，MI300A封装上仍然有六个计算芯片（AMD术语中的 XCD），与六个 GPU 芯片完美平衡。橡树岭的“Frontier”超级计算机是El Capitan 的姊妹机型，其定制“Trento”CPU XCD（单个芯片上每个节点八个）与四个独立的双芯片“Aldebaran”MI250X GPU 的比例也是一比一。这种一比一的封装方式在多代Cray 超级计算机中一直沿用，这可能并非偶然。从某种意义上说，MI300A是一台六路X86 CPU 服务器，与六路GPU 系统板交叉耦合。

以下汇总表显示了劳伦斯利弗莫尔的El Capitan 模块和桑迪亚国家实验室的“El Dorado”系统中的 El Capitan 系统及其“Toulumne”和“rzAdams”芯片的进给和速度

如上图，有四个Infinity Fabric x16 端口，它们具有128 GB/秒的总带宽，以内存一致的方式将四个MI300A 设备相互连接。

另外还有四个端口，每个APU 一个，从MI300A 中引出，可以配置为PCI-Express 5.0 x16 插槽或Infinity Fabric x16 插槽，在这种情况下，它们设置为前者，以允许插入Slingshot 11 网络接口卡，这些接口卡实际上通过Slingshot 11 结构将整个系统中的APU 相互连接起来。

从技术上讲，该系统在用于运行用于对超级计算机进行排名的高性能Linpack 基准测试的部分上达到了2,746.38 petaflops。（如果物理机器中总共有44,544 个 APU，即机器容量的 98.3%，则该部分机器激活了 43,808 个APU。）额定性能末尾的46 千万亿次浮点运算（性能的第三和第四位有效数字）比2024 年 11 月 Top500 榜单上除 34 台机器外的所有机器都要大。当你说“2.7百亿亿次浮点运算”时丢弃的那些四舍五入数字几乎与巴塞罗那超级计算中心的“MareNostrum 5”超级计算机的大小相同。

如果 Lawrence Livermore 让 HPL 在系统中的所有 APU 上运行，El Capitan 的性能将再提高 1.65%，the next-platform认为计算、内存和互连相互作用的改进可以将其再提高 5% 左右。如果Lawrence Livermore能够将软件和网络调优性能提高 7.5%，那么该机器的峰值 HPL 容量将突破 3 百亿亿次浮点运算。

YoYo酱慢谈

杂说漫谈，科技前沿信息介绍与分享。

LightCounting 预测未来5年 OCS和光模块将爆炸式增长 CPO/LPO大规模部署

液冷是否够冷能给Blackwell有效降温

科技新贵积极扩产800G光学引擎满足 AI 基础设施需求

AI很火 Nvidia Blackwell很热——Blackwell存在严重过热问题，迫使机架重新设计

号称史上最快超级计算机科技巨兽El Capitan为GenAI加码

亚马逊打造AI为重点的硅片生产线，英伟达是否会从王座跌落

Broadcom & Corning 发布联合白皮书为CPO后来者提供宝贵工具

AI Race ：Meta 硬件软件两手抓

经典永恒英特尔和 AMD 联合其他巨头成立 x86 生态系统咨询小组，瞄准ARM？

AI everywhere——Broadcom推出业界首款具有 AI/ML 功能的商用硅片 50G PON 解决方案

ECOC 2024 法兰克福 ——Day2

ECOC 2024 法兰克福 ——Day1

英伟达股价跳水窜天猴时代结束？

NTT IOWN2 APN3 推动光网数字孪生实现

PCIe 7.0初现端倪能否赶上与硅光子初创公司一决高下？

左手硅光子技术右手定制芯片 Marvell意气风发挑战行业大哥

OFC2024 Day2 英特尔展示基于内部硅光子技术 4 Tbps 双向完全集成 OCI 小芯片

OFC2024 Day1 Ranovus提供 6.4Tbps 适用于联发科下一代 ASIC 设计平台的CPO解决方案

OFC 2024预热，Marvel将展示业界首款高度集成的硅光引擎

lyntia Networks, Nokia等四手联弹展示中空光纤技术为800G及上高速率传输铺路

Open AI与纽约时报互掐到底谁侵犯了谁的权益

Nvidia四季度财报亮眼江湖地位短期内无法能撼动

在云端使用 AI进行免费的 PCB 设计，AI开始入侵我们的工作？

服务器需求增多，怎样应对数据中心面临的散热挑战

工程师三宝之I^2C Clock Stretching

了解 800G 相干技术背后的关键技术和优势

CPI 在 Data Center World 2023 演示直接片上介电液体冷却

SiFotonics 的 100G-ER1-40、8x100G-ER1-nWDM SFP56-DD 收发模块现已全面上市

US Conec 在 VSFF 专利纠纷中回击 Senko，到底谁能在此案件中获胜

工程师三宝之如何读懂I^2C时序

初创公司 Quantum Bridge 获得了 NRC 对量子中继器的资助，保障未来网络数据通信安全

HPC时代将到来？Tachyum™ 宣布与 Senko合作，为 AI 和 HPC 应用程序提供闪电般快速的信息传输

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

号称史上最快超级计算机 科技巨兽El Capitan为GenAI加码

号称史上最快超级计算机科技巨兽El Capitan为GenAI加码