用全球最大芯片打造超算,细节曝光

文摘   2024-11-17 11:30   北京  

👆如果您希望可以时常见面,欢迎标星🌟收藏哦~


来源:内容来自nextplatform,谢谢。


劳伦斯利弗莫尔国家实验室、桑迪亚国家实验室和洛斯阿拉莫斯国家实验室在 HPC 社区中被简称为“三重实验室”,但这些 HPC 中心或许可以称为“尝试实验室”,因为它们历史上尝试过几乎任何新的架构,以了解它在推进美国能源部的使命方面可能有何前景。


桑迪亚国家实验室是先锋计划测试新架构的地方,现在它带着 Cerebras Systems 的第三代晶圆级系统再次回归,希望在一台真正设计用于运行 AI 训练和推理的机器上突破传统 HPC 代码的性能障碍。


两年前,桑迪亚从 Cerebras 收购了数量不详的 CS-2 系统,每个系统都有一个 CPU 主机和一个 WSE-2 晶圆级处理器,目的是将一些矩阵密集的 HPC 计算卸载到 WSE-2 引擎上的 16 位浮点核心上。


为什么桑迪亚甚至会考虑将其 64 位或 32 位格式的计算精度降低四倍或两倍?因为这些 WSE-2 引擎(正如我们在 2022 年 3 月详细介绍的那样)将 850,000 个内核和 40 GB 的片上 SRAM 内存(蚀刻在 2.6 万亿个晶体管中)塞进一个餐盘大小的方形硅片中,具有 20 PB/秒的内存带宽和 6.25 千万亿次浮点运算的密集矩阵和 62.5 千万亿次浮点运算的稀疏矩阵。


我们的想法是,对于某些类型的工作负载,如果问题适合内存,或者可以分解为跨越这些核心的部分,那么在单个大型设备上进行计算可以使 HPC 模拟运行得更快。


今年早些时候,桑迪亚国家实验室的一个研究小组证明了这一点,单个 CS-2 系统在某种分子动力学模拟中击败了橡树岭国家实验室的“Frontier”超级计算机。


更大的 Frontier 机器拥有 37,632 个 AMD “Aldebaran” MI250X GPU 加速器,可以模拟晶格中的大量原子,但由于这些 GPU 集群的扩展性较弱,它无法模拟长时间摆动的原子。节点之间的延迟使这成为不可能。


但是,使用改进的 LAMMPS 分子动力学模拟,桑迪亚设立了一个测试,其中钨、铜和钽晶格由静态原子数组成——801,792,足以让一个 WSE-2 核心保存一个原子的数据——然后模拟这些晶格受到辐射冲击。与庞大的 Frontier 系统中的 GPU 相比,桑迪亚在一台 WSE-2 计算引擎上进行的 LAMMPS 模拟中每秒可处理的时间步数对于铜高 109 倍,对于钨高 96 倍,对于钽高 179 倍。这为 Cerebras 铁上的模拟提供了数十毫秒的时间,正如我们当时指出的那样,有足够的时间来实际观察当你用能量戳晶格时晶格会发生什么。


在 Frontier 机器上,该应用程序的扩展在 32 个 GPU 时逐渐减弱,这令人失望,并且表明对于某些类型的应用程序来说,很难在单个计算设备之外进行扩展。


当时,我们推测,如果 Sandia 升级到今年 3 月推出的 CS-3 系统中的 WSE-3 计算引擎,它就可以赢得更多时间(即模拟时间) 。借助 WSE-3 引擎,Cerebras 将晶体管缩小到 5 纳米(WSE-2 为 7 纳米),并将核心数量增加到 900,000 个,但转移到 8 宽 FP16 SIMD 单元,是 WSE-2 和 WSE-1 引擎中使用的 SIMD 单元宽度的两倍。我们认为 WSE-3 的时钟速度提高了约 5%,当你将时钟速度、核心跳跃和 SIMD 提升相乘时,这就是 WSE-3 的性能是 WSE-2 的 2 倍的原因。


我们猜测,通过从 WSE-2 移至 WSE-3,这种性能提升可能会将钽晶格辐射的模拟窗口从 40 毫秒增加到 80 毫秒。相比之下,Frontier 机器上的这些节点模拟时间约为 200 纳秒。


嗯,看起来桑迪亚国家实验室的人们想要获得一些 WSE-3 计算引擎并一探究竟。我们还强烈怀疑他们想弄清楚是否可以将模拟扩展到多个晶圆上并突破 1 秒模拟障碍。


也许是为了这个目的,也为了其他目的,桑迪亚国家实验室和 Cerebras 已经开始构建一个绰号为“Kingfisher”的系统,该系统将以四个 CS-3 系统开始,并将在未来某个时候扩展到八个系统。Kingfisher 集群将在传统的 HPC 模拟工作和 AI 工作上加倍努力——当然是生成式 AI,但不一定仅限于此——这可以增强三实验室在国家核安全局的支持下进行的处理,该局资助三实验室管理美国军方的核武器库存。具体来说,Kingfisher 是由核威慑高级模拟和计算人工智能计划资助的。



桑迪亚研究人员 Thuc Hoang、Ann Gentile、Andrew Younge、Si Hammond、James Laros 和 Kevin Stroup 站在 Kingfisher 旁边。


在宣布 Kingfisher 系统的声明中,一直领导桑迪亚 CS-2 系统工作的研究人员之一 James Laros 表示,实验室正在探索使用未来版本的 WSE 计算引擎“用于 Mod-Sim 和 AI 工作负载的组合”的可行性。我们过去曾与 Cerebras 联合创始人兼首席执行官 Andrew Feldman 开玩笑说,世界真正需要的是一个拥有 64 位 SIMD 引擎的 WSE,该引擎可以扩展到 FP64 精度,甚至可以降低到 FP4 精度,并且可以动态执行,可能是在晶圆上的不同块中,也可能是在代码运行时动态执行,因此理论上 HPC 中心的任何代码都可以在 Cerebras 硬件上运行。


如果有足够多的人这么说,并且有足够多的人为此提供资金,也许这就会实现。对我们来说,这些都不是笑翠鸟。Nvidia 不再专注于其 GPU 的 FP64 性能。


Kingfisher 系统的成本尚未公布,但我们知道,按照标价(无论 HPC 领域的标价是多少),去年 G42 开始与 Cerebras 合作,基于 CS-2 机器构建“Condor Galaxy”集群时,配备单个 WSE-2 的 CS-2 系统的成本约为 160 万美元。也许这意味着要获得 CS-3,价格要上涨 1.5 倍,或者可能上涨 2 倍。在一个要求每一代都物有所值的世界里,230 万美元到 250 万美元可能是合理的。在一个需要更高性能且选择很少的世界里,320 万美元的 CS-3 节点成本是合理的。无论如何,我们认为桑迪亚不会为机器支付接近标价的价格,但同时希望帮助资助那些可能帮助其更好地运行模拟的公司。我们可以肯定地告诉你的是,Frontier 的 32 GPU 部分仅花费约 425,000 美元,但它只能扩展到这么大。


那么,增加原子数量和增加模拟时间对 NNSA 来说有什么价值呢?可能价值很大。


我们期待进一步了解 Kingfisher 所做的事情以及它是如何做到的。


最后一件事:桑迪亚团队在 Cerbras 晶圆级系统上进行的分子动力学研究将角逐今年的戈登贝尔奖。我们希望他们能获奖,这样 GPU 供应商们就得时刻保持警惕了。


原文链接

https://www.nextplatform.com/2024/11/14/sandia-to-push-both-hpc-and-ai-with-cerebras-kingfisher-cluster/

END


👇半导体精品公众号推荐👇

▲点击上方名片即可关注

专注半导体领域更多原创内容


▲点击上方名片即可关注

关注全球半导体产业动向与趋势

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。



今天是《半导体行业观察》为您分享的第3949期内容,欢迎关注。


推荐阅读


EUV光刻机重磅报告,美国发布

碳化硅“狂飙”:追赶、内卷、替代

芯片巨头,都想“干掉”工程师!

苹果,玩转先进封装

GPU的历史性时刻!

大陆集团,开发7nm芯片

张忠谋最新采访:中国会找到反击方法

EUV光刻的新“救星”

『半导体第一垂直媒体』

实时 专业 原创 深度

公众号ID:icbank


喜欢我们的内容就点“在看”分享给小伙伴哦

半导体行业观察
半导体深度原创媒体,百万读者共同关注。搜索公众号:半导体芯闻、半导体产业洞察,阅读更多原创内容
 最新文章