用全球最大芯片打造超算，细节曝光

文摘 2024-11-17 11:30 北京

👆如果您希望可以时常见面，欢迎标星🌟收藏哦~

来源：内容来自nextplatform，谢谢。

劳伦斯利弗莫尔国家实验室、桑迪亚国家实验室和洛斯阿拉莫斯国家实验室在 HPC 社区中被简称为“三重实验室”，但这些 HPC 中心或许可以称为“尝试实验室”，因为它们历史上尝试过几乎任何新的架构，以了解它在推进美国能源部的使命方面可能有何前景。

桑迪亚国家实验室是先锋计划测试新架构的地方，现在它带着 Cerebras Systems 的第三代晶圆级系统再次回归，希望在一台真正设计用于运行 AI 训练和推理的机器上突破传统 HPC 代码的性能障碍。

两年前，桑迪亚从 Cerebras 收购了数量不详的 CS-2 系统，每个系统都有一个 CPU 主机和一个 WSE-2 晶圆级处理器，目的是将一些矩阵密集的 HPC 计算卸载到 WSE-2 引擎上的 16 位浮点核心上。

为什么桑迪亚甚至会考虑将其 64 位或 32 位格式的计算精度降低四倍或两倍？因为这些 WSE-2 引擎（正如我们在 2022 年 3 月详细介绍的那样）将 850,000 个内核和 40 GB 的片上 SRAM 内存（蚀刻在 2.6 万亿个晶体管中）塞进一个餐盘大小的方形硅片中，具有 20 PB/秒的内存带宽和 6.25 千万亿次浮点运算的密集矩阵和 62.5 千万亿次浮点运算的稀疏矩阵。

我们的想法是，对于某些类型的工作负载，如果问题适合内存，或者可以分解为跨越这些核心的部分，那么在单个大型设备上进行计算可以使 HPC 模拟运行得更快。

今年早些时候，桑迪亚国家实验室的一个研究小组证明了这一点，单个 CS-2 系统在某种分子动力学模拟中击败了橡树岭国家实验室的“Frontier”超级计算机。

更大的 Frontier 机器拥有 37,632 个 AMD “Aldebaran” MI250X GPU 加速器，可以模拟晶格中的大量原子，但由于这些 GPU 集群的扩展性较弱，它无法模拟长时间摆动的原子。节点之间的延迟使这成为不可能。

但是，使用改进的 LAMMPS 分子动力学模拟，桑迪亚设立了一个测试，其中钨、铜和钽晶格由静态原子数组成——801,792，足以让一个 WSE-2 核心保存一个原子的数据——然后模拟这些晶格受到辐射冲击。与庞大的 Frontier 系统中的 GPU 相比，桑迪亚在一台 WSE-2 计算引擎上进行的 LAMMPS 模拟中每秒可处理的时间步数对于铜高 109 倍，对于钨高 96 倍，对于钽高 179 倍。这为 Cerebras 铁上的模拟提供了数十毫秒的时间，正如我们当时指出的那样，有足够的时间来实际观察当你用能量戳晶格时晶格会发生什么。

在 Frontier 机器上，该应用程序的扩展在 32 个 GPU 时逐渐减弱，这令人失望，并且表明对于某些类型的应用程序来说，很难在单个计算设备之外进行扩展。

当时，我们推测，如果 Sandia 升级到今年 3 月推出的 CS-3 系统中的 WSE-3 计算引擎，它就可以赢得更多时间（即模拟时间）。借助 WSE-3 引擎，Cerebras 将晶体管缩小到 5 纳米（WSE-2 为 7 纳米），并将核心数量增加到 900,000 个，但转移到 8 宽 FP16 SIMD 单元，是 WSE-2 和 WSE-1 引擎中使用的 SIMD 单元宽度的两倍。我们认为 WSE-3 的时钟速度提高了约 5%，当你将时钟速度、核心跳跃和 SIMD 提升相乘时，这就是 WSE-3 的性能是 WSE-2 的 2 倍的原因。

我们猜测，通过从 WSE-2 移至 WSE-3，这种性能提升可能会将钽晶格辐射的模拟窗口从 40 毫秒增加到 80 毫秒。相比之下，Frontier 机器上的这些节点模拟时间约为 200 纳秒。

嗯，看起来桑迪亚国家实验室的人们想要获得一些 WSE-3 计算引擎并一探究竟。我们还强烈怀疑他们想弄清楚是否可以将模拟扩展到多个晶圆上并突破 1 秒模拟障碍。

也许是为了这个目的，也为了其他目的，桑迪亚国家实验室和 Cerebras 已经开始构建一个绰号为“Kingfisher”的系统，该系统将以四个 CS-3 系统开始，并将在未来某个时候扩展到八个系统。Kingfisher 集群将在传统的 HPC 模拟工作和 AI 工作上加倍努力——当然是生成式 AI，但不一定仅限于此——这可以增强三实验室在国家核安全局的支持下进行的处理，该局资助三实验室管理美国军方的核武器库存。具体来说，Kingfisher 是由核威慑高级模拟和计算人工智能计划资助的。

桑迪亚研究人员 Thuc Hoang、Ann Gentile、Andrew Younge、Si Hammond、James Laros 和 Kevin Stroup 站在 Kingfisher 旁边。

在宣布 Kingfisher 系统的声明中，一直领导桑迪亚 CS-2 系统工作的研究人员之一 James Laros 表示，实验室正在探索使用未来版本的 WSE 计算引擎“用于 Mod-Sim 和 AI 工作负载的组合”的可行性。我们过去曾与 Cerebras 联合创始人兼首席执行官 Andrew Feldman 开玩笑说，世界真正需要的是一个拥有 64 位 SIMD 引擎的 WSE，该引擎可以扩展到 FP64 精度，甚至可以降低到 FP4 精度，并且可以动态执行，可能是在晶圆上的不同块中，也可能是在代码运行时动态执行，因此理论上 HPC 中心的任何代码都可以在 Cerebras 硬件上运行。

如果有足够多的人这么说，并且有足够多的人为此提供资金，也许这就会实现。对我们来说，这些都不是笑翠鸟。Nvidia 不再专注于其 GPU 的 FP64 性能。

Kingfisher 系统的成本尚未公布，但我们知道，按照标价（无论 HPC 领域的标价是多少），去年 G42 开始与 Cerebras 合作，基于 CS-2 机器构建“Condor Galaxy”集群时，配备单个 WSE-2 的 CS-2 系统的成本约为 160 万美元。也许这意味着要获得 CS-3，价格要上涨 1.5 倍，或者可能上涨 2 倍。在一个要求每一代都物有所值的世界里，230 万美元到 250 万美元可能是合理的。在一个需要更高性能且选择很少的世界里，320 万美元的 CS-3 节点成本是合理的。无论如何，我们认为桑迪亚不会为机器支付接近标价的价格，但同时希望帮助资助那些可能帮助其更好地运行模拟的公司。我们可以肯定地告诉你的是，Frontier 的 32 GPU 部分仅花费约 425,000 美元，但它只能扩展到这么大。

那么，增加原子数量和增加模拟时间对 NNSA 来说有什么价值呢？可能价值很大。

我们期待进一步了解 Kingfisher 所做的事情以及它是如何做到的。

最后一件事：桑迪亚团队在 Cerbras 晶圆级系统上进行的分子动力学研究将角逐今年的戈登贝尔奖。我们希望他们能获奖，这样 GPU 供应商们就得时刻保持警惕了。

原文链接

https://www.nextplatform.com/2024/11/14/sandia-to-push-both-hpc-and-ai-with-cerebras-kingfisher-cluster/

END

👇半导体精品公众号推荐👇

▲点击上方名片即可关注

专注半导体领域更多原创内容

▲点击上方名片即可关注

关注全球半导体产业动向与趋势

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第3949期内容，欢迎关注。

推荐阅读

『半导体第一垂直媒体』

实时专业原创深度

公众号ID：icbank

喜欢我们的内容就点“在看”分享给小伙伴哦

http://mp.weixin.qq.com/s?__biz=Mzg2NDgzNTQ4MA==&mid=2247763643&idx=5&sn=2ce63e27b5d42ec000a5f48916beeaf6

半导体行业观察

半导体深度原创媒体，百万读者共同关注。搜索公众号：半导体芯闻、半导体产业洞察，阅读更多原创内容

最新文章

后摩尔时代光计算芯片成破局关键，国产厂商大有可为！

自研DPU发布：微软芯片，火力全开

丹麦机器人巨头，邀您一起“搞事”

英伟达发布迄今最大的“芯片”

英特尔下一代AI芯片，首次曝光

特斯拉也在抢购HBM 4

美国大幅资助这项半导体技术

台积电2nm太猛了，联电太惨了

EUV光刻机争夺战，风云突变

AMD，杀疯了

亚洲疯狂投资芯片

台积电到处买厂，大力扩产

美国两大芯片公司，同时换帅

全球半导体设备巨头，都不好

开源软件，陷入危机

ASML，最新分享

台积电先进制程：加速赴美，10座工厂同时开建

Chiplet，十年展望

英伟达最新GPU，碰到问题了

Wi-Fi 5、6、7 ，有什么区别？

AMD CPU销量，惊人增长

寻找GaN的替代品

OpenAI曾想收购Cerebras

芯片行业，惊弓之鸟

苹果芯片，成功的秘诀

USB诞生背后的故事

芯片设备，面临风险

用全球最大芯片打造超算，细节曝光

分析师：三星短期内复苏可能性不大

英伟达取代英特尔的原因

钻石冷却GPU即将问世

WiFi 8，要来了！

中国10月份芯片产量放缓

100000块Nvidia芯片，马斯克出手

石墨烯：正在从实验室走向产业化

美国“芯片法案”新补贴计划，敲定！

汽车市场放缓，欧洲汽车芯片制造项目面临暂停

揭秘超算Aurora，如何打造一台超级计算机？

台积电在美中台间走钢索

TSV，太贵了！

一家晶圆厂，改变了一座城

芯片太耗电，怎么办？

英伟达首颗Arm PC芯片，太猛了

高通这颗等了四年的芯片，终于来了

SK海力士DRAM，威胁三星？

悼念，BASIC语言的创始人去世

芯片设备巨头确认：市场疲软

免费听会 | 智己/翊杰/Solidigm/奕成/安似/AT&S等20+重磅嘉宾与您11.27相约苏州SiP China！

八英寸晶圆厂，何去何从？

北京大学FFET技术，开创全球三维集成新篇章

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉