将224个GPU塞进一个机柜里

科技 2024-11-19 19:33 北京

大会预告

12月5-6日，2024中国生成式AI大会（上海站）将举办，20+位嘉宾已确认参会演讲。其中，上海交大副教授、无问芯穹联合创始人兼首席科学家戴国浩，GMI Cloud 亚太区总裁King.Cui，阿里云灵骏高级产品架构师黄彪，英飞流创始人张颖峰，Jina AI联合创始人兼首席技术官王楠将在AI Infra峰会带来分享，欢迎报名～

文章转载自公众号：半导体行业观察。本文只做学术/技术分享，如有侵权，联系删文。

如果您认为 Nvidia 的 120 kW NVL72 机架配备 72 个 Blackwell 加速器，计算密度非常高，那么它们与 HPE Cray 最新的 EX 系统相比根本不算什么，后者可以在单个机柜中装入三倍以上的 GPU。

Cray 的 EX154n 平台在下周于亚特兰大举行的超级计算会议之前宣布，每个机柜将支持多达 224 个 Nvidia Blackwell GPU和 8,064 个 Grace CPU 核心。对于 HPC 应用程序，这相当于在 FP64 上超过 10 petaFLOPS，对于稀疏 AI 和机器学习工作负载，这相当于在 FP4 上超过 4.4 exaFLOPS，而这些工作负载的精度通常不是那么重要。

具体来说，每个 EX154n 加速器刀片将配备一对 2.7 kW Grace Blackwell 超级芯片 (GB200)，每个芯片配备两个 Blackwell GPU 和一个 72 核 Arm CPU。这两个超级芯片将通过 Nvidia 的 NVL4 参考配置互连。

在机架级别，仅计算一项就将消耗 300 kW 以上的电力，因此不言而喻，就像过去的 EX 系统一样，HPE 的 Blackwell 刀片将采用液冷。

事实上，这些系统完全无风扇，甚至包括全新的 Slingshot 400 系列以太网 NIC、电缆和交换机。顾名思义，Slingshot 400 是对其前代产品的一次可喜升级，带宽从 200 Gbps 提升至 400 Gbps，与当前一代以太网和 InfiniBand 网络保持一致。

HPE 的上一代 Slingshot 200 互连已成为大型超级计算平台的中流砥柱，并且是 Frontier、Aurora 和 Lumi 机器的核心，仅举几例。

不幸的是，任何想要获得 Cray 超高密度 Blackwell 系统和高速 Slingshot 400 网络的人都必须等待一段时间。预计这两款产品都要到 2025 年底才能出货。

如果您更喜欢基于传统 CPU 的 HPC，那么 Cray 的第五代基于 Epyc 的 EX4252 Gen 2 计算刀片将于明年春季推出，每个机柜将配备多达八个 192 核的 Turin-C 处理器，总共 98,304 个核心。

Cray 还将开始发售升级版 E2000 存储系统，该公司声称，得益于基于 PCIe 5.0 的更快 NVMe 存储，该系统的 I/O 性能将比前几代产品提高一倍以上。HPE 预计将从 2025 年初开始发售这些存储阵列。

虽然 HPE 的 Cray EX 平台承诺比普通服务器或机架具有更高的密度，但它们并不是那种可以部署在普通数据中心的系统。因此，HPE 还推出了两款新型风冷 ProLiant Compute 服务器，它们利用了其以企业为中心的 iLO 无人值守管理系统。

任何见过 Nvidia HGX 平台的人都会对这些系统相当熟悉，该平台的 XD680 和 XD685 服务器均支持您选择的 8 种加速器。

令人惊讶的是，我们并不像您预期的那样仅限于 Nvidia 和 AMD GPU。XD680 实际上标配了八个英特尔 Gaudi3 加速器，总计 1 TB HBM2e。正如我们在春季报道的那样，Gaudi3 与目前的加速器相比具有相当的竞争力。每个加速器都能够产生 1.8 petaFLOPS 的密集 BF16 性能，使其在计算密集型工作负载方面比 H100、H200 和 AMD 的 MI300X 更具优势。

升级到 HPE 的 XD685，您可以选择八块 Nvidia H200，总共 1.1 TB HBM3e，或者即将推出的 Blackwell GPU（可能是 B200），这应该会将内存容量提升到 1.5 TB。前者将于 2025 年初推出，而基于 Blackwell 的系统推出时间仍不太明确。

如果您不喜欢 Nvidia，或者您需要更多内存，HPE 还推出了一款搭载 AMD 新推出的 MI325X 的系统版本。该系统于 10 月与加速器一起发布，将配备高达 2 TB 的 HBM3e 内存，并将于 2025 年第一季度发货。

01 功能强大的新型超级计算机平台

惠普企业公司今天表示，正在更新其高性能计算平台产品组合。

扩展的产品线包括几个新的 HPE Cray Supercoming EX 系统，以及一对新的 HPE Proliant 服务器，这些服务器针对人工智能工作负载进行了优化，包括大型语言模型训练和微调。

HPE 表示，这些系统是为负责解决一些世界上最棘手问题的研究机构设计的。它们针对的是更传统的 HPC 工作负载，例如 DNA 测序和股票交易自动化，而不是只专注于 AI 工作负载。

利用超级计算机制造巨头HPE 于 2019 年收购的Cray 的专业知识，它们也是同类产品中第一台采用100% 无风扇、直接液体冷却系统架构制造的机器，该架构涵盖机器的每一层，包括计算节点、网络和存储。

这些产品包括 HPE Cray Supercomputing EX154n 加速器刀片，将于明年年底推出，旨在大幅缩短完成超级计算任务所需的时间。它还设计用于处理 AI 工作负载，为此，它可以在一个机柜中容纳多达 224 个 Nvidia Corp. 的全新Blackwell 图形处理单元。每个加速器刀片都配备一个 Nvidia Grace Blackwell NVL4 超级芯片，总共可容纳四个通过 NVLink 连接的 Blackwell GPU，并通过 NVLink-C2C 与两个 Nvidia Grace 中央处理单元配对。

即将推出的是新的 HPE Cray Supercomputing EX4252 Gen 2 Compute Blade，将于明年春季推出。它更像是一个传统的超级计算平台，因为它经过优化，可以支持更广泛的计算应用。

它缺乏 GPU 硬件，这可能使它对 AI 的用处不大，但就传统工作负载而言，它是一款强大的产品，单个机柜中最多可容纳 98,304 个 CPU 内核，使其成为同类产品中最强大的单机架系统。每个内核配备八个由 Advanced Micro Devices Inc. 制造的第五代 EPYC CPU，可提供极高的 CPU 密度，使客户能够在比以前小得多的空间内实现更高性能的计算。

为了配合新的 Cray Supercomputing EX 型号，HPE 还推出了下一代百亿亿次级互连产品组合，捆绑了支持高达 400 千兆位/秒速度的网络接口控制器、电缆和交换机。此外，还有一个新的存储系统和服务软件值得期待。

新的网络基础设施被称为 HPE Slingshot Interconnect 400，其线速是上一代互连的两倍。它还支持自动拥塞管理和自适应路由等高级功能，这意味着它可以动态重新路由和优化连接，以确保它支持的任何给定工作负载的延迟尽可能低。它将于明年秋季面向基于最新 HPE Cray 系统的集群推出。

至于 HPE Cray 超级计算存储系统 E2000，它提供的输入/输出容量性能是 HPE 前代超级计算机存储系统的两倍多。在底层，它利用开源 Lustre 文件存储系统，这有助于减少与 I/O 操作相关的空闲时间。这一切加起来比以前快得多的存储读写速度，并将在明年初推出时显著提高超级计算操作的性能。

最后还有新的 HPE Cray 超级计算用户服务软件，该软件旨在通过优化系统效率、管理功耗等新功能来改善其超级计算平台的用户体验。

虽然 Cray 超级计算机针对更广泛的 HPC 工作负载进行了优化，但新的 HPE ProLiant Compute XD 服务器专为当今几乎每个企业都渴望接受的所有重要的 AI 工作负载而构建。

HPE 高级副总裁兼 HPC 和 AI 基础设施解决方案总经理 Trish Damkroger 表示，企业和政府对“自主 AI 计划”越来越感兴趣，因为这些计划使他们能够完全控制自己的 AI 模型和训练数据。但对于自主 AI，这些组织需要访问一些非常强大的硬件，而这正是 ProLiant Compute XD 服务器所提供的。

HPE 于 3 月推出了首批用于 AI 的 ProLiant Compute 服务器，但 XD 型号是一种全新的机器类别，经过优化，可支持部署大型高性能 AI 集群。该公司一直与 Nvidia 密切合作，对它们进行微调以支持最先进的 LLM。

新款机型包括 HPE ProLiant Compute XD688，这是两款机型中功能最强大的一款，面向优先考虑性能而非成本的客户。该公司表示，这款机型面向 AI 训练和推理，买家可以选择 8 个 Nvidia H200 SXM Tensor Core GPU 或五机架机箱中相同数量的 Nvidia Blackwell GPU。这是一款液冷系统，将于明年初上市，与 Nvidia 推出 Blackwell GPU 的时间大致相同。

除了 Nvidia 硬件，客户还有更多选择。HPE 最近宣布推出HPE ProLiant Compute XD685 的独立版本，该版本配备八个 AMD Instinct MI325X 加速器和两个 AMD EPYC CPU，而不是 Nvidia 的硬件，后者也将于明年初上市销售。

至于风冷式 HPE ProLiant Compute XD680 服务器，它是一种替代方案，面向那些希望优化性价比，同时仍能处理最苛刻的 AI 训练、调优和推理任务的客户。它没有使用 Nvidia 的 GPU，而是使用英特尔公司的八个Gaudi 3 AI 加速器，这些加速器被压缩成一个紧凑的节点。它们将很快开始销售，发布日期定于下个月。

这两款新服务器均采用了 HPE 的 Integrated Lights-Out 技术，用于远程管理，使选定的授权人员能够从任何位置访问它们，与传统的带内网络访问相比，提供了更高的安全性。

HPE 表示，新款 Proliant XD 服务器附带可选服务，例如安装、定制、集成和验证，以及在公司自己的制造工厂内进行的全面测试，以满足希望加快现场部署的客户的需求。

Damkroger 表示：“我们的客户希望我们能够加快他们的人工智能系统部署，从而更快、更高效地实现价值，并利用我们数十年交付、部署和服务全集成系统的经验。”

参考链接

https://www.theregister.com/2024/11/13/hpe_cray_ex/

—END—

点击下方名片

即刻关注我们

算力猩

隶属于智猩猩，关注计算芯片创新，解读中国算力突破。

算力网（络），应该是什么

先进封装技术解读 | 台积电

IBM 的大规模 A100/H100 GPU 集群 Infra 建设

22页PPT详解 NVIDIA RTX™ 5880 Ada 及训推一体机【附下载】

AI数据中心：网络设计和选型标准

突破内存墙：DRAM技术演进及3D DRAM革命

SC24｜谷歌AI加速器：TPU v6e Trillium技术解析

公开课预告：大规模异构GPU集群的互联、运维与调度｜基流科技技术负责人敬阳主讲

揭秘 AWS 10p10u 最新网络架构！

AI时代的以太网：应对大规模GPU集群网络挑战

智算中心正在CDN化

博通3.5D F2F技术：定义AI XPU的未来

NVIDIA RTX™ 5880 Ada 性能解析与私有化大模型部署｜在线研讨会直播预告

AI数据中心历史、技术与关键企业

揭秘！世界第一个采用CXL 3.1交换机的AI集群

公开课预告：大模型时代的智算GPU集群｜阿里云智能集团智算集群产品专家陈祎主讲

GPU服务器支持的“卡数”由哪些因素决定？

HBM制裁加码下的困境与出路

Meta 万卡 GPU 集群稳定性剖析与最佳实践

通往万亿晶体管GPU之路

亚马逊芯片帝国背后的功臣

比GPU快20倍？d-Matrix推理性价比分析

AWS最强AI芯片，深度解读！

功能安全的图形显示解决方案与汽车制造业模拟数字孪生平台 | NVIDIA 加速汽车制造与智驾开发专场直播预告

公开课预告：OISA构建开放高性能GPU卡间互联体系｜中国移动研究院李锴主讲

NVIDIA GH200 内部架构探究

UEC 和 UAL 应该合并吗？

AI Infra峰会与大模型峰会议程全公布！2024中国生成式AI大会上海站本周举行，报名即将截止！

公开课预告：针对先进封装的2.5D/3D Chiplet协同设计仿真EDA工具探讨｜硅芯科技创始人赵毅主讲

一文看懂Infinity Fabric

大模型时代：交换机衡量指标、技术演变及性能分析

爱芯元智吴炜：多模态大模型在端侧的创新实践与挑战｜GenAICon 2024上海站演讲预告

智算中心：现状、挑战、策略与未来机遇

GenAICon 2024上海站主会场议程公布！34位学者专家全景式解构大模型与AI Infra

追赶NVIDIA，国产AI芯片需努力的5个方面

光羽芯辰创始人周强：通向个人大模型之路｜演讲预告

从UALink近期发展再看GPU Scale Up的互连方向

无问芯穹首席科学家戴国浩教授：软硬协同与多元异构，共筑大模型算力底座｜演讲预告

公开课预告：智算中心 AI Scale-Up 网络技术｜益思芯科技解决方案副总裁唐杰主讲

大规模AI计算时代的存储：挑战与优化

聊一聊算力调度

全球化布局：AI 企业如何补齐算力短板，保障GPU集群稳定性｜GMI Cloud 亚太区总裁 King.Cui演讲预告

中国系统级封装大会SiP China 2024周三开启！免费报名～

面向大规模AI计算的高性能网络架构：Enfabrica ACF-S解决方案深度解析

近30家大模型与AI Infra企业来了！年度生成式AI大会上海站公布最新嘉宾，报名进入最后阶段

高性能GPU服务器硬件拓扑及集群组网

GPU互连新标准：UALink联盟能否打破NVIDIA垄断？

高性能智算集群设计思考与实践｜阿里云智算集群产品解决方案负责人丛培岩演讲预告

全球化布局：AI 企业如何补齐算力短板，保障GPU集群稳定性？｜GMI Cloud 亚太区总裁 King.Cui演讲预告

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉