全球最强Arm服务器芯片?叫板四大巨头

文摘   2024-11-07 09:43   安徽  

👆如果您希望可以时常见面,欢迎标星🌟收藏哦~


来源:内容编译自servethehome,谢谢。


是时候对许多人期待已久的 Ampere AmpereOne A192-32X 进行评测了。在这篇评测中,我们将深入探讨性能、功耗,也许最重要的是,使用Supermicro MegaDC ARS-211M-NR 等平台的感觉如何 ,以及它对行业意味着什么。


Ampere AmpereOne A192-32X 概述


了解 AmpereOne A192-32X 的背景很重要。它是 192 核 3.2GHz(因此是 A192-32X)部件,按照 2024 年的标准来看,这似乎很平凡。据称,它于 2022-2023 年首次出售,主要在 Oracle Cloud 上。最初流向云提供商的量意味着它花了相当长的时间才进入其他客户手中。在 2024 年,情况发生了变化,现在我们有了像Supermicro MegaDC ARS-211M-NR这样的服务器。



这似乎不是什么大问题,但这就是 AmpereOne 以 192 个内核进入企业市场时所拥有的大量内核与英特尔如今在下个季度拥有 144 个 250W 的 E 内核以及在 2024 年第三季度拥有 128 个 P 内核(256 个线程)之间的区别。AMD 在第四季度初的处理器现在拥有 192 个内核/每个插槽 384 个线程。或者让我们这样说。在 2022-2023 年,192 个内核的 Arm CPU 是超凡脱俗的。到 2024 年,x86 团队已经基本赶上来了。



Ampere 专注于提供一种可通过容器或虚拟机同时为多个客户提供分区的芯片。尽管它宣称性能如此出色,但让我们先实事求是一点。Ampere 并非试图打造一款 HPC CPU。这是一款云原生芯片。



Ampere 凭借 AmpereOne 取得进一步发展的一个领域是定价。AmpereOne 的定价高于 Altra Max,但性能更高。不过,英特尔、AMD 和 NVIDIA 并不认为其芯片的 10,000 美元定价是上限。



AmpereOne 和 Altra Max 之间的另一个重大区别是功能集进行了重大修改。这是 2022 年的原始幻灯片,A192-32X 是 400W 部件。不过,嵌套虚拟化等功能在 AmpereOne 中是新特性。我们还获得了 PCIe Gen5 和 DDR5 支持。



我们在Hot Chips 2024 的 Ampere AmpereOne 架构上进行了更详细的介绍, 但 Ampere 也改变了其制造芯片的方式。您看到的中心芯片具有台积电 5nm 的内核和缓存。主芯片周围是处理 PCIe 和 DDR5 连接的较小芯片。最终,借助 AmpereOne M,Ampere 将再添加两个 DDR5 芯片,并实现与 AMD 和英特尔相匹配的 12 通道 DDR5。目前,我们正在研究 8 通道 DDR5 机器。



云原生设计的其他一些影响体现在核心和缓存方面。中心计算块是 24 个 8 核集群中的 192 个核心。每个核心都有自己的 2MB L2 缓存,并且不使用 SMT。因此,一个核心就是一个线程。对于担心未来 Spectre/Meltdown 漏洞的组织来说,一个核心/一个线程可以防止这种情况发生。值得注意的是,英特尔和 NVIDIA 也采用了这种方法。



这款芯片与 Intel Xeon 6 Granite Rapids-AP(甚至是 Sapphire Rapids/Emerald Rapids)或 AMD EPYC 9005“Turin”相比,非常不同的是,它有一个 64MB 的小型共享 L3 缓存。这比 144 核 Intel Xeon 6700E 还要小得多,与 AMD 的 L3 缓存相比更是微不足道。同样,这款芯片的设计目的是分区并出售给多个客户,因此从概念上讲,在该模型中拥有大型共享 L3 缓存可能具有挑战性。此外,大型 L3 缓存占用了大量的芯片面积。


不过,这种方法的一个好处是,由于只有一个计算块,因此核心到核心的延迟可以比英特尔和 AMD 更好。



Supermicro MegaDC ARS-211M-NR 性能


现在每个人都想知道的是,让我们聊聊当你获得 Ampere AmpereOne A192-32X 处理器时会发生什么。有 192 个核心没有 SMT,所以有 192 个线程。这与 Intel Xeon 6 6700E Sierra Forest类似,因为没有 SMT,而且这更像是 x86 术语中的 E 核而不是 P 核设计。


这款 CPU 表现非常出色的一个方面是让所有核心都以 3.2GHz 运行。这是在 192 个核心上运行的压力测试,3.2GHz 时钟速度是在所有 192 个核心上运行的。



在某些服务器 CPU 架构中,可能会看到一些内核运行得更快,而其他内核运行得稍慢。AmpereOne 的设计使所有内核都能以相同的速度运行。在过去的几代产品中尤其如此。从 AMD EPYC Bergamo 系列开始,我们已经看到一些竞争性 x86 架构的表现类似。


SPEC CPU2017 结果


SPEC CPU2017 可能是服务器 RFP 中最广为人知和使用的基准测试。我们自己进行 SPEC CPU2017 测试,结果通常比 OEM 提交的官方结果低几个百分点。由于 OEM 为这些重要的基准测试做了大量优化工作,因此结果始终保持在约 5% 左右。由于目前已经有了官方数据,因此如果我们谈论的是行业基准测试,那么使用官方数据感觉是正确的。



我们在这里使用官方结果,这意味着优化的编译器。Ampere 建议使用所有 gcc,并显示其将 AMD 和 Intel 的评级降至此基准的 gcc 数字。这种讨论就像辩论宗教一样。


有人可能会说 GCC 是最小公分母,所以这是正确的看待这个问题的方式。另一方面,最大的芯片公司 NVIDIA 已经使用 CUDA 和优化的工具链达到了这一点。如果我们说我们需要在这里使用 GCC,那么我们是否需要避免使用 NVIDIA 的工具来查看其 AI 性能?我们认为,既然官方分数可以自由使用他们想要的任何编译器,那应该是我们使用的方法。


首先,Altra Max 和 AmpereOne 之间的性能有了巨大的飞跃。内核增加了 50%,但性能几乎提高了一倍。


当我们将结果与 AMD 进行比较时,Turin Dense 简直就是怪物。AMD 的每插槽性能是其两倍,线程也是其两倍。Ampere 可能会争论编译器,而 1 核/1 线程使其能够每 CPU 执行 192x 1 vCPU VM。AMD 可能会反驳说,它可以每 CPU 执行 192x 2 vCPU VM。


与英特尔相比,同样使用不同的编译器,144 核的英特尔至强 6780E 非常接近。Ampere 可以声称它可以每 CPU 执行 192x 1 vCPU VM,而英特尔只能执行 144 个。如果您是云提供商,则更多的 vCPU 意味着每个系统有更多的客户。


随着 Sierra Forest-AP 于 2025 年第一季度推出,我们预计 288 核部分将达到 1250-1410。如果 AmpereOne M 线性扩展到 256 核,则为 936。这接近 AMD EPYC Bergamo 128 核/256 线程部分。


STH nginx CDN 性能


在 nginx CDN 测试中,我们使用 STH 网站的旧快照和访问模式,禁用 DRAM 缓存,以显示从磁盘获取数据的性能。这需要低延迟的 nginx 操作,但需要额外的低延迟 I/O 访问步骤,这在服务器级别上很有趣。以下是分布的快速概览:



简单说明一下,我们使用的配置是我们实时配置的快照。在这里,nginx 是针对 Arm 工作负载进行了非常优化的配置之一,但在是否需要针对 Arm 优化配置方面,我们可能还有一些成长空间。尽管如此,这还是符合我们的预期,因为 AmpereOne 大致与 Sierra Forest 具有核心对核心竞争力,并且在每个插槽的基础上领先于 AMD EPYC Bergamo。与 Altra Max 相比,我们的每个核心扩展也略胜一筹。注意:我们最终购买了基于 我们评测过的 ASRock Rack ALTRAD8UD-1L2T的 ASRock Rack 准系统,并为此构建了一个单插槽 Altra Max 平台。


由于其他原因,这是一个有点奇怪的基准。为了让您理解,如果您每天的页面浏览量低于 100 万次或每秒 11.5 PV 仅提供相对静态的内容,那么您可能可以在单插槽 AmpereOne 192 核心部件上处理这些内容。如果您查看网站的分布,该网站可能是全球排名前 25,000 的网站之一。对于大多数网站,您可能在几个 vCPU 上运行,而不是在整个服务器上运行。


MariaDB 定价分析


对我个人来说,这是一个非常有趣的测试。这项测试的起源是,我们有一个工作负载,它对一组来自主要数据中心 OEM 的匿名数据运行交易管理定价分析。该应用程序有效地寻找跨产品线、地区和渠道的定价趋势,以根据市场趋势确定好的交易/坏交易指导,从而为实时 BOM 配置提供信息。如果这看起来非常具体,那么它与主要供应商部署的东西之间的最大区别在于我们使用的数据。这种应用程序已经转向人工智能推理方法,但它是企业可能在云中运行的一个很好的现实世界示例。



就优化注意事项而言,这与 nginx 测试非常相似。开放数据库在云实例中得到广泛使用,因此底层软件的优化程度可能比我们目前的应用程序移植更好。不过,这实际上是一个现实世界的工具,它已经通过它运行了数百亿美元的数据中心硬件交易(当然,使用不同的数据),使其成为一个非常现实世界的商业应用程序。


与 Cascade Lake Xeon(第二代英特尔至强可扩展处理器)相比,这是一个很大的升级。如果您要升级,那么您将看到 >5:1 插槽整合。


STH STFB KVM 虚拟化测试


我们想分享的另一个工作负载来自我们的一位 DemoEval 客户。我们有权发布结果,但被测试的应用程序本身是闭源的。这是一个基于 KVM 虚拟化的工作负载,我们的客户正在测试在目标 SLA 下完成工作时,在给定时间内可以在线运行多少台虚拟机。每个虚拟机都是一个独立的工作器。就其功能而言,这非常类似于 VMware VMark,只是更通用地使用 KVM。



在这里,XL 和 L VM 块结果受到内存占用的影响,因此实际上,我们正在查看正确的三个结果。这更多地针对双插槽工作负载进行了调整,但仍然很有趣。总体而言,结果非常好。英特尔至强 6780E 1P 没有达到这一水平,但您可以假设它比 6766E 略高,因为它具有类似的核心数,只是由于 TDP 更高而具有更高的时钟速度。


AmpereOne 在这方面表现不错,尽管 x86 阵营拥有更高的线程数,这在这方面很有帮助。此外,使用 64GB DIMM,12 通道平台可获得更多 RAM 和内存带宽,这很有帮助。


SSD 和 NIC 性能


对于这些新平台,重要的一点是不仅要关注 CPU 本身的性能,还要关注所有连接设备的性能。我们试用了 Kioxia CM7 和 Solidigm D7-PS1010 SSD,它们的性能与我们的 Sapphire Rapids 基线平台相差 1.5% 以内。这在误差范围内。



根据所使用的 SSD,我们没有看到性能受到像 AMD EPYC 9965 那样的巨大影响。


在我们最近的测试中,我们还看到基于 AMD EPYC 9965 上使用的 NIC 的相当大的影响。我们尝试了 Broadcom 400GbE NIC。



我们还测试了 NVIDIA CX-6 和 CX-7 解决方案,以获得双 100GbE 和双 200GbE 解决方案的测试。



我们还使用了 NVIDIA BlueField-3 DPU,它有两个双 200GbE 连接。这是必要的吗?当然不是。然而,在 192 个 Arm 核心服务器上添加一张带有 16 个 Armv8.2+ A78 核心的卡有点有趣,而且很像 Inception。



同样,与第四代 Intel Xeon 基准相比,这些 NIC 平台的误差范围也处于误差范围内。我们不需要像 AMD EPYC 9965 那样在 CPU 上安装 400GbE NIC 来缓解瓶颈。


接下来我们来说说功耗。


关于功耗


在Supermicro MegaDC ARS-211M-NR 评测中,我们详细介绍了所使用的 AmpereOne 平台的功耗 。最大的收获是,与 Xeon 6700E 平台或 AMD EPYC 9005 平台相比,空闲功耗相当高。它不是高出 10-20W,而是高出 70W 以上,这在单插槽系统上非常明显。



在满负荷的情况下,使用 400W AmpereOne A192-32A,AMD EPYC Turin 9965 会消耗更多电量,但多出的电量不会超过 100W。英特尔至强 6780E 只是一个 330W TDP 的低功耗平台。可能有两种看待这个问题的方法。首先,AMD 和英特尔已经在很大程度上缩小了与 Ampere 的每瓦性能差距。另一方面,作为 2022-2023 年的组成部分,AmpereOne 会遥遥领先。它的最大挑战是它在 2024 年在云提供商之外全面上市,因此它拥有不同的竞争对手。如果您想了解有关功耗的更多详细信息,请查看系统评论。


主要经验教训:竞争


在这一点上,我认为我们应该谈论我们的关键经验教训的竞争。


一、主要经验教训:英特尔竞争


首先,Intel Xeon 6700E 看起来非常不错。英特尔在性能方面具有竞争力。英特尔的 E 核心至少与 AmpereOne 核心不相上下。我们可能会给 AmpereOne 一个优势,但与此同时,这也是目光短浅的。目前,Ampere 拥有 192 个核心,而Intel Xeon 6700E仅限于 144 个核心,这是 Ampere 的一大胜利。请记住,这些芯片是关于在每个插槽中放置尽可能多的客户 <8 vCPU 实例。Ampere 拥有更多核心,因此它在这方面获胜。不过,英特尔已经在很大程度上缩小了差距。



另一方面,英特尔至强 6766E 非常吸引人。这款 250W TDP 部件在双插槽配置中的 SPEC CPU2017 int_rate 得分约为 1320,因此每个 CPU 约为 660,而 AmpereOne 得分为 702,但功耗为 400W。同样,编译器不同。不过,对于许多人来说,为 150W 插槽 TDP 牺牲 6% 的性能是值得的。英特尔在缩小功率/性能差距方面做得很好。


也许最大的问题也是成本。192 核的 AmpereOne 价格不到英特尔至强 6780E 标价的一半。英特尔需要重新制定其定价和折扣策略,因为现在看起来很奇怪。


我们知道 AmpereOne M 配备 256 个内核和 12 通道 DDR5。我们还知道英特尔将推出 288 个内核和 12 通道 DDR5 的 Sierra Forest-AP。英特尔应该会在这里非常有竞争力,但成本更高。也许最奇怪的是,Clearwater Forest是我们期望英特尔在其云原生处理器系列中获得更多关注的一代。


二、主要经验教训:AMD 竞争


AMD 的大芯片标价较高,但AMD EPYC 9005“Turin”系列非常出色。也许这是有原因的。我们的感觉是,AmpereOne 实际上应该是 AMD EPYC 9754“Bergamo”一代的竞争对手,而不是 Turin Dense 的竞争对手。如果我们记得 Ampere 在 2023 年向 Oracle Cloud 等客户交付了 AmpereOne,那么这更有意义。8 通道 AmpereOne 的设计目的并非与 192 核/384 线程 Turin Dense 设计竞争。



与英特尔一样,AMD 的 Turin 标价远高于 AmpereOne。不过,目前很难断言 AMD 或英特尔在这个领域没有竞争力。这可能是因为我们需要看到 AmpereOne M。


三、主要经验教训:NVIDIA 竞争


NVIDIA 是这里的通配符。我们做了一篇名为《2022 年最重要的服务器:技嘉 Ampere Altra Max 和 NVIDIA A100》的文章,它也拥有自己的 GTC 会议。现在,如果您想将 NVIDIA GPU 连接到 Arm CPU,它很可能是 NVIDIA Arm CPU。



有人可能会说这对 Ampere 不利。但这可能是件好事。NVIDIA 拥有目前市场上热销的 AI 产品,它将利用这一优势推动人们使用 Arm。Grace 架构是 P 核 x86 CPU 的一个不错的替代品,尤其是当这些 CPU 的核心数较低时。对于高核心数云原生,NVIDIA 并没有涉足该领域,即使它拥有 144 核 Grace 超级芯片。


我们没有看到 AmpereOne 在高端 HGX B100/HGX B200 训练或推理系统中的市场。与此同时,随着 NVIDIA 向其客户和生态系统推广 Arm,目前 Arm 的一些最佳优化应用程序是 AmpereOne 瞄准的 Web 服务器等。


事实是,如果您想要本地 Arm,您可以购买 NVIDIA 或 Ampere,并且两个供应商的目标都是每核性能频谱的两端。


四、关键经验教训:云计算竞争


云计算是 Ampere 的战场。Ampere 面临的关键问题是大型超大规模企业正在打造自己的芯片。像 微软这样的公司可以使用 Arm Neoverse CSS来构建自己的设计。AWS 正在通过 Graviton 进军高端市场。



四年前,Ampere 凭借 Altra / Altra Max 在超大规模计算领域取得了胜利。它可能需要转型的地方是提供一条用于遣返的内部部署迁移路径。具体来说,如果您有一个在 Microsoft Azure、AWS、GCP 甚至 Oracle 云上运行的基于 Arm 的实例类型,并且您希望将工作负载遣返到内部部署或主机托管设施中,那么您需要一个 Arm 服务器。NVIDIA 专注于销售用于 AI 的 GPU,并为此附带了 CPU。将云工作负载遣返到内部部署选项有点奇怪。大多数供应商都有用于 Grace 的 NVIDIA MGX 平台,但这是一种性能更高的设计。如果您想遣返诸如 Web 服务器之类的东西,那么真正的选择是 Ampere。技嘉和 Supermicro 等公司拥有 Ampere Altra 和 AmpereOne 平台。HPE 在 HPE ProLiant RL300 Gen11中配备了 Altra (Max) 。如果您是戴尔商店或联想(美国)商店,那么很难获得非 NVIDIA Arm 服务器。


AmpereOne 实际上已经占领了这个市场。赢得几颗 CPU 到几千颗 CPU 的交易要比赢得以 25,000 颗 CPU 为增量的交易困难得多。现在的问题是 Ampere 是否会开始专注于为人们提供通往云端 Arm 实例的出口。


最后的话


AmpereOne 是 2024 年第四季度你能买到的最快的 CPU 吗?不是。它也没有试图成为最快的 CPU。相反,它试图成为一种基于 Arm 的设计,提供 192 个内核,功耗略高于 2W/内核。最大的挑战之一是我们总是关注整个芯片的原始性能。实际上,这些芯片被部署为云实例,主要由 8 个或更少的 vCPU 组成。这些实例很可能以较低的 CPU 利用率运行,而更大更快的内核只会是一种浪费。


为了获得 1P Ampere Altra Max 结果,我们购买了基于 ASRock Rack ALTRAD8UD-1L2T的 ASRock Rack 1U 服务器。对于我们的存储项目来说,它是较老且较便宜的一代。总体而言,现在使用 Arm CPU 很容易,但并非意味着零切换成本。是有成本的,只是比以前少了很多。NVIDIA 和云提供商推广 Arm CPU 只会随着时间的推移帮助降低切换成本。


总而言之,考虑到这是我们在 2024 年评测的 2022-2023 年 CPU,AmpereOne 表现不错。不过,也许更大的收获是,如果你不在能够制造芯片但想要云原生 Arm 设计的超大规模处理器公司工作,AmpereOne 是唯一的选择。有时,成为其中的一员是一件很棒的事情。


参考链接

https://www.servethehome.com/ampere-ampereone-a192-32x-review-a-192-arm-core-supermicro-nvidia-broadcom-kioxia-server-cpu/3/


END


👇半导体精品公众号推荐👇

▲点击上方名片即可关注

专注半导体领域更多原创内容


▲点击上方名片即可关注

关注全球半导体产业动向与趋势

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。



今天是《半导体行业观察》为您分享的第3939内容,欢迎关注。


推荐阅读


EUV光刻机重磅报告,美国发布

碳化硅“狂飙”:追赶、内卷、替代

芯片巨头,都想“干掉”工程师!

苹果,玩转先进封装

GPU的历史性时刻!

大陆集团,开发7nm芯片

张忠谋最新采访:中国会找到反击方法

EUV光刻的新“救星”

『半导体第一垂直媒体』

实时 专业 原创 深度

公众号ID:icbank


喜欢我们的内容就点“在看”分享给小伙伴哦

半导体行业观察
半导体深度原创媒体,百万读者共同关注。搜索公众号:半导体芯闻、半导体产业洞察,阅读更多原创内容
 最新文章