昨晚Intel 正式发布了X86历史上最强的低功耗SoC Lunar Lake,从各大测评来看Lunar Lake这东西十分对得起Intel之前的宣传,在低功耗段表现优异,堪称低功耗段的神。Lunar Lake 的高能效表现不仅帮Intel洗刷过去能耗比不佳的印象,也让高通X Elite 的Windows on ARM 正式成为了小丑。
伴随着消费级Lunar Lake的发布,Intel 也在同期正式推出了面向数据中心的 Granite Rapids-AP。Granite Rapids 隶属于Intel 第六代可扩展志强的P核心版本(即 Xeon 6P),包含至高三个由Intel 3工艺打造的Compute Die和两个由Intel 7打造的IO Die,最高提供128核心(非完整体)和12通道的8800MT/s 内存,在纸面参数上对吧上一代Emerald Rapids 提升非常显著,和即将发布的AMD Turin 处在一个水平线上。
架构篇
Granite Rapids 是Xeon 6代的P核版,搭载了移动版Meteor Lake 同源的Redwood Cove (SP)核心。Redwood Cove、Raptor Cove、Golden Cove这三个架构本质都是Golden Cove家族,改进都不是很大。 所以其实从Sapphire Rapids 的Xeon 4开始,Intel 约等于一直没怎么提升过核心的IPC,都是在不断地堆核和改进能效,外带增加一些新的特性。
具体到了这代,一共有两种Compute Die,最低端的LCC是16个核心 独享一个Compute Die的设计,随后的HCC XCC 和 UCC就开始共享一个Intel 3 的Compute Die,分别搭载1、2、3个。然后所有设计里,都搭载一个Intel 7打造的IO Die。
1个Die的HCC 最多48核心,那么可以换算UCC的最多其实可以开出144个核心。不过应该是照顾良率,所以2个Die的XCC最多就86个,3个Die的UCC就128个,所以算起来最完整的核心反而是相对低端的HCC在使用了。其实我还是挺期待,Intel之后能不能Refresh一下推出一96核心的HCC和144核心的UCC,更好的和EPYC 4/5 对打。另外,LCC HCC XCC是属于Granite Rapids SP家族,而UCC则是Granite Rapids AP家族,二者不共用一个插槽,实际上对应两个平台。
不同于AMD的胶水模式,Intel为了照顾内存性能,将内存控制器放置在了每一个计算核心内部。因此,Granite Rapids 从XCC规格开始,计算核心和内存控制器就存在比内部Mesh总线更为明显的距离差距,再加上Intel历来的L3缓存共享,因此Granite Rapids AP UCC的内存延迟要比上一代最高64C的Emerald Rapids更高。这是目前多核心堆核无可避免的问题,很难解决。
虽然内存延迟因为核心规模增加不可避免增加,但Granite Rapid AP的内存带宽做的非常不错,其内存带宽整体非常充裕。Granite Rapids AP 拥有12通道的内存,对比前代8通道提升50%,内存规格支持DDR5 6400或者MRDIMM 8800,折算下来总带宽对比前代8通道 DDR5 5600分别提升 到1.7倍/2.35倍。超过两倍的内存带宽提升,让Granite Rapids AP的每个核心反而拥有更加充裕的内存带宽,更加有利于核心性能的释放。
通过英特尔的数据可以看到,Granite Rapids AP 8800MT/s 的MRDIMM对比DDR5 6400MT/s在高性能计算HPC、AI领域有非常明显的提升。这两个计算领域对于内存带宽有需求,如果只单独增加核心,会受到内存瓶颈的限制。作为对比,AMD的Turin 这代没有提升内存通道数,也没有上MRDIMM,从96C/128C堆核到128C/192C, 能否做到线性提升是个问题。个人猜测Turin在HPC AI市场会更加依赖X3D的Turin-X版本。
另外,Granite Rapids 对于CXL 内存也有更好的支持了,在Flat2LM下,768GB D5+768 CXL D5+768 CXL D4 内存只比原生2304D5内存慢了3%。
为了应对倍增的核心规模,Granite Rapids AP 的整体TDP从上一代350W提升到了500W。这也是现在数据中心不断增加核心下的一个趋势,下个月正式发布的AMD Turin平台 TDP也会如此大幅增加。无论是Intel还是AMD,数据中心在意的是实际的能耗比和性能核心密度,所以只要实际能耗比在增加,所以这种增加一定一定TDP换两倍核心密度的做法并无不妥。
最终,根据Intel的数据,Granite Rapids AP对比上一代Emerald Rapids在40%负载下(服务器的典型负载在30-50%之间)具有1.9倍的能耗比提升,整体表现不错。
性能篇
从参数规格上,Granite Rapids AP 128C 正好是上一代Emerald Rapids 64C的两倍,外加内存翻倍提升以及一些新的特性加入,理论对应着2倍附近的性能提升,终于在纸面上回到能够和AMD EPYC 4 96C/128C竞争的层面。我们也可以先看看Intel 官方给的性能数据。
在Intel 优选的服务器常规测试项目里, Granite Rapids AP的表现实属不错, 无论是对比AMD的Zen 4C 128C,还是Zen 4 96C,Granite Rapids AP在每个领域都有非常不错的提升。虽然这个幅度不一定能战胜之后的AMD Zen 5,但是对于Intel 来说已经实属不容易了,Intel 之前Xeon是连老的EPYC都打不过,Granite Rapids 至少可以明显打过老的。
Intel Xeon 之前虽然在服务器常规应用中表现一般,但是凭借着AVX512和共享的L3设计,在HPC中表现一直不错。Granite Rapids AP也同样继承了这个优势,对比96C的EPYC 4 轻松碾压。
除了传统的性能以外,Granite Rapids 也是格外强调AI性能。Granite Rapids 不但有完整宽度、特性最全的的AVX512,更是有已经打磨了三代的AMX指令集,能够在AI表现上带来非常明显的算力提升。
Intel 用同样96核心的6927P对比AMD的EPYC 4 96C,AI性能平均下来有4倍左右的提升,不可为不强。AMD的Zen 5增加了双倍的AVX512宽度,并且依然不支持AMX。所以 Intel在同样核心设置下面对未来得EPYC 5,AI表现应该也是明显领先的,算下来这些测试应该是2倍的差距。
AMD之前在Zen 5的预览中作弊给Intel恶劣的负优化,现在Intel 也出来做了个澄清。AMD 128C的Turin 5 在AMD自己的优化版本中,对比Intel 128C的优化版本,Intel 平均能在AMD优选的优势项目中也能平均领先50%左右。
一直以来,Intel 都是对于软硬件优化非常上心的一家公司。最近,Intel也是把AVX512/AMX带入到了现在大模型时代中用的很多的向量数据库中,带来了非常显著的性能提升,这个也之前的新闻中已经验证过了。
实测篇
外媒Phoronix 也在第一时间推出了Intel Granite Rapids的测评。Phoronix 本身的测试项目非常固定和全面,都是在Linux下进行的专业测试,没有玩具跑分项目,整体结果客观公平。Phoronix 的测试由于项目基本固定,不会剔除特定异常的Case,所以我们一方面得看总成绩,另一方面也要看每一个项目的成绩。
从最终的综合成绩来看,Granite Rapids AP的旗舰型号6980P 击杀了AMD Zen 4 EPYC的全家桶,来到了整个测试的第一名。这个结果毫无疑问是历史性的,因为Intel 自从Xeon 1代可扩展后,核心一直被AMD EPYC死死的压着,整体表现非常狼狈,每次出新品甚至连AMD旧品都打不赢。Granite Rapids 这次虽然超越的是AMD 上一代EPYC 4,但真的已经是历史突破了。
小结
Granite Rapids AP 的直接竞争对手是全Zen 4核心、没有X3D的EPYC 9654,分数提升25%。同时对比自己的前代Emerald Rapids 旗舰型号,则是提升38%。因为Phoronix的测试不是无脑的理论多核测试,而是各种复合的任务,不一定总是能完美填满核心,所以提升20-30%已经算非常不得了了。比如对比Emerald Rapids, Granite Rapids AP理论有2倍的多核表现,但是到这里只有38%,大概就是这个原因。
无论是从我的预期还是Phoronix的预期来看,Granite Rapids AP的这个性能表现都是远超预期的,本以为只会小超AMD的Zen 4但是又被Zen 5甩开,只能说进一步把Xeon和EPYC的差距缩小。但是从现在的结果来看,Granite Rapids AP 应对Zen 5 EPYC是有一战之力,不会被甩开太远(是的,一开始就没觉得Granite Rapids能打过Zen 5Turin,现在也没,但是落后多少也不一样)。
AMD Zen 5 经典核心的EPYC, 核心也增加33% 到128C 且IPC提升16%,综合纸面上性能提升54%,目测性能会超过Granite Rapids AP一些,然后Turin X/Dense 版实现对应领域的明显领先。另外, 参考Ryzen 目前的桌面版,Zen 5在Ryzen 上的情况,大概率这次Turin 的典型TDP也要提升到500W附近。
从目前已经有了测试的Sierra Forest 和 Granite Rapids 来看,采用Intel 3工艺的Xeon 6确实表现很好,不说超越AMD但是已经真的追上AMD的节奏了。上个季度的Sierra Forest SP 144C 能耗比非常出众,现在的Granite Rapids AP 性能出众,现在就等明年288C的Sierra Forest AP了,这个应对Zen 5会怎样呢?
最后,强烈推荐阅读之前写的Intel 3的工艺解析,因为从Xeon 6的产品来看,Intel 3提升非常大。
推荐阅读:
1. Intel 3 技术解析:完整体的7nm提升不小,但仍然不够N3级别
4. 工艺百科之Intel 14nm:诞生于辉煌 隐退于平淡
扫码加闲聊
有羊毛群
MebiuW
加个关注、点亮 ,告诉大家你也在看