Arrow Lake和Lunar Lake,不像一家人...

科技   2024-12-13 10:34   广东  


Intel发布了酷睿Ultra 200S系列台式机处理器。这个代号为Arrow Lake的处理器虽然和Lunar Lake都属酷睿Ultra第2代,但看起来却不大像一家人...

关注Intel PC处理器产品线的读者应该知道,接下来这一波要面向PC的处理器,除了前不久我们已经撰文介绍过的Lunar Lake,还有个代号为Arrow Lake的产品线。

虽然这两个系列都是酷睿Ultra第2代产品,但前者面向的主要是高端轻薄本市场——主打低功耗,后者才是要应用到台式机及常规与高性能笔记本的CPU——甚至可以说Arrow Lake会成为接下来PC市场起量的关键产品。

有个值得提前一说的信息:虽说就市场策略来看,Arrow Lake与Lunar Lake是不同定位的同代产品,但在前不久的IFA(柏林消费电子展)上,我们在采访中得知,Arrow Lake在Intel内部提上日程的时间可能是早于Lunar Lake的。

冯大为(英特尔客户端计算事业部副总裁兼客户端细分市场部总经理)当时也提到,Lunar Lake“是完全下一代的架构”,Arrow Lake则一定程度“延续了Meteor Lake架构”。

这则信息将有利于我们更好地理解Arrow Lake当前呈现出的产品形态:虽然Arrow Lake的CPU核心微架构和Lunar Lake一样,都是P-core性能核Lion Cove,与E-core能效核Skymont,但在核显、NPU,乃至系统和封装技术等实现上,Arrow Lake的确和Meteor Lake看起来更像一家人。


台式机酷睿Ultra 200S系列产品一览

同为酷睿Ultra第2代处理器产品,此前发布的Lunar Lake是酷睿Ultra 200V系列;而这次发布的Arrow Lake则为酷睿Ultra 200S系列。这里的“S”和以往各代的“S”是一样的,即面向台式机的处理器系列。

不过本次发布的酷睿Ultra 200S系列并不是Arrow Lake的全部产品。Intel在媒体会上提到明年一季度会推出“新款Intel酷睿Ultra移动处理器”“用于游戏和高端笔记本电脑”,涵盖HX和H系列标压CPU。如此,我们对Lunar Lake和Arrow Lake的定位,及其相关产品,就有了明确的认知。

本次发布的酷睿Ultra 200S系列处理器产品具体有下面这几款:


酷睿Ultra 9/7/5不同定位的型号皆有,型号后缀的字母K和往常一样代表不锁频,及台式机系列中约束功耗高上限;而F代表了不带核显。这些处理器产品预计将在10月24日开售。

其中最高配的酷睿Ultra 9 285K:这是一颗CPU部分为8个P-core + 16个E-core,总共24核心的处理器。只不过了解过Lion Cove性能核设计的读者应该知道,这一代P-core是不支持超线程的,所以总的线程数也是24个。标称最高睿频功耗为250W;基础功耗125W(TDP)。

其P-core最高频率5.7GHz,基频3.7GHz;E-core睿频4.6GHz,基频3.2GHz。尤为值得一提的是,P-core的L2 cache扩容50%,达到每核3MB;CPU的总L2 cache容量也就来到了最多40MB。在所有核心之间共享的L3 cache也有36MB。


此间的缓存设计就能看出Arrow Lake和Lunar Lake的不同。Arrow Lake没有像Lunar Lake一样,设立全局的Memory Side Cache(类似SLC)。

除了Arrow Lake在芯片系统架构上更像Meteor Lake,也在于Arrow Lake并没有太重的功耗“包袱”和局限,所以E-core和P-core是共享了L3 cache的,也就不需要多一级cache来缓解访存延迟与带宽问题。


Arrow Lake的iGPU核显架构与Meteor Lake也是一致的,同为Xe-LPG。换句话说,Arrow Lake没有像Lunar Lake一样采用最新的Xe2架构核显。核显规格上,因为酷睿Ultra 200S是台式机处理器,Xe核心配了4个(Meteor Lake是8个Xe-LPG核心)。

Xe媒体编解码与显示规格支持当与Meteor Lake大同小异,双MFX媒体引擎、四通道显示引擎。Intel这次强调了Arrow Lake是首款“为索尼8K XAVC编解码提供硬件加速的桌面处理器”——这应该是一种高级版本的H.264格式。此处强调的还是Arrow Lake行业向多媒体制作方面的能力。

着眼于AI专门加速的NPU方面,Arrow Lake也沿用了Meteor Lake的NPU 3,所以INT8算力也就是13 TOPS。则就xPU的AI总算力角度,受制于上代Xe核显不带XMX矩阵引擎,以及NPU 3的规模亦不及更新的NPU 4,所以Arrow Lake的AI总算力标称值为36 TOPS——贡献最大的反倒是有AVX-VNNI指令加速的CPU(15 TOPS)。

不过对台式机来说,这也不是什么问题——毕竟台式机用户通常在寻求图形渲染或AI性能时,总是更偏向独显。


内存、IO与平台支持

内存方面,Arrow Lake最高支持192GB容量的双通道DDR5-6400规格内存;面向企业用户提供ECC支持。“新的内存控制器”支持UDIMM, CUDIMM, SODIMM, CSODIMM等形态和规格的DIMM模组。媒体会上,Intel特别强调了CUDIMM(Clocked Unbuffered DIM)和CSODIMM(Clocked Small Outline DIMM)。

这里的“C”指的是在DIMM模组内就包含了CKD(clock driver,时钟驱动),本地能再生成时钟信号,提升数据高速传输时的稳定性和可靠性。Intel方面表示,这类型的内存配合Arrow Lake平台,“内存潜能可更进一步地发挥出来”。

有关内存传输速率,Intel还提到Arrow Lake对于8000MT/s及以上内存的超频支持,甚至说“DDR5-8000可能是个不错的‘甜点’(数据速率)”,“内存控制器可以保持在Gear 2,用户可以从IMC和内存中获得大量额外的频率”,“Arrow Lake对内存超频具备很好的韧性。”

IO方面,Arrow Lake的IO支持详见下图;配合800系列芯片组,总共48个PCIe通道——20x PCIe 5.0。不过Intel没有去谈芯片不同die具体的IO支持——后文会提到Arrow Lake的chiplet和先进封装方案,它看起来和Meteor Lake很像;理论上其中的IO tile和SoC tile都将引出各自的I/O。


对这部分感兴趣的读者可以留意Intel惯常会出的平台技术白皮书。理论上,这颗处理器的IO tile角色上部分取代了此前的PCH芯片组——只不过有着明显更高的互联带宽;而SoC tile则负责处理CPU自身过去所谓“直连”的IO特性;800系列芯片组再扩展一部分IO能力...

特色项目方面,Arrow Lake芯片本身支持2个Thunderbolt 4接口,Wi-Fi 6E、蓝牙5.3与千兆以太网;新平台扩展,借助外部的控制器可扩展4个Thunderbolt 5接口、Wi-Fi 7、蓝牙5.4和2.5Gbps以太网。

此外,无意外地Arrow Lake搭配的是LGA-1851新规格插槽主板,即800系列芯片组主板。

Chiplet、先进封装与制造工艺

如前文所述,Arrow Lake在芯片封装系统层面的架构上,看起来和Meteor Lake很像。即Arrow Lake也是颗基于chiplet、采用2.5D/3D先进封装技术的处理器。


它总体分成了GPU tile、SOC tile、I/O tile、Compute tile,Base tile,以及一片用于结构填充的structural silicon。对Meteor Lake了解的读者,对这样的设定不会陌生;这种组成方式表现出了与Lunar Lake的明确不同。

目前尚无各模块剖析的具体信息。不过想想就知道,Arrow Lake的CPU核心微架构做了大改,也不再是Meteor Lake那样的P-core + E-core + LP E-core设计,所以Compute tile和SoC tile相较于Meteor Lake应当会有不小的差异。

Intel倒是没有避讳谈制造工艺。Compute tile用的是台积电N3B工艺,GPU tile则采用台积电N5P工艺,SOC tile与I/O tile都使用N6工艺。不知道底部的Base tile是个什么性质的die或interposer...

整体先进封装所用的是Intel自家的Foveros 3D方案(Intel似乎是把非硅桥、包含interposer方案的先进封装统一叫3D封装的,即便它其实更像传统意义的2.5D封装)——虽然就前道制造角度,这颗芯片的制造不能算是multi-foundry,但也真的是鲜活的多工艺、多供应商的例子。果然chiplet、异构、先进封装的时代是真真切切地到来了。

要知道酷睿Ultra 200S是仅面向台式机、民用领域的芯片,都已经在大规模铺陈这些技术了,所以“后摩尔时代”的确就在眼下了——Arrow Lake的到来也标志着PC处理器全面进入了chiplet+先进封装时代。Intel方面说Arrow Lake是“台式机第一次从单一结构转向模块化结构”,“也是台式机第一次从Intel工艺转向第三方工艺”。


另外,既然谈到Arrow Lake与Lunar Lake更不像一家人,但两颗处理器采用相同的CPU核心微架构,这就要求核心设计具备对应的弹性和可扩展性。本文不打算将太多笔墨放在Lion Cove和Skymont的微架构上,此前Lunar Lake的技术解析文章已经提过。

不过当这两个核心要搬到Arrow Lake台式机处理器上,将其抬升至更高的频率、更多的核心,及更高的性能上限,设计工具、方法论就是个中关键。Intel几个月前就提过,同样是Lion Cove,在Lunar Lake和在Arrow Lake上就“不太一样”。而灵活性与可扩展性,是令一种架构应用不同定位的关键,毕竟是覆盖从9W-250W的功耗段。

“Skymont和Lion Cove在核心中内置了新的可扩展性。这种可扩展性再加上Foveros快速集成优势,就能迅速将这些核心转化成高性能解决方案。让我们仅间隔1个月的时间就交付Arrow Lake。”

性能提升似乎不是重点?

接下来该谈谈酷睿Ultra 200S系列的性能和效率情况了。这次Intel在媒体会上最浓墨重彩的宣传,除了AI PC,就在于Arrow Lake的能效提升、功耗降低上了——毕竟我们此前评价Lunar Lake是新时代的Pentium-M。而将其搬到桌面平台,首先受惠的也必然同在效率上——比如据说Arrow Lake在125W时达成的多线程性能,就相当于Raptor Lake-Refresh在250W时的性能了。

不过照例还是要先谈谈绝对性能。CPU核心理论性能,Intel给出的数据是,单线程性能相比上代提升8%左右(酷睿Ultra 9 285K vs 酷睿i9-14900K),相比隔壁Ryzen 9950X领先4%。测试基于Geekbench, SPEC2017, Cinebench等常见项目取平均值。


IFA期间,Intel还曾给出一个数据:Arrow Lake-S之上的Lion Cove,相较上代Raptor Cove,IPC提升约9%。

我们更关心的多线程性能方面,酷睿Ultra 9 285K虽然比上一代酷睿i9少了8个线程,频率也更低,但仍表现出了性能的领先~15%;相比Ryzen 9950X则领先约13%。E-core性能的大幅提升(相比上代Gracemont,Skymont的单线程整数性能▲32%,浮点性能▲72%;多线程整数▲32%,浮点▲55%)在此应当是功不可没的。


这种程度的核心性能提升,到系统测试中大约很难反映出大变化。在Intel自己做的游戏测试里,Arrow Lake与Raptor Lake-Refresh的性能差不多(“多数时候性能差异在±3%”)。平均游戏性能“与竞争对手(Ryzen 9950X)也各有优劣”“不相上下”;

与带3D V-cache的Ryzen 7950X3D相较,“我们测试的31款1080p分辨率游戏,性能差异在5-7%之间”,“依然有相当强的竞争力”。


更多相比Ryzen 9950X在内容创作方面的性能对比见下图——不过注意这系列对比项目中,Arrow Lake表现特别出色的那些,基本都是媒体编解码相关的——抛开编解码加速不谈,双方在渲染、办公、内容创作等对比项中仍然是互有胜负的。

我们也已经拿到了酷睿Ultra 9 285K和酷睿Ultra 5 245K,后续会将体验结果奉上。


效率大提升,一半功耗就有相同性能

感觉挺破天荒的事情是,Intel在台式机CPU发布会上花很大篇幅谈效率和功耗——这是起码在近些年都没怎么出现过的盛况,要不怎么说新架构是新时代的Pentium-M呢。这两年另一个大篇幅谈台式机处理器效率和功耗的是苹果——此前发布Mac Studio之时。

即便可能大部分台式机用户对功耗都并不怎么敏感,也不在意绿色低碳之类的问题,但降低功耗也是未来提升性能上限的前提。Intel也说,“提升能耗比,降低对频率和电压的依赖,给未来进一步提升性能创造了有利空间。”

以及Arrow Lake的一部分设计目标就在于,以“单线程/多线程性能具备优势,游戏性能保持酷睿14代处理器的表现”为基础,提升其能效;当然还有相较Raptor Lake-Refresh,加入更多新特性(如AI)等...

从结果上来看,Arrow Lake也达成了显著提升能效或每瓦性能的目标。基于Cinebench 2024的测试,Arrow Lake获得与Raptor Lake-Refresh相同性能时,功耗低了一半(前者的125W,后者的250W)。


且在包括Office办公、AI CV(CPU INT8)、Zoom视频会议等应用中,相比酷睿i9-14900K,酷睿Ultra 9 285K的功耗下降42%-58%。


具体到游戏中,两代处理器达成相似性能的情况下,Arrow Lake的整体系统功耗可降低80W。Intel还公布了不同游戏中,Arrow Lake相比上代处理器的系统功耗降低数据如下图。不过注意,这是板级系统功耗变化,而非CPU芯片本体。


能效提升对应了一个很有趣的事实:据Intel自己所说,尝试降低处理器的功耗上限(如PL1 250W→175W→125W),很多游戏的实测性能保持几乎一致。Intel没有解释其中原因。不过这一特性对于体积或功耗受限的小系统,例如小型机箱的游戏性能释放,的确会相当有价值。

功耗降低另一方面也带来了封装温度的下降:360一体式水冷散热的前提下,在《彩虹六号:围攻》游戏中,相比Raptor Lake-Refresh,这一代CPU封装温度甚至能下降17℃。不同游戏下的平均CPU封装温度下降约13℃。温度的下降,实际也拉高了CPU的潜在性能上限。


值得一提的是,Intel提到CPU运行温度下降不仅是功耗降低达成的,与芯片设计(如P-core与E-core的交叉分布)等因素也有密切关联。“在热、能耗管理等方面,Arrow Lake这一代取得了长足进步。”

所以最终,就能效提升、功耗降低、温度下降,Intel搬出了均衡性最佳的酷睿Ultra 7 265K,说它相较上代顶配的酷睿i9-14900K,在游戏性能损失仅5%的情况下,CPU封装温度下降~15℃,功耗降低最多188W。从芯片产品换代的角度来看,这个结果是不是还挺理想的?

只不过Intel在本次媒体会上没有系统地解释Arrow Lake达成功耗下降与能效提升的确切原因。我们认为,这与制造工艺换代、设计方法改良、电源管理与核心架构改进,乃至线程调度策略变化都有关。

IFA期间,Intel在媒体会上多少提到过一些能效提升的要素,包括“Ganged DLVR”——多个DLVR提供更高效的电压调节、更高的内存带宽及P-core cache扩容与改进、ITD线程调度辅助(相关预测模型之类)、S0ix modern standby支持等...后续我们会对Intel在IFA期间所做的Arrow Lake技术分享做进一步深入。

现已加入AI PC豪华套餐

最后简单谈一谈AI PC相关的部分——这其实也是这次Intel强调有关Arrow Lake的关键,但本文不打算做深入。

34 TOPS的AI总算力,NPU单体13 TOPS,都不算是值得大书特书的数字。除了给出Geekbench AI, UL Procyon AI跑分,内容创作与用户交互app中AI特性的各类性能对比;我们认为Intel在发展AI过程的策略中,真正靠谱的还是在于AI生态的开拓,以及观察AI应用开发者的处理器选择。


这次Intel提到,在与ISV的沟通中发现,GPU仍然是最受关注的,app借助GPU跑AI的占比也大过CPU与NPU。这是Intel奉行XPU策略的原因之一,“我们现在是唯一一个每个加速器都支持DirectML和所有主要数据类型的供应商”。这对推进AI PC生态,以及AI PC的用户渗透还是有着相当价值的。

至于首次将AI PC的概念带到台式机,Intel对于台式机处理器加入AI能力,包括CPU的AVX-VNNI指令加速及NPU单元,其考量核心在于,虽然很多台式机用户真正去用AI会考虑高端独显,但“综合各种因素”,这么做能够“帮助用户为未来AI新功能做好准备,也兼顾目前AI的发展,包括AI游戏的需要”。

这也是带动AI PC生态的一环。且Arrow Lake作为AI PC的参与者,也是Intel此前预定2025年底前出货1亿片内置AI能力CPU的关键组成部分。Arrow Lake, Lunar Lake, Meteor Lake都是达成此目标过程中不可或缺的。


热点文章推荐

电子工程专辑
中国版创建于1993年,致力于为中国的设计、研发、测试工程师及技术管理社群提供资讯服务。
 最新文章