Intel 月亮湖 Lunar Lake 技术解析:X86的续航新里程碑!

时尚   2024-09-04 09:30   云南  
点击蓝色字关注!(知乎@MebiuW 技术类同步更及时)





    自Intel当年实验性质的Lakefield推出后我就一直在期待Intel 能否在某个成熟的时刻拿出一个能够被大批量应用的、真正为低功耗场景设计的SoC。等了若干年,现在Intel终于拿出了Lakefield真正的后继者Lunar Lake,月亮湖。正如Intel对这个CPU的描述,Lunar Lake在X86方面做到了历史性的突破,X86也进入到了实测20小时续航的时代。

    在产品结构上,Lunar Lake 是Intel非常特殊且具有诚意的一代。在过去,Intel 每一代产品对应一个Lake系列,其中虽然包含了面向不同功耗定位的产品,但每个产品所用的技术框架大致是类似的。例如在上一代的Meteor Lake虽然同时面向U15和H28/45,但是都采用了类似的Chiplets方案。而在Core Ultra 200系列,Intel在传统的正代产品Arrow Lake之外,则是专门给低功耗场景投入大量资源设计了专用的Lunar Lake,不再复用Meteor Lake或者Arrow Lake的Chiplets方案,从而更好地给低功耗优化。

    Lunar Lake 平台本身从上到下都采用了全新的设计,首发了大量Intel的新技术,很难用一篇文章去一一的介绍清楚这些亮点。因此,在这篇文章中,我主要针对Lunar Lake最显著的一些改进特性去做解析,如果有其他你们关心的点,可以给我留言评论我们随后再做补充。

Lunar Lake 平台概览

    由于在设计时不再需要考虑兼顾其它定位的产品,Lunar Lake在设计时的束缚更少,成为了目前X86处理器定位最最最“移动化”的一颗SoC,从而直接面对来自ARM芯片的进攻。总体上Lunar Lake隶属于Core Ultra 200V系列,CPU部分搭载了全新的Lion Cove 性能核心和逆天提升的Skymont 能效核心,带来了14%的单核性能提升的同时多核性能也没有落下;GPU 首发了Intel全新的Xe 2核显,在保持同样8个Xe核心的前提下同功耗性能提升50%和高达67Tops的AI算力;NPU 则是采用了第四代架构,带来2倍的能效比和四倍的算力提升,叠加GPU和CPU部分的系统级算力更是来到了恐怖的120 Tops。最后也是最重要的,Lunar Lake芯片做到了40%的续航提升,典型产品最长可以来到20小时的最长续航。

续航/能效改进:X86的新里程碑

    作为一款完全面向主流高端轻薄本的SoC,续航无疑是Lunar Lake改进的重中之重。Lunar Lake 这次破纪录地做到了SoC 整体功耗对比Meteor Lake下降了50%,甚至在性能更强的前提下,在办公状态下整体Package比高通的X Elite还要低。

    在游戏性能方面也是同样令人惊喜, 对比上一代Ultra 7 165H,Lunar Lake在规格更低且性能更高的情况下实现了2倍能耗比。如果在这个时候把Lunar Lake的性能调整成Meteor Lake 水平,那么能耗比就不止2倍了。

    最终,Intel给了多个和友商的续航对比。在相同OEM和相同模具的情况下,续航和高通X Elite 持平,如果再放宽到更大电池和尺寸的机子上则优势更加明显。

    结合上面的续航数据,我们可以具体分析下Luanr Lake的续航表现。现代笔记本SoC的续航可以归咎到两个点,即在低负载下尽可能第的静载功耗,以及负载下优秀的能耗比曲线。Intel 宣称Lunar Lake的笔记本能够对比前代提升40%的续航,那么我们也分析一下到底是在哪些地方实现的。

    首先从SoC的封装上可以看到,Lunar Lake对比Meteor Lake减少了芯粒Chiplets的数量,并且 进行了系统级的LPDDR5X内存封装。数据在芯片或者PCB上传输所需要耗费的能量与传输的距离和介质有关,距离越短、介质越高级,就能缩小功耗。因此无论是芯粒Chiplets的减少,还是直接的内存封装,都可以显著降低功耗开销并提升能效表现。

    其次,Lunar Lake 在大小核上也做足了功夫。Lunar Lake 包含了一个独立的P核心Lion Cove集群和一个E核心Skymont集群,并且两个集群都做了针对性的优化。其中P核的Lion Cove核心砍了超线程提高能耗比。而E核 Skymont性能则是大幅提升,并且因为是完全独立于P核集群的LP-E集群设计,Lunar Lake可以让更多任务持续停留在E核心集群,并让P核心集群更长的时间处于休眠状态,提升能效并降低静载功耗。同时,两个CPU 集群所在的Compute Tile也采用了台积电N3B制造,也能显著提升能效比。最终我们可以看到,即便是Lunar Lake 的线程数不如前代,但是无论在哪个功耗场景下多核性能都显著高于前代,单位线程的能耗比最高可以做到3倍于Meteor Lake。


    除此以外,Lunar Lake 还有一些特性的改进是和功耗控制相关的。例如这次增加了8MB的系统级缓存,不仅可以给GPU、NPU以及CPU核心提供进一步缓存,更重要的是减少了SoC对于内存访问的需求,进一步降低了DRAM功耗。另外,Lunar Lake也增强了功耗控制算法以及可以用更多的PMIC来实现功耗控制。

    至于最后的核心功耗和能耗比,请直接参考剩下的具体解析部分,这里不做赘述。

P核Lion Cove改进解析:打破陈规

    Lunar Lake 搭载了Intel全新一代的P核心架构Lion Cove,对比上一代Meteor Lake中的Redwood Cove核心在提升14% IPC提升的同时,同功耗性能也有两位数的显著提升,特别是在Lunar Lake更加在意的低功耗段部分。


    深入到Lion Cove的架构部分,我们会发现Lion Cove相对于以往P核心架构的变化属实不小。简单来说,对比上一代的三个架构Golden Cove、Raptor Cove、Redwood Cove,Lion Cove比较显著的改进有:

  1. 1.前端解码器数量从6宽提升到了8宽,理论指令吞吐上限提升33%,是目前X86架构中最宽的单组解码器(不计算单组,最宽的则是Skymont的3*3)。

  2. 2.显著增强的分支预测,最高可达8倍的分支预测块。

  3. 3.微指令队列(Micro-OP Queue)从144增加到了192。

  4. 4.后端的执行端口分离了整数和浮点区域,并且总计的执行端口从12提升到了18。

  5. 5.在核心里的内存系统部分抛弃了以往的二级缓存结构,而是做成了L0、L1、L2的三级结构,可以显著降低前240KB内数据的延迟。

  6. 6.乱序窗口从512小幅提升到576,增加指令执行的并行性。

    CPU 架构IPC的提升一般来自于更宽和更深的架构,更宽的架构能够带来更高的理论上限吞吐,而更深的架构能实现更高的并行效率。从这次重点改进来看(例如解码器、微指令队列、后端端口),Lion Cove显然是在拓宽架构上投入了更多努力,也是历代Intel大核心在宽度一个突破,特别是后端执行单元上的突破。在过去,Intel的P核心在后端一直是浮点和整数混用端口,造成了后端端口相比于同规格的其它核心更加窄,在执行整数浮点混合任务时更容易因为端口冲突造成执行阻塞。Lion Cove 将这个问题解决后,也给之后P核心的进一步提升留下了空间。

    Lion Cove核心设计中还需要特别注意的是,Intel 在消费端从物理层面就放弃了Lion Cove对于超线程的支持,而将它作为了未来服务器版本的专属设计。是否支持超线程,实际上是一个选择题。Intel 这一代Lunar Lake由于小核心性能的大幅提升,以及芯片面积的持续缩小,选择移除超线程,在保持多核性能的前提下,实现更好的调度表现和能耗表现无可厚非。在服务器版本中,因为不存在大小核调度问题且更加追求性能上限,所以留下超线程更为合理。这里也补充一个看法,我们之前提到了Lion Cove后端显著加宽,并分离了整数和浮点的窗口,这是十分利于超线程技术应用的,我们可以期待下未来服务器版Lion Cove在这方面的提升。

    Lunar Lake的Lion Cove有两个架构以外的亮点也值得注意:

  1. 1.核心频率的调节力度从之前的100Mhz细化到了16.67Mhz,更好地帮助CPU实现更高的频率和更加精细的功耗管理。比如过去一个CPU的频率在5.0G稳定,但是5.1G上不去,那么就只能跑5.0G。而现在,则可以更小步进的去调整,最终可能稳定在一个诸如5.33G的频率,实现更高的性能。

  2. 2.不同于以往自产自销的Cove核心,Lion Cove在物理设计上使用了大分区策略(Big Partitions),来帮助降低Lion Cove在不同工艺节点上的适应性(目前这一代Lion Cove和Cougar Cove设计至少会在20A 18A 以及 N3B上制造),避免了之前小分区在迁移工艺时需要独立优化较多的问题。

    最终,Intel也对比了友商的移动处理器,Lion Cove 的单核性能在我们广泛认可的评价指标上,表现都是最优,也对得上之前泄露的GB6.3 成绩。

E核Skymont设计解析:居然赛大核了!

    Lunar Lake所搭载的Skymont 能效核心毫无疑问是本次最让人惊喜的地方。如果不是Intel自己公布,有谁敢去想Skymont对比上一代Crestmont能够做到整数提升38%、浮点提升68%,综合50%+的IPC提升呢?应该也没人想过仅仅需要一代,Skymont就可以在IPC方面直接超越目前的大核心Raptor Cove。


    Skymont总体延续了前代Atom产品的架构,这里我们先来快速概览一下哪些改进比价明显的部分:

  1. 1. Skymont 从上一代的2组3宽解码器升到了3组3宽的解码器设计,无论是在总宽度上还是在分组数量上都是X86处理器中的之最。并且不同于友商设计, Atom的多组解码器在单线程下即可发挥功效。

  2. 引入了更加细粒度的Nanocode提升代码执行的并行性,从而提升IPC。

  3. 2. 乱序引擎从6发射提升到了8发射,并且乱序窗口从256提升到了416,显著提升了乱序执行的能力。

  4. 显著加强了后端端口的浮点能力,能够提供4*128bit的SIMD宽度,完美满足全宽AVX2的要求,也能和友商的半宽AVX512实现同样地吞吐。

    因此,如果说P核Lion Cove的改进主要是突破之前架构的宽度,那么Skymont对比前作Crestmont/Gracemont则是进行了无死角地改进,同时显著地加宽和加深了架构并补齐了之前小核心在浮点执行能力上的缺失。

    Lunar Lake 一共搭载了4个Skymont核心作为E核心(物理上对应上一代的的LPE核心)。得益于工艺、架构、核心数量的同时暴增,Lunar Lake的这个E核心集群比起Meteor Lake的低功耗岛双核Crestmont 可以说有了翻天覆地的变化。同样的功耗下性能2.9倍,同样的性能下三倍能耗比,而极限性能则更是来到了4倍。

    由于Skymont 具有媲美上一代大核心Raptor Cove的IPC表现,外加本身不低的频率,因此这个时候或许你们应该能理解为什么Intel不急着给Lion Cove超线程了吧?

GPU设计解析:六边形战士

    Lunar Lake 在GPU部分使用了Intel最新一代的Xe 2 架构(Battlemage),搭载了8个Xe2-LP核心,等效128EU 和 1024ALU,对比Meteor Lake提升大约50%的性能。可以看到,Lunar Lake 其实在物理核心规格上和Meteor Lake持平,因此Lunar Lake 的GPU性能提升来源就必须是IP层面的架构提升以及制造工艺了。

    从架构子项性能来看,Intel 对于Xe 2的底层性能做了非常显著的优化,在不同子项的“IPC”上实现了1.2倍到至高12.5倍的表现。再加上Lunar Lake的这个GPU从上一代的N5工艺升级为了N3B,所以无论是对比同样定位的Meteor Lake U,还是说定位更高的Meteor Lake H,Lunar Lake的GPU表现都非常不虚。


    Lunar Lake的GPU也同时延续了Intel GPU历年来“不止于游戏”的特性。在Lunar Lake的Xe 2 GPU中,Intel 终于将XMX 矩阵加速单元带到了移动端,这是目前所有友商核显GPU都不具备的特性。简单来说,Intel的1个Xe 2 GPU核心中,除了传统的8个512bit SVE矢量单元以外,还有8个2048-bit的矩阵XMX单元,从而带来至少4倍的深度学习AI加速算力。

    如果我们假设Lunar Lake GPU的频率跑在2.0G,那么GPU本身能提供 2.0Ghz*8 Cores* 256 OP/s,大约4 Tops的单精度性能,16 Tops的DP4a Int8 性能,或者基于XMX的最高64 Tops的Int8 矩阵性能。这意味着开发者也可以把 Lunar Lake的这个GPU当做一个NPU,并且这个NPU的性能远高于目前市面上其他任何同类SoC中核显或者独立NPU的算力。

    与此同时,Lunar Lake在媒体解码和显示引擎方面同样保持了高规格的标准,并未和友商一样进行了疯狂阉割。媒体引擎部分同时支持AV1的编解码和H266 VVC的解码,是目前业界领先的水平。而在显示引擎部分也能提供三个显示管线,能够在笔记本本身屏幕的基础上再拓展两个显示器,能够应对绝大部分人99%的需求。

    然后就是大家最关心的游戏实际性能,Lunar Lake对比Meteor Lake的155H提升33%,对比高通X Elite 提升68% (包含了一部分高通没法跑的),对比AMD Strix Point 也高了16%。

    一直以来,Intel的GPU在规格、跑分、特性、能耗比上都是值得令人称道的,但是从跑分到实际游戏性能却比友商有更大的一个落差。这次Xe 2的在底层IP性能提升的情况下,显著改善了游戏性能,真的当之无愧对得上完美了。这里我倒是不担心Intel宣传,Meteor Lake的Xe核显本来就是上代最强核显, Lunar Lake 有这个提升也不奇怪。

NPU设计解析:全面迎接AI时代

    2024年算是端侧AI大模型的元年,因此每一家的新品SoC都是格外重视自己的NPU设计。Lunar Lake自然也要去赶上这个风潮,搭载了大幅加强的新第四代NPU,搭载6个NPU核心,大幅提升算力到至高48TOPS的算力的同时拥有2倍的能耗比提升,完美满足了微软对于Copilot PC最低40TOPS的要求。

    大家除了在关心NPU的算力以外,也一定要格外注意NPU的其他特性,否则实际效率会受到影响。Lunar Lake NPU的具体效率我们现在还无法得知,但是这一代的NPU也的确有不少特色,拥有12个增强过的特殊处理单元(SHAVE DSPs),针对Transformers网络和Stable Diffusion之类的新AI应用都做了针对性优化。

    与此同时,大家也要注意Lunar Lake在AI平台算力上的优势,其累计做到了120TOPS的算力。AI应用并非是有了NPU就不需要GPU、CPU的,不同任务有不同的实际需求,以及有联合使用的需求。我们前面也说过Lunar Lake的GPU所能提供的算力是高于NPU的,在一些插电的场合会有更高的性能上限,而NPU的优势在于能耗比,更多地去服务离线不插电的情况。

    从几个测试来看,Lunar Lake 的 AI算力还不错,NPU 算力和兼容性都不错,而GPU更是一骑绝尘。有意思的是,Intel和Adobe的合作真不错,Lightroom自带的AI降噪在Lunar Lake上表现非常好。

外围解析

    一个SoC的外围往往是考验厂商良心的地方,外围做好需要花费的不少资源但却不体现在跑分当中,并且消费者往往需要实际用到才会后知后觉的认识到这个重要性。与此同时,外围的精简与否也对功耗待机控制有很重要的影响,如何需要认真严肃的考虑。

    Lunar Lake的外围算起来精简又克制,它不像友商M系列一样非常精简的外围,但也不像自家H45那样豪华。在基本点上,Lunar Lake 给了Wifi 7、3个雷电4、两个4 Lanes的PCIe 通道,对于不上独显的机器来说已经非常豪华和够用了,甚至我觉得都有点溢出了,比如5.0那个PCIe 通道,如果拿去接SSD的话,现在PCIe 5.0硬盘的功耗真太高。

小结

    随着ARM芯片在移动计算市场不断地向上进攻,X86市场也同样非常迫切地需要有Lunar Lake这样专门定位于低功耗SoC的出现,之前那种粗暴的砍TDP、砍核心后,直接把老产品拿来“冒充”低功耗SoC只会让不断地给ARM留出空间。 

    我们可以看到Lunar Lake虽然本身的跑分规格不是那么高,但却实打实的堆了非常多无法用跑分去量化的料。从Lunar Lake整个SoC的构成可以看到,这并不是一种找补,而是真的有非常多的空间被拿去堆体验、堆感受。

    因此可以说Lunar Lake是整个X86市场上的一次大胆尝试。除了游戏玩家以外,很大一部分用户也在追求高品质的轻薄笔记本,而Lunar Lake这种兼容性、功耗低并存的高规格SoC则正好是这类用户的最佳选择。

扫描二维码

关注&加群

MebiuW

 

点亮 ,告诉大家你也在看



MebiuW
聊数码 聊芯片 非EE专业(纯兴趣民科)会发薅羊毛广告
 最新文章