喜迎双11之月亮湖 -- 热辣薯条(Hot Chips 2024)

文摘   2024-11-10 11:20   美国  

引言 — Hot Chips 2024上英特尔关于月亮湖 Lunar Lake的介绍。这是一款英特尔最新的适用于轻薄本的处理器,旨在功耗及AI加速性能上获得极大的提升。写完这篇文章后的最大感受就是。。。好想换!今年双十一的钱包又得瘦身。

熟悉CPU设计的朋友可能知道,一般来说新技术都会在Client端产品上首先实现,我们也可以借此来猜测一下哪些技术可能会被引入到下一代的数据中心CPU中。

本文主要分为三个部分:

1. 水果味儿的内存

2. “一骑”绝尘的P核

3. 全面发展的E核

4. Last but not least - AI



原材料已上传至知识星球:IT奶爸-知识星球




开篇雷击:

内存条没了,功耗降了,续航增加了,xPU加量了,制程全部台积电了。


更具体一点的说明:

  1. P-core取消超线程,IPC和能效两位数提升 (最高睿频5.1GHz)

  2. E-core性能加强,IPC超过前代P-core

  3. Xe核显图形性能提高1.5倍

  4. AI算力大幅提升,xPU整体算力120TOPs

  5. 低功耗设计,续航能力提升40%,最长20小时续航(比我手机耐用了)

  6. 芯片集成内存

  7. 制程:控制模块依然采用6nm制程(台积电N6工艺),但CPU+GPU+NPU的计算模块则采用了台积电的N3B工艺。


I. 水果味儿的内存


这是第一代Intel的CPU将内存集成到芯片的package内部,这就颇有点苹果的感觉了。

支持32GB的LRDDR5x 8533,内存带宽达到8.5GT/s。


看似芯片设计的一小步,却是X86 CPU生态的一大步


从能效来说:既节省了面积(电路板面积减小250平方毫米),降低了功耗,缩短了数据传输的物理距离。

从设计来说:同时也将主板设计上一组最大的并行走线,从设计中“offload”到芯片内部,让PC主板设计真正成为串行走线的连连看。

从生态来说对于内存厂商,ODM厂商的盈利模式和供应链也产生了很大的变化,现在内存价格在整机成本中占比很高。


Lunar Lake有四个E核和四个P核,这种组合又有点苹果。

相比Meteor Lake,总的核数变少了,有利于功耗控制。

与 Meteor Lake 或所有过去几代英特尔混合处理器不同,P-cores 和 E-cores 不共享 L3 缓存或位于 ringbus 结构上。它们确实是芯片内部高带宽连接的一部分。


MSC缓存最大容量8MB,独立于二三级缓存,主要用于IO引擎的缓存配合,可以减少对系统内存的依赖,提升延迟与带宽。

不仅可以给GPU,NPU以及CPU核心提供进一步缓存,更重要的是减少了SoC对于内存访问的需求,进一步降低了DRAM功耗。


此外,Lunar Lake也增强了功耗控制算法以及可以用更多的PMIC来实现功耗控制。


II. "一骑"绝尘的P核


这四个 P 核是小型环形总线网络的一部分,沿四个 P 核有ring stop,以及四个 P 核之间共享的 12 MB L3 缓存。

另一方面,E-core 集群是一个“岛”,很像 Meteor Lake 的低功耗岛核。集群的 4 MB L2 缓存用作四个 Skymont E-core 的最后一级缓存。

这种设计可以让更多任务持续停留在E核,让P核更长的时间处于休眠状态。


四个 Lion Cove P 核不再支持超线程技术。


移除 HTT 和相关硬件后,在给定节点上,Lion Cove 可节省 15% 的芯片面积,同时提高性能/功耗 5%,以及 15% 的性能/功率/面积增益。


IPC,Lion Cove比上一代的Meteor Lake的Redwood Cove提升14%。


前端解码器数量从6宽提升到了8宽。

显著增强的分支预测, 8x

微指令队列加强

执行端口分开了整数区域和浮点区域

乱序窗口从512增加到576


IPC的提升来自于架构的演进,更宽的架构可以带来更高的吞吐,而更深的架构可以带来更高的并行。


它共有多达18个执行端口,吞吐量和效率更高,预测宽度也提升了8倍。

缓存系统大大增强,每核心一级数据缓存48KB,一级指令缓存192KB,二级缓存最多达2.5MB(Arrow Lake上最多3MB),同时所有核心共享最多12MB三级缓存。

频率控制也更加精细,间隔从100MHz大大缩小到16.7MHz,效果自然是能效更高。


Lion Cove由于核心性能的大幅提升,以及芯片面积的缩小,选择移除了超线程,在保持多核性能的前提下,可以实现更好的调度和能耗表现。


II. 全面发展的E核


E核Skymont也是惊喜多多,

对比上一代Crestmont,整数提升38%,浮点提升68%,综合有50%的IPC提升。

此外,

解码器从之前的2组3宽,变成了3组3宽

乱序执行从6发射变成了8发射

显著增强了后端端口的浮点能力,提供4*128的吞吐

E核Skymont,缓存机制与P核不同,每个核心有32KB一级数据缓存,所有核心共享最多4MB二级缓存,没有自己的三级缓存。


单线程性能可以在1/3的功耗下,平均提升多达68%,最高可接近翻倍。

多线程性能方面,四个E核组成一个集群,相比于Meteor Lake上的双核集群,只需要1/3的功耗,就能带来2.9倍的性能,单纯比较性能更是最高可以带来惊人的4倍提升。

P、E核组合,前者峰值性能提升超过50%,后者能效提升20-80%,可以更灵活地适应对高性能、低功耗等不同应用场景的需求,覆盖各种能效范围。


III. Last but not least - AI


GPU部分使用了Intel最新一代的Xe2架构(Battlemage)

搭载了8个Xe2-LP核心,等效128EU和1024ALU,对比Meteor Lake提升约50%。

此外,在Xe2核心中,除了8个512bit SVE矢量单元以外,还有8个2048bit的矩阵XMX单元,至少带来四倍的深度学习AI加速能力。

NPU算力最高到48TOPS,完美满足了微软对于copilot PC的最低40TOPS的要求。

并且还有12个增强过的特殊处理单元(SHAVE DSPs),针对Transformers和Stable Diffusion之类的新AI应用做了针对性优化。


总结一下Lunar Lake的目标,处处开花,踩在我的换机要求上,踏着准确的节奏向我的钱包走来。





为感谢支持,已点赞/分享/赞赏10篇/次以上的朋友,请加微信,进入微信群。我将发放免费加入知识星球的链接。

IT奶爸-知识星球



高阅读量文章





IT奶爸
实践是检验“专家”的唯一标准。一群认真执着的IT奶爸的学习和分享。
 最新文章