英特尔下一代架构全公开

体娱   2024-07-15 23:59   中国香港  

日前,Intel官方宣布了下一代低功耗移动平台Lunar Lake,也就是第二代酷睿Ultra的一部分(还有高性能的Arrow Lake),现已量产,将在第三季度正式发布上市,20多家厂商的80多款笔记本新品蓄势待发。

现在,Intel完全公开了Lunar Lake的架构设计细节,涵盖模块化结构、封装工艺、P性能核、E能效核、混合架构与线程调度、GPU核显、NPU AI引擎、平台连接等部分。

我们逐一来看。

【模块化与封装】

首先说一句,Intel尚未明确公布Lunar Lake的制造工艺,目前第三方说法是主要采用台积电N3B,也就是台积电第二代3nm。

不过Intel强调,如今的处理器设计理念是架构、工艺彼此99%的解耦分离,不再互相依赖,可以各自独立推进路线图。

Lunar Lake延续了Meteor Lake的分离式模块化设计,但又截然不同,首先是简化为计算模块(Compute Tile)、平台控制器模块(Platform Controller Tile)两大部分,角落里还有个填料模块(Filler Tile),不具备实际电路和功能,只是将整体凑成一个方形以保证结构强度。

它们通过底部的基础模块,结合Foveros封装工艺,组合在一起。

其次,Lunar Lake还整合封装了两颗内存。

计算模块内包含最多四个P核、最多四个E核、GPU核显、媒体引擎、显示引擎、IPU图像处理单元、NPU AI单元、NOC、MSC(内存侧缓存)等

其中,MSC缓存最大容量8MB,独立于二三级缓存,主要用于IO引擎的缓存配合,可以减少对系统内存的依赖,提升延迟与带宽。

平台控制模块则包含PCIe 5.0/4.0控制器、雷电4控制器(没有雷电5)、USB控制器、Wi-Fi与蓝牙控制器、安全引擎等。

注意,Meteor Lake上的超低功耗E核取消了,因为它改变了模块组合,并且引入了新的“低功耗岛”(Low Power Island),不再是单一物理模块管理节能,而是将是所有可节能的模块纳入统一管理,整体按需开关,效率更高。

计算模块内部通过Home Agent、Coherency Agent等连接主要单元,平台控制器模块内部也有IO Coherency,确保彼此一致性地高效通信。

而在两大模块之间,通过可扩展的第二代交叉总线,以及D2D界面进行彼此互连,这相比Meteor Lake的四大模块更加简单高效。

这是Intel第一次在处理器内部封装整合内存,称之为“Memory on Package”,也就是“封装级内存”(MOP)。

它采用的是LPDDR5X规格,最高频率8500MHz,每颗芯片四个16-bit通道,总容量最高32GB

官方称这种设计可以节省40%的功耗,并节省多达250平方毫米的主板面积,从而可以显著提升电池续航,并留出空间给笔记本的其他设计。

但是注意,Lunar Lake笔记本不再支持独立的SO-DIMM内存,不能扩展和升级。

值得一提的是,Lunar Lake还设计了全新的独立电源管理单元,一共四组,可以提供更多供电电路,动态调节电压。


【P性能核与E能效核】

这是P核结构简图,代号Lion Cove,在微架构上进行了全面的彻底改进,大幅提升IPC并增强可扩展性,优化了每瓦性能(尤其是单线程),以及单位面积的性能。

它共有多达18个执行端口,吞吐量和效率更高,预测宽度也提升了8倍。

缓存系统大大增强,每核心一级数据缓存48KB,一级指令缓存192KB,二级缓存最多达2.5MB(Arrow Lake上最多3MB),同时所有核心共享最多12MB三级缓存。

频率控制也更加精细,间隔从100MHz大大缩小到16.7MHz,效果自然是能效更高。

官方宣称,新性能核的IPC性能比上代有着平均14%的提升,而且功耗越低,提升越明显,超低功耗下可达18%。

如果频率也能进一步提升,性能自然会更好,这一点要到后续公布具体型号规格的时候才知道了。

E能效核代号Skymont,也是全新设计的,号称Intel最节能的架构。

它重点扩展了工作范围、提升了多线程性能,也提高了整体的扩展性,以及加强预测以快速寻找指令、调度端口增至26个、队列加深以更快并行处理、分配和回退加快等等,

通过四个128位FP浮点单元和SIMD矢量单元,带来了两倍的矢量性能和AI吞吐量,可以更好地执行VNNI,对于AI PC的整体表现提升有很大裨益。

缓存机制与P核截然不同,每个核心有32KB一级数据缓存,所有核心共享最多4MB二级缓存,没有自己的三级缓存。

单线程性能可以在1/3的功耗下,平均提升多达68%,最高可接近翻倍。

多线程性能方面,四个E核组成一个集群,相比于Meteor Lake上的双核集群,只需要1/3的功耗,就能带来2.9倍的性能,单纯比较性能更是最高可以带来惊人的4倍提升。

P、E核组合,前者峰值性能提升超过50%,后者能效提升20-80%,可以更灵活地适应对高性能、低功耗等不同应用场景的需求,覆盖各种能效范围。

针对混合架构的调度,Intel 12代酷睿就引入了硬件线程调度器(Thread Director),Lunar Lake上进行了全新升级,结合操作系统的调度器,带来了动态的调度策略、增强的算法、更精细的控制等。

还设置了操作系统隔离区,加强了电源管理,可以将应用功耗降低多达35%。

P核和E核之间,只要工作负载合适,就会首选分配给单个P核,多线程负载时再扩展到其他能效核,并按需导向性能核。上图就是Office办公下的核心调度实例。

此外,Intel也给予了OEM厂商更大的灵活度,可以选择设置性能模式、能效模式。


【GPU核显】

Lunar Lake的核显升级为第二代Xe2微架构,也就是和即将发布的Battlemage独立显卡是同宗同源的,只是针对低功耗、高能效进行了优化。

Xe2 GPU架构引入了8个第二代Xe2核心、全新的XMX引擎(INT8整数操作每秒4096和FP16浮点操作每秒2048)、最多8个更强的光追单元、更大的XeSS内核、Xe2矢量引擎(优化能效和AI性能)、8MB二级缓存、eDP 1.5视频输出等等。

官方称其性能提升了多达50%,AI算力也高达67TOPS。

全新的媒体引擎支持AV1硬件编解码、H.266/VVC视频硬解码。

其中VVC,一如之前从H.264到H.265/HEVC,可以在保持同等画质的前提下继续降低码率、文件体积,并支持自适应分辨率码率,更加灵活,还支持屏幕内容编码流(SCC)、360度全景码流。

显示引擎支持HDMI 2.1、DP 2.1、eDP 1.5,最多三个屏幕,其中eDP 1.5自然是配合笔记本自带屏幕,可以更好地适应屏幕自刷新以进一步节能,使用提前传输进行选择性的显示内容更新。

【NPU AI引擎】

NPU AI单元别看是第二次独立提出,但是按照Intel的技术演进,号称已经是4.0版本(背刺隔壁第三代),在设计理念上增加大小以适应下一代AI负载,提升频率和能效,并针对现代AI进行优化以高效地运行新的大语言模型和Transformer。

NPU 4配备了6个神经计算引擎、12个增强的SHAVE DSP、能效优化的MAC阵列,带来了2倍的带宽和48TOPS的算力,峰值性能提升可多达4倍。

相比于AMD Strix Point也就是锐龙AI 300系列的第三代NPU,算力略逊了一筹,后者达到了50TOPS。

Lunar Lake处理器的整体算力将达到120TOPS,其中NPU适用于持续性的AI负载,能效非常高,GPU适合高性能的游戏和创作AI应用,CPU算力只有5TOPS,适合轻型、通用型AI负载。

AMD尚未公布锐龙AI 300系列中CPU、GPU的算力,整体孰强孰弱还有待观察。

【平台连接】

IO与连接方面,Lunar Lake提供最多四条PCIe 5.0、四条PCIe 4.0总线通道,可以连接两块SSD,或者一块SSD和其他扩展。

无线升级到了Wi-Fi 7(5G Gig),最高速率达5.8Gbps,还有蓝牙5.4。

当然更少不了Intel独家的雷电4,带宽40Gbps,最多三个连接,而且支持新的雷电共享技术,可以在不同PC之间快捷分享、传输、控制。

【产品上市】

这就是Lunar Lake在架构设计上的主要情况了,可以说进步是方方面面的,就看最终的实际性能表现了。

Intel已经向厂商和开发者提供一个迷你机形式的开发套件,但没有公布具体情况,而且Intel也不再做NUC迷你机了,殊为可惜。

今年第三季度开始,我们将看到超过20家厂商的超过80款Lunar Lake笔记本陆续上市。

AI PC应用也在迅速丰富起立,Intel平台上已有100多家厂商的300多个AI软件功能,优化的大模型也已超过500个。

Intel预计到2027年,将近60%的新PC,都会是AI PC。

Meteor Lake第一代酷睿已经出货800多万颗,产品设计超过230款,遍布48个国家和地区。

Lunar Lake之后,今年晚些时候,我们将看到高性能的Arrow Lake,同样基于Lion Cove、Skymont混合架构,但更加强大,并首次采用Intel 20A制造工艺。

明年,我们还会看到下一代Panther Lake,再往后则是Nova Lake……

Windows电脑
Windows最新版系统下载和动态,电脑爱好者之家。关注加交流群
 最新文章