Hot Chips 2024 | Lunar Lake:英特尔下一代AI PC处理器

文摘   科技   2024-10-10 08:02   四川  

引言

本文探讨英特尔的Lunar Lake架构。Lunar Lake是专为下一代AI PC设计的系统级芯片(SoC),集成了多项突破性技术,旨在提供卓越的核心性能、无与伦比的AI计算能力和显著提升的图形性能,同时实现了x86架构的突破性能效比[1]。


图1:展示了Lunar Lake架构的主要改进,包括SoC功耗降低40%,相同单线程性能下功耗减半,图形性能提升1.5倍,以及AI计算能力达到120 TOPS(每秒万亿次操作)。


先进封装和内存集成

Lunar Lake架构的一项重大创新是采用了英特尔的Foveros 3D封装技术。


图2:Lunar Lake架构的Foveros封装结构,显示了计算芯片、平台控制器芯片和内存的堆叠方式。


Lunar Lake引入了开创性功能:将内存直接集成到封装中。这是英特尔的首次尝试,带来了多项优势:

  • 支持LPDDR5x DRAM

  • 最高32GB容量,支持双列

  • 每芯片最高8.5GT/s传输速率

  • 支持16位x4通道

  • 物理层功耗降低40%

  • 节省高达250平方毫米的面积


架构框架

Lunar Lake架构主要由两个组件构成:计算芯片和平台控制器芯片。


图3:Lunar Lake架构框架,突出显示了计算芯片和平台控制器芯片。


计算芯片

计算芯片是使用先进制程制造的单片式芯片。具有经过增强的SoC结构,旨在提高性能效率。


计算芯片的主要组件包括:

  • 新型片上网络(NoC),具有增强的缓存功能

  • 优化的内存延迟

  • GPU、NPU(神经网络处理单元)和IPU(图像处理单元)

  • 性能核心(P核心)和高效核心(E核心)

  • 媒体和显示引擎


图4:展示了计算芯片的结构,描绘了各种组件的排列,如核心、GPU、NPU和内存接口。


内存侧缓存

Lunar Lake引入了内存侧缓存,有助于减少DRAM访问和功耗,同时为其他引擎提高延迟和带宽性能。这个8MB物理缓存还为I/O引擎提供缓存功能。


增强型E核心集群

Lunar Lake的高效核心(E核心)集群得到了显著改进:

  • L2缓存增加到4MB

  • 采用先进制程,提高频率和功耗特性

  • 内存侧缓存改善功耗和延迟

  • 相比上一代,核心数量翻倍

  • 独立供电

供电和功耗管理

Lunar Lake具有升级的供电和功耗管理系统,对于优化SoC功耗利用和性能效率非常重要。这包括:

  1. 采用4个电源管理集成电路(PMIC)进行供电

  2. 更多电源轨

  3. 增强的遥测功能(IMON)

  4. 动态电压ID

  5. 升级的功耗管理,英特尔线程调度器专注于效率

  6. 改进的"睡眠"状态,提高功耗和延迟性能

  7. 针对不同负载类型优化的功率平衡器

  8. 基于机器学习的工作负载分类和频率控制

性能核心:狮湾(Lion Cove)

Lunar Lake引入了新的性能核心架构,名为狮湾。狮湾的主要目标是优化客户端SoC的单线程性能功耗比和性能面积比。


狮湾(Lion Cove)的主要特点包括:

  • 针对PPA(性能、功耗和面积)优化

  • 更精细的时钟间隔

  • 分离的乱序执行引擎

  • 更宽的调度能力

  • 增强的内存子系统

  • 基于AI的功耗管理


图5:比较了狮湾(Lion Cove)P核心与上一代红木湾(Redwood Cove)核心的性能,显示在IPC(每时钟周期指令数)和功耗效率方面有显著改进。

高效核心:天际(Skymont)

与狮湾P核心相辅相成的是新的天际E核心。天际旨在扩大低功耗岛的范围和提高多线程性能,同时将向量和AI吞吐量翻倍。


天际(Skymont)的主要特点包括:

  • 增强的预测能力

  • 96B并行取指

  • 更宽的分配和退休单元

  • 26个分发端口

  • 4MB共享L2缓存

  • 通过4x 128位浮点和SIMD向量单元实现2倍AI吞吐量


图6:展示了天际(Skymont)E核心集群相比上一代的功耗和性能改进,显示性能提升最高可达2倍,或在相同性能下功耗降低至1/3。

下一代Xe² GPU

Lunar Lake采用了新的Xe² GPU架构,在图形性能方面实现了重大进展。

主要改进包括:

  • 新的向量引擎,优化效率和AI吞吐量

  • 新的Xe矩阵扩展(XMX)引擎,INT8运算能力为2048 OPS/时钟,FP16运算能力为4096 OPS/时钟

  • 8MB L2缓存

  • 增强的Xe超级采样(XeSS)内核

  • 8个第二代Xe核心

  • 更大的光线追踪单元

  • AI性能高达67 TOPS


图7:显示了新一代Xe² GPU相比流星湖的性能改进,在相似功耗水平下性能提升高达1.5倍。

下一代NPU 4

Lunar Lake集成了新的神经网络处理单元(NPU 4),旨在加速AI工作负载。NPU 4的目标是提高时钟速度、效率和规模,以处理下一代AI任务,包括大型语言模型(LLM)和转换器。


NPU 4的主要特点包括:

  • 效率优化的MAC(乘加)阵列

  • 原生激活函数和数据转换支持

  • 增强的SHAVE DSP,用于加速LLM和转换器操作

  • 用于LLM的嵌入式标记化

  • 相比上一代带宽翻倍

  • 12个神经计算引擎

  • AI性能高达48 TOPS


图8:比较了NPU 4与上一代NPU 3的性能和效率,显示在相同功耗下性能提升2倍,峰值性能提升高达4倍。


连接性

Lunar Lake将先进的连接功能直接集成到封装中:

  • 英特尔Wi-Fi 7(5 Gig),速度高达5.8Gb/s

  • 英特尔蓝牙5.4,提供高效和高清音频

  • Thunderbolt 4,速度达40Gb/s

  • 支持PCIe Gen 5.0和Gen 4.0

  • 支持USB 3.0和2.0


图9:突出显示了Lunar Lake集成的连接功能,包括Wi-Fi 7、蓝牙5.4、Thunderbolt 4和PCIe支持。

结论

英特尔的Lunar Lake架构代表了x86处理器在AI PC领域发展的重要一步。凭借在功耗效率、P核心和E核心性能提升、先进GPU能力和专用AI加速方面的关注,Lunar Lake有望在生产力、游戏和AI驱动的应用方面为用户提供卓越体验。


封装内存集成、先进的功耗管理技术和尖端连接选项进一步巩固了Lunar Lake作为面向未来的架构地位,旨在满足下一代计算设备的需求。

参考文献

[1] Gihon, "Lunar Lake Architecture Session," presented at Hot Chips 2024, 2024.

 

- END -



软件申请
我们欢迎化合物/硅基光电子芯片的研究人员和工程师申请体验免费版PIC Studio软件。无论是研究还是商业应用,PIC Studio都可提升您的工作效能。

点击左下角"阅读原文"马上申请


欢迎转载


转载请注明出处,请勿修改内容和删除作者信息!




关注我们



                      




关于我们:

深圳逍遥科技有限公司(Latitude Design Automation Inc.)是一家专注于半导体芯片设计自动化(EDA)的高科技软件公司。我们自主开发特色工艺芯片设计和仿真软件,提供成熟的设计解决方案如PIC Studio、MEMS Studio和Meta Studio,分别针对光电芯片、微机电系统、超透镜的设计与仿真。我们提供特色工艺的半导体芯片集成电路版图、IP和PDK工程服务,广泛服务于光通讯、光计算、光量子通信和微纳光子器件领域的头部客户。逍遥科技与国内外晶圆代工厂及硅光/MEMS中试线合作,推动特色工艺半导体产业链发展,致力于为客户提供前沿技术与服务。


http://www.latitudeda.com/

(点击上方名片关注我们,发现更多精彩内容)







逍遥设计自动化
分享特色工艺半导体(PIC/Power/MEMS)设计自动化解决方案及行业技术资讯,与广大业界朋友、专家共同交流!
 最新文章