首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

喜迎双11之月亮湖 -- 热辣薯条(Hot Chips 2024)

文摘 2024-11-10 11:20 美国

引言 — Hot Chips 2024上英特尔关于月亮湖 Lunar Lake的介绍。这是一款英特尔最新的适用于轻薄本的处理器，旨在功耗及AI加速性能上获得极大的提升。写完这篇文章后的最大感受就是。。。好想换！今年双十一的钱包又得瘦身。

熟悉CPU设计的朋友可能知道，一般来说新技术都会在Client端产品上首先实现，我们也可以借此来猜测一下哪些技术可能会被引入到下一代的数据中心CPU中。

本文主要分为三个部分：

1. 水果味儿的内存

2. “一骑”绝尘的P核

3. 全面发展的E核

4. Last but not least - AI

原材料已上传至知识星球：IT奶爸-知识星球

开篇雷击：

内存条没了，功耗降了，续航增加了，xPU加量了，制程全部台积电了。

更具体一点的说明：

P-core取消超线程，IPC和能效两位数提升（最高睿频5.1GHz）
E-core性能加强，IPC超过前代P-core
Xe核显图形性能提高1.5倍
AI算力大幅提升，xPU整体算力120TOPs
低功耗设计，续航能力提升40%，最长20小时续航（比我手机耐用了）
芯片集成内存
制程：控制模块依然采用6nm制程（台积电N6工艺），但CPU+GPU+NPU的计算模块则采用了台积电的N3B工艺。

I. 水果味儿的内存

这是第一代Intel的CPU将内存集成到芯片的package内部，这就颇有点苹果的感觉了。

支持32GB的LRDDR5x 8533，内存带宽达到8.5GT/s。

看似芯片设计的一小步，却是X86 CPU生态的一大步，

从能效来说：既节省了面积（电路板面积减小250平方毫米），降低了功耗，缩短了数据传输的物理距离。

从设计来说：同时也将主板设计上一组最大的并行走线，从设计中“offload”到芯片内部，让PC主板设计真正成为串行走线的连连看。

从生态来说：对于内存厂商，ODM厂商的盈利模式和供应链也产生了很大的变化，现在内存价格在整机成本中占比很高。

Lunar Lake有四个E核和四个P核，这种组合又有点苹果。

相比Meteor Lake，总的核数变少了，有利于功耗控制。

与 Meteor Lake 或所有过去几代英特尔混合处理器不同，P-cores 和 E-cores 不共享 L3 缓存或位于 ringbus 结构上。它们确实是芯片内部高带宽连接的一部分。

MSC缓存最大容量8MB，独立于二三级缓存，主要用于IO引擎的缓存配合，可以减少对系统内存的依赖，提升延迟与带宽。

不仅可以给GPU，NPU以及CPU核心提供进一步缓存，更重要的是减少了SoC对于内存访问的需求，进一步降低了DRAM功耗。

此外，Lunar Lake也增强了功耗控制算法以及可以用更多的PMIC来实现功耗控制。

II. "一骑"绝尘的P核

这四个 P 核是小型环形总线网络的一部分，沿四个 P 核有ring stop，以及四个 P 核之间共享的 12 MB L3 缓存。

另一方面，E-core 集群是一个“岛”，很像 Meteor Lake 的低功耗岛核。集群的 4 MB L2 缓存用作四个 Skymont E-core 的最后一级缓存。

这种设计可以让更多任务持续停留在E核，让P核更长的时间处于休眠状态。

四个 Lion Cove P 核不再支持超线程技术。

移除 HTT 和相关硬件后，在给定节点上，Lion Cove 可节省 15% 的芯片面积，同时提高性能/功耗 5%，以及 15% 的性能/功率/面积增益。

IPC，Lion Cove比上一代的Meteor Lake的Redwood Cove提升14%。

前端解码器数量从6宽提升到了8宽。

显著增强的分支预测， 8x

微指令队列加强

执行端口分开了整数区域和浮点区域

乱序窗口从512增加到576

IPC的提升来自于架构的演进，更宽的架构可以带来更高的吞吐，而更深的架构可以带来更高的并行。

它共有多达18个执行端口，吞吐量和效率更高，预测宽度也提升了8倍。

缓存系统大大增强，每核心一级数据缓存48KB，一级指令缓存192KB，二级缓存最多达2.5MB(Arrow Lake上最多3MB)，同时所有核心共享最多12MB三级缓存。

频率控制也更加精细，间隔从100MHz大大缩小到16.7MHz，效果自然是能效更高。

Lion Cove由于核心性能的大幅提升，以及芯片面积的缩小，选择移除了超线程，在保持多核性能的前提下，可以实现更好的调度和能耗表现。

II. 全面发展的E核

E核Skymont也是惊喜多多，

对比上一代Crestmont，整数提升38%，浮点提升68%，综合有50%的IPC提升。

此外，

解码器从之前的2组3宽，变成了3组3宽

乱序执行从6发射变成了8发射

显著增强了后端端口的浮点能力，提供4*128的吞吐

E核Skymont,缓存机制与P核不同，每个核心有32KB一级数据缓存，所有核心共享最多4MB二级缓存，没有自己的三级缓存。

单线程性能可以在1/3的功耗下，平均提升多达68％，最高可接近翻倍。

多线程性能方面，四个E核组成一个集群，相比于Meteor Lake上的双核集群，只需要1/3的功耗，就能带来2.9倍的性能，单纯比较性能更是最高可以带来惊人的4倍提升。

P、E核组合，前者峰值性能提升超过50％，后者能效提升20-80％，可以更灵活地适应对高性能、低功耗等不同应用场景的需求，覆盖各种能效范围。

III. Last but not least - AI

GPU部分使用了Intel最新一代的Xe2架构（Battlemage）

搭载了8个Xe2-LP核心，等效128EU和1024ALU，对比Meteor Lake提升约50%。

此外，在Xe2核心中，除了8个512bit SVE矢量单元以外，还有8个2048bit的矩阵XMX单元，至少带来四倍的深度学习AI加速能力。

NPU算力最高到48TOPS，完美满足了微软对于copilot PC的最低40TOPS的要求。

并且还有12个增强过的特殊处理单元（SHAVE DSPs），针对Transformers和Stable Diffusion之类的新AI应用做了针对性优化。

总结一下Lunar Lake的目标，处处开花，踩在我的换机要求上，踏着准确的节奏向我的钱包走来。

为感谢支持，已点赞/分享/赞赏10篇/次以上的朋友，请加微信，进入微信群。我将发放免费加入知识星球的链接。

IT奶爸-知识星球

高阅读量文章

实践是检验“专家”的唯一标准。一群认真执着的IT奶爸的学习和分享。

最新文章

聊一聊DDR（12）-DRAM的CS Training Mode(CSTM)

从Mooncake分离式大模型推理架构谈谈RDMA at Scale

聊一聊DDR（11）-DDR频率

液冷，网络，与整机柜 -- Intel IPDC 2024见闻

他山之石，集思广益 | IT奶爸文章奖励计划

英伟达，过热了么？

一文读懂 SFP家族

喜迎双11之月亮湖 -- 热辣薯条(Hot Chips 2024)

谷歌、康宁大超预期

Cerebras处理器架构细节

光计算互连（OCI）

AI 网络背景下 RDMA 的 Why， What & How 以及 Next

“E人”外卖小哥的“I人化”：Gaudi的RoCE优化实现

ETH-X项目及交换/计算节点结构散热设计介绍

近文小结与感谢 - 寄小读者

NVL机架的“中杯，大杯和特大杯”

热辣薯条(Hot Chips 2024)- 英特尔的至强D

RDMA与外卖小哥

英伟达在OCP，对于MGX机架的介绍

Load/Store over ETH乎？

先从一个基础的性能指标说起——CPU频率

CPU架构 -- Power

热辣薯条(Hot Chips 2024) - OpenAI的Scaling

热辣薯条(Hot Chips 2024) - 特斯拉的TTPoE

热辣薯条(Hot Chips 2024) - 博通的CPO

热辣薯条(Hot Chips 2024) - 英特尔的Gaudi

热辣薯条(Hot Chips 2024) - 英伟达的Blackwell

40+AI芯片/Chiplet/RISC-V企业已确认演讲！生成式AI时代最火AI芯片峰会9月举办

向左走，向右走 — 聊聊50亿美元的ZT收购

CPU架构 - CPU的各级缓存

NVL的硬件架构分析-（1）

Aurora Exascale Architecture（PPT）2024

暴力美学背后的细腻布局

Llama 3技术报告解读(1)- AI基础设施和并行策略

LLM推理需要什么样的硬件平台？（2）

LLM推理需要什么样的硬件平台？（1）

音乐，小说，与计算题 - 4： NVL72要出X86版本？！

再来谈谈大模型的分离式推理架构

Transformer架构详解文章与视频

H20跨入百万片俱乐部？

大模型的聚光灯照向以太网: ETH-X的scale up网络

大模型的聚光灯照向网络——当超节点遇上超节点

再谈谈三万亿的破绽

烈日下的绿色森林 —— 英特尔的能效核

暴力美学的show time —— 皮衣教主的Computex 2024 keynote

AI/ML中使用的集体操作（collectives），以太网卸载以及硬件实现

音乐，视频，与计算题 - 3

生成式AI的GPU网络 - 2

音乐，视频，与计算题 - 2

生成式AI的GPU网络

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉