Intel最新性能核Lion Cove微架构设计

科技 2024-11-14 16:01 江苏

导言

相比较AMD，Intel的微架构资料相对较少，软件优化手册也没看出太多东西，以前对Intel的微架构关注不多，所以也不清楚其进步性。尽管有分析说，Intel的本代桌面端升级并不明显，但出于对技术的研究，亦安还是收集一些资料分享。

概述

今年Intel发布的微架构叫Lunar Lake，其P核（性能核）代号是Lion Cove，本文主要关注Lion Cove。相比较前代的微架构，本代改变很大，至少从技术上讲是的，可能出于AI的原因，这几年各家CPU的微架构变化都很大。

和前代相比，Lion的发射宽度和Decode升级到8，这也是当前各家旗舰CPU的主流参数。预测器的L0 BTB由前代的128entry升级到256entry，覆盖的指令范围变得更大，但是L1和L2的BTB并没有作容量上的升级，对于方向预测器亦安没有找到相关的资料。

Micro-Op Cache由4096entry升级到5250entry，相比较AMD的Zen5的6K略低。有意思的是，对于DCache在传统的L1和L2之间插入了一级192KB的Cache，这是一个很有趣的设计，本文将48KB的Cache称为L0，192KB的Cache称为L1。L2的Cache由前代的2MB的大小升级为最高3MB，目前主流的旗舰CPU是2MB大小。

MMU

对于MMU的考量，Zen5和Lion的设计可以说天差地别，Lion的L1 TLB是Load和Store分开的，而Zen5是全相联的，这点设计我觉得没什么奇怪的，只要能接受延迟面积的因素，L1 TLB怎么设计都有道理。但同样是X86架构，AMD的L2 TLB是2048entry+1024entry+4096entry，而intel则是1024entry+1024entry，常规的聚合类的技术大家都是有的，但参数上居然有如此巨大的差距？AMD的巨大容量可以理解为它采用了非常激进的预取来掩盖页面翻译的延迟，但从intel的L1设计看，LS常用的页面应该是4KB和2MB，AMD给1G的页面单独给出了1024entry巨大的TLB还是挺奇怪的，只能理解为Zen5想压缩L2的延迟以及它可能测试了大量的未来可能需要的AI应用？不管怎么说，intel的MMU设计还是属于当前各家的主流设计范围内的，细节虽然不清楚，但MMU也不会太出花活。

DCache

从公开的资料看，此处的改变属于比较大的（执行单元和BPU没看到更多资料），在L0和L2之间插入了一个大小为192KB的L1 Cache（原本前代的L1 Cache对应本代的L0 Cache，只是个名字，也可以称为L1.5）。这种设计似乎脱离了各个厂商的主流设计L1/L2/L3，这就涉及到那个经典的问题“为什么Cache需要分级？应该分多少级呢？分级是怎么确定的？”。目前主流的厂商的CPU L2容量是2MB，而Lion的L2容量“最高到3MB”，我们知道Cache容量越大延迟越高，就设计水平以及使用的工艺都差不多的情况下，Intel应该很难使用3MB的L2的情况下将延迟压到和其它厂商一致，所以这个所谓L1（192KB）的Cache应该是了掩盖L2大容量带来的延迟而作的设计平衡。当然增加带宽也是可能的原因。

分支预测器

从Spec2K17分支预测的测试结果看，Lion和前一代相比没有太多进步，甚至有的方面有退步，而相比较Zen5综合似乎稍微弱一点，因为没有看到比较多的预测器参考资料，不好评价，但2taken/cycle这些都是有的，至于具体的算法没有找到资料。使用3级的BTB，资源大小似乎和前代没有变化，预测方向的算法不清楚，按照行业的主流设计应该还是Tage，不清楚具体的微架构设计与前代相比变化多少。

取指和解码

ICache是16路的64KB大小，取指带宽是128Byte/Cycle，Mop-Cache的带宽是12条指令，容量从4096增加到5250。decode是当前典型大核具有的8宽度，并且每个解码槽都可以为单线程提供服务。

总结

Intel的微架构第一次看，资料比AMD少，所以还有不少模块没有写。

温馨提示：

因最近微信公众平台推送规则改变，很多读者反馈没有及时看到更新的文章。根据最新规则，建议多点击“推荐阅读、分享、收藏”等，成为常读用户。

推荐阅读：

请点下【在看】给小编加鸡腿

http://mp.weixin.qq.com/s?__biz=MjM5NDQ0NjM5Mg==&mid=2650592330&idx=7&sn=1a3b57c8055b942fcf3ccc7bcdc11e18

21ic电子网

即时传播电子科技信息，汇聚业界精英精彩视点。

最新文章

传小米自研3nm SoC明年发布！

精准高效丨基于APM32F103xB的磁电式绝对值编码器参考方案

美国《芯片法案》再确定两笔补贴，合计6000万美元！

传美国HBM禁令12月6月发布，明年1月生效！

音箱的一个声道没声音了，3分钟快速排查！

一文看懂大数据的40年发展史

一道体现FPGA硬件思维的面试题

强的飞起？华为今日发布会看点揭秘

真雷厂长！小米新智能工厂正式动工

全新发布｜COMSOL Multiphysics® 6.3 版本

突发！国产射频芯片巨头大裁员，研发砍40%

很好奇，为什么MOS内会有体二极管，它是怎么来的？又有什么用？

【拆解】华为随行WiFi：国产芯大胆往前跑

AC-DC 转换器中的过压保护 (OVP)

知名巨头宣布全球大裁员！5千人失业，1万人降薪…

欠薪273万，半导体设备商被约谈！

曝尹志尧在上海又成立一家芯片公司！

Intel二代显卡真身意外流出：确认一大惊喜！

微信重大更新！小存储手机有救了？

为什么优秀的芯片公司加班更多？

芯片流片失败都有哪些原因？

蔚来破大防：已报警！

黄仁勋被授予博士，最新表态！

用3个IO口控制6个LED灯，怎么做到的？查理复用！

RTOS中协程与任务的区别

突发！美国计划再对200家中企“下黑手”

小米全新SUV终于来了，不到25万你买吗？

极海G32A1465汽车通用MCU评估板测评活动，快来报名吧~

MCU里硬件CRC对数据长度对齐有要求？

系统bug？小米SU7集体撞墙！

华为这台新机，又要捅破天

MCU优选第5期：创“芯”设计：STM32WB09KE开发板测评合集

电信巨头宣布：关停NB-IoT网络！

为什么要在光耦输入端并一个电阻？怎么理解CTR？

写给小白的大模型入门科普

从微架构设计看ARM发展之路

3年烧光近百亿，折叠屏手机“鼻祖”宣告破产！

说碳化硅高富帅是有原因的！

ST官宣：40nm MCU让华虹代工！

苹果电视来了！就这？

印度初创公司在72小时内打印出火箭发动机

LDO电源PCB设计要点

一文彻底理解零拷贝技术：zero-copy

原作者回击！知名博主“何同学”被曝盗用开源项目

极海正式推出自研AUTOSAR MCAL软件包和配置工具，加速汽车创新应用量产落地

创新高！雷军交出史上最强业绩

一个好问题：电压跟随器放大倍数是1，那还不如不放大？省个元件多好

软件无线电(SDR)的架构及相关术语

RF 系统中的调制技术简介

硬件工程师接单时，如何合理报价？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉