小芯片堆叠，英特尔和AMD的不同做法

科技 2024-10-25 16:50 上海

点击蓝字关注我们

关注公众号，点击公众号主页右上角“ · · · ”，设置星标，实时关注半导体材料与工艺设备最新资讯

2017 年，AMD 推出代号为 Naples 的第一代 Epyc 处理器后不久，英特尔就打趣说，其竞争对手为了保持相关性，已经沦落到只能将一堆台式机芯片粘在一起的地步。

不幸的是，对于英特尔来说，这句评论已经过时了，短短几年后，这家 x86 巨头就开始自己寻找粘合剂了。

英特尔的Xeon 6处理器于今年开始分阶段推出，这是其第三代多芯片 Xeon 处理器，也是其首款采用与AMD自己的异构芯片架构类似的数据中心芯片。

虽然英特尔最终认识到了AMD小芯片战略的明智之处，但其方法却截然不同。

突破标线限制

快速回顾一下为什么这么多 CPU 设计正在远离单片架构，这主要归结为两个因素：掩模版限制和产量。

一般而言，在工艺技术没有重大改进的情况下，更多内核必然意味着更多硅片。然而，芯片实际尺寸存在实际限制 - 我们称之为光罩极限 - 大约为 800 平方毫米。一旦达到极限，继续扩展计算的唯一方法就是使用更多芯片。

我们现在看到许多产品（不仅仅是 CPU）都采用了这种技术，它们将两个大型芯片塞进一个封装中。Gaudi 3、Nvidia的Blackwell和英特尔的Emerald Rapids Xeons 只是其中几个例子。

多芯片的问题在于，它们之间的桥梁往往是带宽方面的瓶颈，并且有可能引入额外的延迟。这通常不像将工作负载分散到多个插槽那么糟糕，但这也是一些芯片设计师倾向于使用较少数量的较大芯片来扩展计算的原因之一。

然而，制造更大的芯片确实成本高昂，因为芯片越大，缺陷率就越高。这使得使用大量较小的芯片成为一个有吸引力的提议，并解释了为什么AMD的设计使用了如此多的芯片——最新的Epycs芯片多达 17 个。

了解了这些基础知识后，让我们深入探讨一下英特尔和AMD最新Xeons和Epyc处理器的不同设计理念。

AMD的做法

我们将从AMD的第五代Epyc Turin处理器开始。具体来说，我们正在研究该芯片的 128 核 Zen 5 版本，它具有 16 个4nm核心复合芯片 (CCD)，这些芯片围绕着基于台积电 6nm 工艺技术制造的单个 I/O 芯片 (IOD)。

AMD 最新的Epycs配备多达 16 个计算芯片

如果这听起来很熟悉，那是因为 AMD 在其第二代 Epyc 处理器上使用了相同的基本公式。作为参考，第一代Epyc缺乏独特的 I/O 芯片。

正如我们前面提到的，使用大量较小的计算芯片意味着 AMD 可以获得更高的产量，但这也意味着他们可以在 Ryzen 和 Epyc 处理器之间共享硅片。

如果这些芯片看起来很熟悉，那是因为 AMD 的 Epyc 和 Ryzen 处理器实际上共享相同的计算芯片。

此外，使用八核或十六核 CCD（每个 CCD 具有 32 MB 的 L3 缓存），AMD 在按缓存和内存比例扩展核心数量时可以获得额外的灵活性。

例如，如果您想要一个具有 16 个内核的 Epyc（由于许可限制，这是 HPC 工作负载的常见 SKU），最明显的实现方法是使用两个八核 CCD，两个 CCD 之间有 64 MB 的 L3 缓存。但是，您也可以使用 16 个 CCD，每个 CCD 只有一个内核处于活动状态，但板载缓存为 512 MB。这听起来可能很疯狂，但这两种芯片确实存在。

AMD 的第五代Epycs遵循熟悉的模式，即16个计算芯片围绕一个中央 I/O 芯片。

另一方面，I/O 芯片负责除计算之外的几乎所有功能，包括内存、安全性、PCIe、CXL 和其他 I/O（如 SATA），并且还充当芯片 CCD 与其他插槽之间通信的骨干。

以下是对 AMD Epyc Turin I/O 芯片的详细介绍。

将内存控制器放置在I/O芯片上确实有一些优点和缺点。从好的方面来说，这意味着内存带宽在很大程度上独立于核心数量而扩展。缺点是某些工作负载的内存和缓存访问延迟可能会更高。我们强调“可能”，因为这种事情高度依赖于工作负载。

英特尔Xeon的chiplet 之旅

谈到英特尔，这家芯片制造商对多芯片硅片的处理方式与 AMD 有很大不同。虽然现代 Xeon 处理器采用具有不同计算和 I/O 芯片的异构架构，但情况并非总是如此。

英特尔首款多芯片 Xeon 处理器，代号为Sapphire Rapids，采用一块单片、中等核心数芯片或四块极端核心数芯片，每块芯片都有自己的内存控制器和板载 I/O。Emerald Rapids采用了类似的模式，但为芯片核心数较高的 SKU 选择了两块更大的芯片。

正如您在 Sapphire 和 Emerald Rapids 之间看到的，英特尔从四个中型芯片转换为一对近乎网状的有限芯片。

所有这一切都随着 Xeon 6 的推出而发生了改变，英特尔将I /O、UPI 链接和加速器移至基于英特尔 7 工艺节点制造的一对芯片上，这对芯片位于基于英特尔 3 制造的中心的一到三个计算芯片之间。

出于稍后会讲到的原因，我们将主要关注英特尔更主流的 Granite Rapids Xeon 6 处理器，而不是其多核 Sierra Forest 部件。

看看英特尔的计算芯片，我们就能发现它与 AMD 的第一个重大区别。每个计算模块至少有 43 个板载核心，可根据 SKU 开启或关闭融合。这意味着英特尔实现 128 个核心所需的芯片数量比 AMD 少得多，但由于面积较大，因此成品率可能会更低。

根据 SKU，Granite Rapids 使用夹在一对 I/O 芯片之间的一到三个计算芯片。

除了增加内核之外，英特尔还选择将这些芯片的内存控制器放在计算芯片上，每个芯片支持 4 个通道。理论上，这应该可以降低访问延迟，但这也意味着，如果你想要所有 12 个内存通道，就需要填充所有 3 个芯片。

对于我们上个月看过的 6900P 系列部件，你不必担心这一点，因为每个 SKU 都配有三个计算芯片。然而，这意味着 72 核版本只利用了封装中一小部分硅片。同样，我们之前讨论过的 16 核 HPC 中心 Epyc 也是如此。

另一方面，英特尔将于明年初推出的 6700P 系列部件将配备一个或两个计算芯片，具体取决于所需的内存带宽和核心数量，这意味着内存通道在高端将限制为 8 个，在板载单个计算芯片的配置中可能只有 4 个。我们目前还不清楚 HCC 和 LCC 芯片上的内存配置，因此英特尔有可能增强了这些部件上的内存控制器。

与 AMD 的 Epyc 一样，英特尔的 Xeon 现在采用带有计算和 I/O 芯片的异构芯片架构。

英特尔的 I/O 芯片也相当薄，并包含 PCIe、CXL 和 UPI 链路组合，用于与存储、外围设备和其他插槽进行通信。除此之外，我们还发现了许多用于直接流 (DSA)、内存分析 (IAA)、加密/解密 (QAT) 和负载平衡的加速器。

我们得知，在 I/O 芯片上放置加速器的部分原因是为了让它们更靠近进出芯片的数据。

我们接下来要去哪里？

从表面上看，英特尔的下一代多核处理器代号为 Clearwater Forest，预计将于明年上半年推出，其型号与 Granite Rapids 类似，具有两个 I/O 模块和三个计算模块。

它可能看起来像缩小版的 Granite Rapids，但显然那只是隐藏着更多芯片的结构硅。

然而，外表是会骗人的。据我们了解，这三个计算芯片实际上只是隐藏着许多较小计算芯片的结构硅片，而这些较小的计算芯片本身位于有源硅片中介层之上。

根据英特尔今年早些时候展示的效果图，Clearwater Forest 每个封装最多可使用 12 个计算芯片。使用硅中介层绝不是新鲜事，它提供了许多好处，包括芯片间带宽更高、延迟比有机基板中通常看到的更低。这与英特尔核心数最高的 Sierra Forest 部件上的一对 144 核计算芯片大不相同。

如果英特尔今年早些时候发布的渲染图有任何可参考之处，那么 Clearwater Forest 隐藏的芯片数量要比 Granite Rapids 多得多

当然，讨论 Clearwater 森林将使用的技术的效果图并不意味着明年到达时我们将会得到完全相同的技术。

也许更大的问题是 AMD 下一步将把其小芯片架构带向何方。看看 AMD 的 128 核 Turin 处理器，封装上没有太多空间容纳更多硅片，但 House of Zen 仍有一些选择。

首先，AMD 可以选择更大的封装，为额外的芯片腾出空间。或者，该芯片制造商也可以将更多内核封装到更小的芯片上。然而，我们怀疑 AMD 的第六代 Epycs 最终可能看起来更像其 Instinct MI300 系列加速器。

MI300A 将 24 个 Zen 4 核心、6 个 CDNA 3 GPU 芯片和 128GB HBM3 内存整合到一个封装中，旨在满足 HPC 工作负载的需求

您可能还记得，与 MI300X GPU 一起推出的还有一款 APU，它将芯片的两个 CDNA3 模块换成了三个 CCD，中间有 24 个 Zen 4 核心。这些计算模块堆叠在四个 I/O 芯片上，并连接到一组八个 HBM3 模块。

现在，这只是猜测，但不难想象 AMD 会做类似的事情，将所有内存和 GPU 芯片换成额外的 CCD。这样的设计可能也会受益于更高的带宽和更低的芯片间通信延迟。

这是否真的会实现，只有时间才能证明。我们预计AMD的第6 代Epycs 将于 2026 年底上市。

来源：半导体行业观察

END

【免责声明】文章为作者独立观点，不代表半导体材料与工艺设备立场。如因作品内容、版权等存在问题，请于本文刊发30日内联系半导体材料与工艺设备进行删除或洽谈版权使用事宜。

http://mp.weixin.qq.com/s?__biz=MzkzODE1NzE1MQ==&mid=2247576951&idx=2&sn=c24b423039ed1b8b80681337cc205c41

半导体材料与工艺设备

专注于半导体材料、设备及工艺技术的前沿科普资讯平台。聚焦硅基材料、宽禁带半导体、有机半导体等研究领域，从产业链上游发力纵向观察相关行业应用，传递半导体先进制造技术和市场动态。

最新文章

ST官宣：40nm MCU让华虹代工！

80家！2024年半导体新建项目汇总（部分）

光刻胶：半导体高壁垒核心材料

有关半导体方面的福利来啦~

曾估值500亿！深圳中院裁定：柔宇科技破产！

产值百亿！苏州通富超威先进封测新基地，竣工

光刻机：产业政策持续加码，国产光刻机任重道远

有关半导体方面的福利来啦~

比亚迪自研芯片曝光！

特朗普明年回归白宫，半导体设备市场将进入“寒冬”？

一文了解晶圆级封装中的垂直互连结构

涨疯了！芯片大厂逆天改命

330亿！北京新建12寸晶圆厂！

混合键合技术在三维堆叠封装中的研究进展

英特尔裁员几百人，员工转去英伟达加薪33%！

一家晶圆厂，改变了一座城

第三代半导体：碳化硅市场及定价剖析

突发！台积电被起诉！

特朗普正式任命马斯克

半导体：45页PPT详解台积电先进制程规划及相关供应链

芯片设备，巨头预警

华为正式官宣！核心供应商名单

浅谈光刻胶涂覆工艺

继台积电之后，传三星也已对华暂停供应7nm及以下制程

美国“实体清单”，已列800家中企！(附名单)

玻璃基板时代到来，TGV技术引领先进封装

7nm之后，台积电，2nm技术再管制！

2024年半导体行业：周期性低谷后的复苏与国产化机遇

功率半导体IGBT/SiC模块厂家分布格局（附名单）

英国强制中国企业，出售芯片公司

高功率IGBT模块如何散热？

特朗普政策下的半导体产业变局：如何适应与应对？

小鹏：新一代电驱亮相，SiC用量下降60%，输出功率提升10%

三星3nm良率低于20%！

特朗普宣布胜选！芯片行业变数剧增！

三星变卖芯片工厂设备！

先进封装争夺战：混合键合成“芯”宠

台湾电子大厂裁员50%！芯片巨头撤资离场！

iPhone 16的芯片价格曝光

中国光刻胶，离日本还有多大差距？

传台积电3nm制程和CoWoS封装明年涨价

1200V GaN单片功率集成IC

太卷！国内芯片公司突发，解散MCU团队！！！

EUV光刻机，太耗电了，让人担忧

用于扇出型晶圆级封装的紫外线工艺

被捕韩国间谍曾在多家中国芯片厂工作

美国芯片限制升级！

这类晶圆厂，不被看好

台积电2nm，如期量产

10万片/月！千亿晶圆厂项目，年底动工！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉