烈日下的绿色森林 —— 英特尔的能效核

文摘   科技   2024-06-09 20:30   美国  

请关注公众号并设为星标,便于收到文章更新提示。

引言 — 言必称AI的时代,功率猛兽已经成为了如同烈日一样的常态。当我们谈及1000W的芯片,100KW的机柜这些耀眼的光芒时,也不要忘记,烈日之下的绿色森林

熟悉的朋友也许还记得,我去年针对Hotchip写过一篇文章:

热辣薯片:英特尔的激流与森林

刚刚过去的6月的第一周,是关于森林系列能效核密集的一周,既有6月6日的能效核发布会,又有Computex 2024的展示。今天这篇文章分为以下四个部分,来做介绍。

  • 文雅而响亮

  • 求同而存异

  • 分工而合作

  • 写在最后:Computex 2024 Show Time




I. 文雅而响亮


科技界著名博主Benshan Zhao曾经说过,起名字,既要文雅又要响亮。

6月6日刚刚发布的至强6,是第一款配备了能效核的数据中心处理器芯片,代号为Sierra Forest。文雅而响亮

  • Sierra在西班牙语中是山脉的意思,而Forest在英语中就是森林的意思。背靠郁郁葱葱的苍山之感。

  • 下一代能效核的代号为Clearwater Forest,Clearwater在英语中是清澈之水。远眺波光粼粼的洱海之境。


古语有之,仁者乐山智者乐水。成年人不做选择题,两者都要,既有苍山又有洱海,借用许巍的歌词:

阵阵晚风吹动着松涛, 吹响这风铃声如天籁, 站在这城市的寂静处, 让一切喧嚣走远

II. 求同而存异


既然是能效核(E-core的第一代数据中心处理器,那么主打的就是一个能效比。

与之相对的就是晚些时候会发布的性能核(P-core),代号为Granite Rapid,我愿称之为激流系列。

性能核和能效核追求的KPI不同,决定了两种不同的core的设计。


市场中常常与AMD的Genoa(Zen4)和Bergamo(Zen4C)做对比,然而两家的策略却有很大的差别

Bergamo采用了与Genoa同样的core,差别是减小了L3的大小并重新优化了布局,以支持更高的核心数量。

而能效核和性能核两者的区别是设计上的,在核心设计上为了更好的服务性能与能效两个指标,有着不同的设计。具体对比图如下,其中几点差别我列在下面:

  • Core架构

  • L2共享范围

  • 是否支持超线程

  • 是否支持AVX512,AMX

  • L1 Cache大小

  • 前端解码数量

  • 乱序执行引擎数量

  • 浮点计算能力

  • 是否支持MCR DIMM


性能方面,与第二代英特尔至强处理器相比,英特尔至强6能效核可提供4.2倍的机架性能提升和2.6倍的每瓦性能提升。

针对性能和核心密度,能效核和性能核也有不同的市场定位,如下图所示。

但是求同而存异,两者在Core设计上尽管有这么大的差异,但是:

  • 在IO die设计上实现了复用,以此达到成本的优化。

  • 在平台设计和软件适配上也实现了统一,以此达到客户一个平台设计支持两种核的目标。



III. 分工而合作


毛主席说:革命工作只有分工不同,没有高低贵贱之分。

Xeon 6的性能核针对的是 AI 工作负载,HPC,模拟仿真建模,以及其他任何类型的工作负载。在这些工作负载中,较强的核心更加重要。AI 是一种计算密集型工作负载,对于那些正在考虑使用预先训练的生成式 AI 模型,并使用自己的数据对其进行重新训练,以在其 CPU 集群中本地运行 AI 工作负载的企业来说,它是合适的选择。

由于能效核没有 AVX-512 矢量单元或 AMX 矩阵数学单元,它们在 AI 或 HPC 处理方面实际上无法发挥很大作用。视频流、媒体转码和其他类型的数据流则更加适合。

能效核适用于 Web 和横向扩展容器化微服务环境、网络、CDN网络、云服务等。

能效核和性能核针对不同的工作负载,可以参考下面的具体分工。

能效核和性能核,分别都有两档:6700和6900,主要的差别在于TDP的不同,和内存通道及PCIE数量的不同。



下面两张图,是Sierra Forest 6700系列对比之前的第五代至强CPU和第二代至强CPU的性能提升。可以看到Performance per Watt上,作为能效核的Sierra Forest提升更为明显。

下图为与第五代至强CPU的对比:

下图为与第二代至强CPU的对比:


IV. 写在最后


在Computex 2024上除了展示刚刚发布的森林系列的第一款Sierra Forest CPU,还有诸多支持这款CPU的服务器设计,来自不同的ODM和OEM厂商。

上图的右侧展示了一款来自于Pegatron的设计,是一个双子星的设计,在一个2U的机箱内支持两个独立的单路系统,主板符合OCP的DC-MHS标准,它们共享机箱和供电设计以达到成本优化设计。

如果您还记得我之前写过一篇双节点CXL内存池系统的概念设计(POC),如下,这个POC就是以这款设计来搭建的。

音乐,视频,与计算题 - 2

这个服务器设计也是一款针对云提供商的Product Concept,感兴趣的同学可以在Intel的RDC上下载到原理图和Layout,而它的代号也与本文一脉相承:Forest City,即森林城,一同构建:

烈日下的绿色森林


参考文献:

1. Nextplatform文章链接: 

https://www.nextplatform.com/2024/06/03/intel-brings-a-big-fork-to-a-server-cpu-knife-fight/




为感谢支持,已点赞/分享/赞赏10篇/次以上的朋友,请加微信,进入微信群。我将发放免费加入知识星球的链接。

IT奶爸-知识星球



高阅读量文章





IT奶爸
实践是检验“专家”的唯一标准。一群认真执着的IT奶爸的学习和分享。
 最新文章