Zen 5架构深度解析:锐龙9000为什么这么强?

文摘   2024-07-15 23:09   河北  

本篇文章为对Zen 5架构的深度解释,内容可能相对枯燥,如果希望了解产品信息的可以移步“AMD锐龙处理器大成之作:锐龙9000处理器细节解析”,如果对于Zen5架构的深度内容感兴趣的,咱们继续接着看。


AMD用“Huge leap”来形容Zen 5架构,意为Zen 5架构在历代Zen架构中的性能提升和架构进步也是可圈可点的。


Zen 5架构的改良有几个要素构成,其中包括:

  1. 全新的前端设计,更宽的执行窗口和重新设计的指令提取、译码、分发单元

  2. 全新的前端设计让Zen5架构可以在每个时钟周期执行更多指令

  3. 因为每个时钟周期可以执行更多指令,所以微操缓存和寄存器带宽也对应增大

  4. Zen 5架构有了完整的512-bit FPU执行模块,以提高运行AVX512/VNNI指令大语言模型的AI效率。


首先是前端部分,每一代Zen架构的前端部分都会改良分支预测结构,这代也不例外。AMD表示Zen5提高了分支预测的精确度和吞吐量以及降低延迟,并增大了指令缓存带宽优化了延迟,但没有具体提到是如何实现的。从目前已知信息看,Zen 5主要是继续提高流水线的微操缓存页目(BTB)以及增宽译码(Decode,4instructions x 2/cycle)、分发单元(Dispatch,8ops-wide)和微操缓存(Op Cache,12op/cycle)的操作指令数。


Zen 5的流水线有一个很关键的数字是“8”,比如译码(Decode)和分发单元(Dispatch)都是8-wide/cycle,而INT Rename(重命名寄存器)现在也是8-wide/cycle,这保持了流水线增宽的统一效率,与其相关的是Reorder Buffer(ROB重排序缓冲区)从原来的320个条目指令提高到了448个条目指令,提高了40%。增宽的流水线,让Zen5架构可以设计更多的ALU(算术逻辑单元)以及采用全新的unified ALU scheduler(统一调度器)。不要小看这两项设计的改变,这实际上是处理器非常重要的一环。首先是unified ALU scheduler(统一调度器)。AMD过去一直是以分布式调度器为主,即每个调度器会分别对接单独的执行端口,这样简化了流水线的流程避免指令回退的浪费,但效率比较难提上去。统一调度器就能让一个调度器服务多个执行端口,可以更好的应对某个执行端口激增的指令条目。因为调度器效率提高,所以AMD也能设计更多ALU(算术逻辑单元),进而提高其运算吞吐量(理论上能提高50%)。


存取单元应该算每代必增大的一环,Zen5从Zen4的8路32KB D-Cache提高到12路48KB D-Cache,指令操作数也从每周期3 load/2 store提高到4 load/2 store,更大的存取队列和更大的D-TLB页目数一定程度上降低了缓存Miss的概率。


最后是浮点执行单元,其实Zen 4架构也支持AVX 512 浮点运算,但它是通过2个256-bit FPU合并运算来实现,而Zen 5则是拥有完整的512-bit FPU以及与其位宽匹配的流水线管道。我们应该能在Zen 5上看到支持AVX 512指令的运算获得性能激增,网上传闻这个数字是40%。AMD在Zen 5上花费大量核心面积来提升AVX 512的性能,主要是一些AI大语言模型能够使用AVX512/VNNI指令,也是为AI路线强化产品竞争力。


结合以上这些架构改良,Zen 5架构的IPC性能相较Zen 4有了16%的平均增长,其中超过半数由前端设计的改良贡献。


Zen 5架构延伸至AMD的各项产品中,包括桌面平台、移动平台、服务器等等,并采用了先进制程拓展到更多产品中。值得一提的是,Zen 5和Zen 5c架构也广泛使用在这代锐龙处理器中,不过并不是桌面平台,而是移动平台:锐龙AI 300系列处理器。

PCEVA评测室
带你掌握真正的电脑知识,过滤虚假冗余信息。
 最新文章