前言,随着24年9月Intel至强6系列6900P系列CPU的发布,国内服务器大厂也发布基于P核的服务器新品,很多细心的朋友肯定看到了,除了CPU参数有大幅升级外,内存支持的参数规格也有变化,如MRDIMM内存速率最高支持8800MT/s,H3C和浪潮官网都能看到,那么问题来了,MRDIMM是什么意思?怎么做到8800MT/s的?使用上的注意事项?目标业务场景?新内存技术的发展趋势等,今天我们简单聊聊!
一、Intel至强6的内存新技术-MRDIMM
服务器上常用的内存是RDIMM,一般由1到2个Rank组成,每个Rank的位宽为64位,加上ECC的8位后有72位,有效的数据位是64。
新内存技术MRDIMM其实行业里有2个叫法如下:在Micron官网上叫MRDIMM,Multiplexer-Ranks DIMM,另一种叫法是MCRDIMM翻译是Multiplexer Combined Ranks DIMM,两者是一回事,都是多路转换的含义。
和传统的RDIMM相比,新的内存技术增加了MDB(多路复用数据缓冲器),并改进了MRCD(寄存时钟驱动器),MDB的位置在内存金手指附近,是直接与主机侧的CPU内存控制器通讯。MDB可通过两个数据接口将两个Rank分别读入缓冲区,再从缓冲区一次性传输到CPU的内存控制器,采用了多路复用的技术实现了带宽翻倍,如上图所示。
二、MRDIMM支持更大的尺寸和内存容量
MRCD支持4个独立的芯片选择信号(标准的RCD是两个,对应两个Rank)。由于MRCD可以支持4个Rank,对应支持内存颗粒数也翻倍。从已公开的内存厂商产品可以看到有些MRDIMM有更高的规格(TFF),单条内存的容量也有倍增。由于至强6900P的CPU槽位尺寸变大,双路平台的服务器内存槽数量从上一代的32DIMM减少到了24DIMM。若要想继续提升整机的内存容量,需增加单条内存的面积,通过使用256GB的MRDIMM,双路至强6900P机型可支持6TB的内存容量。
三、MRDIMM和CPU的对应关系
并不是所有的至强6处理器都支持MRDIMM,仅限于P-core,也就是6700p和6900p系列才支持,如下图所示,
另外,新技术内存MRDIMM和CPU的内存通道是1对1的关系,比如SP的双路平台即使你有32个DIMM,也最多支持16条MRDIMM内存,下图是截自浪潮的官网,型号是NF5280G8。
四、4R和2R的MRDIMM的性能也有差异
MRDIMM目前是第一代的产品,起步速率就高达8800MT/s。基于公开材料显示同样是2个Rank,采用新内存技术之后实际带宽表现比标准的RDIMM略高,如果是4Rank的MRDIMM也是要比Dual Rank的MRDIMM表现要好,下图来自网络公开资料。
同样是2Rx4内存颗粒,MRDIMM比传统RDIMM 6400 MT/s在MLC带宽测试中领先30%左右,而4Rx4 MRDIMM则是领先39%;性能提升同时带来的功耗的提升,MRDIMM是相同内存容量的RDIMM功耗的两倍左右。
目前上市的第一代MRDIMM内存速率是8800MT/s,未来新品将实现更高的性能,预计第二代达到12800MT/s,第三代则可达到17600MT/s。
五、MRDIMM的性能提升和目标业务场景
结合Intel的公开资料显示,在多种工作负载的性能对比中,新内存技术对AI部分的提升幅度最为明显。
如上图所示,6972P是至强8592+的1.5倍内核,在大语言模型推理性能上却提升了2.4倍的,以右侧的是Llama3 8B为例,是int8精度,模型将占用约8GB的内存空间。目前双路24通道MRDIMM 8,800MT/s约1,690GB/s的总内存带宽而言,可以算出来每秒token数理论上限是211。而双路8592+是16通道DDR5 5,600MT/s,内存总带宽为717GB/s,token理论上限是接近90,二者的理论上限正好相差大约2.4倍。结论是在AI算力足够的情况下,内存或显存容量决定了模型的规模上限,而带宽决定了token输出的上限。
按照Intel官方的材料,在控制模型参数量并进行低精度量化(int8甚至int5、int4)之后,大语言模型推理时的算力瓶颈已经不太突出,决定并发数量和token响应速度的,主要还是内存的容量和带宽。通过MRDIMM,以及CXL内存扩展带宽将是提升推理性能最有效的方式。
六、RDIMM和MRDIMM的内存带宽计算
6900P的内存带宽计算,每颗CPU插满12根内存的内存带宽:
1、满配DDR5情况下=内存通道数x内存频率x位宽/8
=12x6400x64/8≈614GB/s
2、满配新型内存MRDIMM情况
=12x8800x64/8 ≈845GB/s
----老张会持续通过公众号分享前沿IT技术,创作不易,大家多多点赞和关注!