引言 — 英伟达在2024年8月14日的OCP会议上,对于MGX机架的设计。其中既包括了在设计过程中的重要经验分享,例如对于公差的控制,更包含了对于不同客户的机架尺寸的综合考虑,当然其中会涉及到一些差异,还介绍了将来的一些计划。
可以看出,这不是第一代产品,包含了产品迭代的经验,这也不是最后一代产品,透露了长期的发展计划。
如引言所介绍,英伟达的介绍干货比较多。
其中一些设计挑战,目前在我们的设计过程中也发现了同样的问题,所以对于经验的学习还是比较重要的。
当然,这些经验在其他的GPU机架的设计中,会遇到一些不适用的情况,比较明显的就是GB系列super chip对于面积的优化。
同时,英伟达也介绍了对于未来的想法,可以看出英伟达对于整机架形态的推进,是一个持续化的过程,对于液冷和整机架电源传输也是一致的方向。
与视频搭配,我整理了以下几个关键的信息。
整机架虽然和ORv3比较类似,但是在尺寸上有一些明显差异,例如MGX机架是19英寸,而ORv3是21英寸。MGX机架是RU,而ORv3是OU。
为什么要使用19英寸?有两个主要原因,其一是统一的参考设计:目标是希望用一个参考设计来满足不同客户的数据中心需求,而19英寸的机箱可以适配到21英寸的机架中。在介绍中也特别提到了中国市场对于19英寸机架的使用。其二是因为前面的网线绕线空间,19英寸的机架有更多的绕线空间。
由于盲插设计,机架设计的公差挑战较大,需要辅助设计来达到公差要求,例如横向和纵向的加强筋。
目前的机架内,液冷和空冷的占比约为一半一半,将来计划实施全液冷。
液冷接头采用了UQD,目前是UQD 04,将来有计划升级,支持更高的液流。
目前的整机架功耗是120KW,将来有可能会更高。当然同时也解释了,120KW是目前参考设计的最高值,针对于不同的需求,25KW到40KW的机架功耗可能是更为标准和通用的范围。
将来整机架供电有计划实施全部power bus bar 供电。
视频地址:https://www.youtube.com/watch?v=xfYqCqvGnAc
高阅读量文章