英伟达在OCP,对于MGX机架的介绍

文摘   2024-09-09 08:00   美国  

引言 — 英伟达在2024年8月14日的OCP会议上,对于MGX机架的设计。其中既包括了在设计过程中的重要经验分享,例如对于公差的控制,更包含了对于不同客户的机架尺寸的综合考虑,当然其中会涉及到一些差异,还介绍了将来的一些计划。

可以看出,这不是第一代产品,包含了产品迭代的经验,这也不是最后一代产品,透露了长期的发展计划。




如引言所介绍,英伟达的介绍干货比较多。

其中一些设计挑战,目前在我们的设计过程中也发现了同样的问题,所以对于经验的学习还是比较重要的。

当然,这些经验在其他的GPU机架的设计中,会遇到一些不适用的情况,比较明显的就是GB系列super chip对于面积的优化。


同时,英伟达也介绍了对于未来的想法,可以看出英伟达对于整机架形态的推进,是一个持续化的过程,对于液冷和整机架电源传输也是一致的方向。


与视频搭配,我整理了以下几个关键的信息。

  1.  整机架虽然和ORv3比较类似,但是在尺寸上有一些明显差异,例如MGX机架是19英寸,而ORv3是21英寸。MGX机架是RU,而ORv3是OU。

  2. 为什么要使用19英寸?有两个主要原因,其一是统一的参考设计:目标是希望用一个参考设计来满足不同客户的数据中心需求,而19英寸的机箱可以适配到21英寸的机架中。在介绍中也特别提到了中国市场对于19英寸机架的使用。其二是因为前面的网线绕线空间,19英寸的机架有更多的绕线空间。

  3. 由于盲插设计,机架设计的公差挑战较大,需要辅助设计来达到公差要求,例如横向和纵向的加强筋。

  4. 目前的机架内,液冷和空冷的占比约为一半一半,将来计划实施全液冷。

  5. 液冷接头采用了UQD,目前是UQD 04,将来有计划升级,支持更高的液流。

  6. 目前的整机架功耗是120KW,将来有可能会更高。当然同时也解释了,120KW是目前参考设计的最高值,针对于不同的需求,25KW到40KW的机架功耗可能是更为标准和通用的范围。

  7. 将来整机架供电有计划实施全部power bus bar 供电。



视频地址:https://www.youtube.com/watch?v=xfYqCqvGnAc



为感谢支持,已点赞/分享/赞赏10篇/次以上的朋友,请加微信,进入微信群。我将发放免费加入知识星球的链接。

IT奶爸-知识星球



高阅读量文章





IT奶爸
实践是检验“专家”的唯一标准。一群认真执着的IT奶爸的学习和分享。
 最新文章