英伟达,过热了么?

文摘   2024-11-19 18:00   上海  

引言 — 不是说股票啊,是物理上的热,最近在流传一则英伟达NVL机架设计过热的新闻,没有说太多细节。抛开其真实性和对股市的影响,我们也可以从中得到一些启发


本文主要分为两个部分:

1. 流传的消息

2. 带来的提醒




I. 流传的消息


11月17日,The Information有篇报道,英伟达新一代Blackwell芯片可能再次面临延期,重提4个月前所谓的配套服务器过热的技术难题,这使得一些客户担心他们没有足够时间来部署新的数据中心。


我愿称之为传闻或者小作文,因为没有什么技术细节,而系统级的过热设计问题,可大可小,也是在系统设计的不同阶段中常常可能遇到的问题。


报道援引知情人士称,当Blackwell GPU被连接在设计容纳多达72个芯片的服务器机架中时会出现过热现象。据参与该项目的英伟达员工以及了解情况的客户和供应商透露,芯片制造商已多次要求供应商更改机架设计以解决过热问题。


好像是说了什么,又好像什么都没说,总结下来,就是和我的题目一样简单的几个字。

然而我们还是可以从中得到一些提醒。


II. 带来的提醒


AI 系统设计,一方面是更大的高速互联域的要求,大约64张,72张,甚至更多的GPU卡要互联在一起。

另一方面从互联的接口功耗和成本出发,我们需要设计一种高密度的机架设计。


目前针对GPU的计算节点出发,看到的形态多的是RU和OU的高度尺寸。


在这个高度空间中的,散热,供电,线缆都面临了之前的AI服务器不曾遇到的技术挑战。


对于NVL机架上提到的问题,不论真假,在高密度的系统设计上都是一个很好的提醒


在这个空间中,首先要进行系统的散热仿真,由于前后部件对风流的阻挡影响,带来的风道的影响。这些会决定在冷板设计上考虑预留有多少的风道。


其次,GPU module 上不同部件的和冷板的贴合,也需要对于散热能力和压合力上仔细评估。


再者,在这样有限的空间里,高密度的GPU带来的诸多的绕线,和冷管的排布走向,也需要慎重考虑。


最后,GPU芯片本身对于压力也是欲拒还迎,一方面不能超过自己的承受力,另一方面也需要满足芯片的接触和散热要求。


面临新技术,我们既要保持对未来方向的热情,保持系统设计的灵活性来适应业务的需求,也需要保持对技术本身的谨慎性,小步快跑,用循序渐进的设计和验证来落实好遇到的技术风险点。




为感谢支持,已点赞/分享/赞赏10篇/次以上的朋友,请加微信,进入微信群。我将发放免费加入知识星球的链接。

IT奶爸-知识星球



高阅读量文章





IT奶爸
实践是检验“专家”的唯一标准。一群认真执着的IT奶爸的学习和分享。
 最新文章