英伟达，过热了么？

文摘 2024-11-19 18:00 上海

引言 — 不是说股票啊，是物理上的热，最近在流传一则英伟达NVL机架设计过热的新闻，没有说太多细节。抛开其真实性和对股市的影响，我们也可以从中得到一些启发。

本文主要分为两个部分：

1. 流传的消息

2. 带来的提醒

I. 流传的消息

11月17日，The Information有篇报道，英伟达新一代Blackwell芯片可能再次面临延期，重提4个月前所谓的配套服务器过热的技术难题，这使得一些客户担心他们没有足够时间来部署新的数据中心。

我愿称之为传闻或者小作文，因为没有什么技术细节，而系统级的过热设计问题，可大可小，也是在系统设计的不同阶段中常常可能遇到的问题。

报道援引知情人士称，当Blackwell GPU被连接在设计容纳多达72个芯片的服务器机架中时会出现过热现象。据参与该项目的英伟达员工以及了解情况的客户和供应商透露，芯片制造商已多次要求供应商更改机架设计以解决过热问题。

好像是说了什么，又好像什么都没说，总结下来，就是和我的题目一样简单的几个字。

然而我们还是可以从中得到一些提醒。

II. 带来的提醒

AI 系统设计，一方面是更大的高速互联域的要求，大约64张，72张，甚至更多的GPU卡要互联在一起。

另一方面从互联的接口功耗和成本出发，我们需要设计一种高密度的机架设计。

目前针对GPU的计算节点出发，看到的形态多的是RU和OU的高度尺寸。

在这个高度空间中的，散热，供电，线缆都面临了之前的AI服务器不曾遇到的技术挑战。

对于NVL机架上提到的问题，不论真假，在高密度的系统设计上都是一个很好的提醒。

在这个空间中，首先要进行系统的散热仿真，由于前后部件对风流的阻挡影响，带来的风道的影响。这些会决定在冷板设计上考虑预留有多少的风道。

其次，GPU module 上不同部件的和冷板的贴合，也需要对于散热能力和压合力上仔细评估。

再者，在这样有限的空间里，高密度的GPU带来的诸多的绕线，和冷管的排布走向，也需要慎重考虑。

最后，GPU芯片本身对于压力也是欲拒还迎，一方面不能超过自己的承受力，另一方面也需要满足芯片的接触和散热要求。

面临新技术，我们既要保持对未来方向的热情，保持系统设计的灵活性来适应业务的需求，也需要保持对技术本身的谨慎性，小步快跑，用循序渐进的设计和验证来落实好遇到的技术风险点。

为感谢支持，已点赞/分享/赞赏10篇/次以上的朋友，请加微信，进入微信群。我将发放免费加入知识星球的链接。

IT奶爸-知识星球

高阅读量文章