引言 — 不是说股票啊,是物理上的热,最近在流传一则英伟达NVL机架设计过热的新闻,没有说太多细节。抛开其真实性和对股市的影响,我们也可以从中得到一些启发。
本文主要分为两个部分:
1. 流传的消息
2. 带来的提醒
I. 流传的消息
11月17日,The Information有篇报道,英伟达新一代Blackwell芯片可能再次面临延期,重提4个月前所谓的配套服务器过热的技术难题,这使得一些客户担心他们没有足够时间来部署新的数据中心。
我愿称之为传闻或者小作文,因为没有什么技术细节,而系统级的过热设计问题,可大可小,也是在系统设计的不同阶段中常常可能遇到的问题。
报道援引知情人士称,当Blackwell GPU被连接在设计容纳多达72个芯片的服务器机架中时会出现过热现象。据参与该项目的英伟达员工以及了解情况的客户和供应商透露,芯片制造商已多次要求供应商更改机架设计以解决过热问题。
好像是说了什么,又好像什么都没说,总结下来,就是和我的题目一样简单的几个字。
然而我们还是可以从中得到一些提醒。
II. 带来的提醒
AI 系统设计,一方面是更大的高速互联域的要求,大约64张,72张,甚至更多的GPU卡要互联在一起。
另一方面从互联的接口功耗和成本出发,我们需要设计一种高密度的机架设计。
目前针对GPU的计算节点出发,看到的形态多的是RU和OU的高度尺寸。
在这个高度空间中的,散热,供电,线缆都面临了之前的AI服务器不曾遇到的技术挑战。
对于NVL机架上提到的问题,不论真假,在高密度的系统设计上都是一个很好的提醒。
在这个空间中,首先要进行系统的散热仿真,由于前后部件对风流的阻挡影响,带来的风道的影响。这些会决定在冷板设计上考虑预留有多少的风道。
其次,GPU module 上不同部件的和冷板的贴合,也需要对于散热能力和压合力上仔细评估。
再者,在这样有限的空间里,高密度的GPU带来的诸多的绕线,和冷管的排布走向,也需要慎重考虑。
最后,GPU芯片本身对于压力也是欲拒还迎,一方面不能超过自己的承受力,另一方面也需要满足芯片的接触和散热要求。
面临新技术,我们既要保持对未来方向的热情,保持系统设计的灵活性来适应业务的需求,也需要保持对技术本身的谨慎性,小步快跑,用循序渐进的设计和验证来落实好遇到的技术风险点。
高阅读量文章