Nvidia 的 Blackwell AI GPU 过热问题似乎被夸大了——半导体分析师透露冷却问题已基本得到解决

文摘   2024-11-23 15:57   贵州  
 

  Blackwell 的冷却问题并不像某些人想象的那么严重。  

 图像未添加注释

据称,有关 Nvidia 的 GB200 NVL72 服务器机架过热的报道被夸大了。Business Insider 报道称,Blackwell 的冷却设计错误已经得到解决。据称,Semianalysis 的首席分析师 Dylan Patel 告诉 Business Insider,已经存在数月的 Blackwell 设计问题已基本得到解决,并表示过热问题在很大程度上被夸大了。

Semianalysis 的五位监控半导体行业的分析师报告说,触发几家供应商“返工”的冷却系统问题是一个“微小”的变化。Blackwell 的冷却故障在 Nvidia 的大型 72 芯片服务器机架上尤其存在问题,该机架的功耗高达 120kW。由于机架内部的 GPU 过热,机架设计中的设计缺陷迫使 Nvidia 多次重新评估其设计。这阻碍了 Nvidia 的 GB200 硬件的出货量,由于所需的设计更改而导致额外的延迟。

Nvidia 的 B200 GPU 是适用于 AI 工作负载的最强大处理芯片。例如,GB200 超级芯片具有数千瓦的可配置 TDP,峰值额定功率高达 2,700 瓦。这些荒谬的高功率数字使得空气冷却几乎不可能在标准机架安装外形尺寸的限制下使用。

 (图片来源:Nvidia)

这个物理问题迫使 Nvidia 要求在其最新的 Blackwell GPU 上进行液体冷却。它还要求数据中心改造其服务器场,以适应支持液冷服务器所需的基础设施。

Nvidia 可以通过创建速度较慢的风冷 GPU 来解决这个问题——GPU 制造商仍然以 H200 NVL 等 GPU 的形式这样做。然而,为了保持在 AI GPU 军备竞赛的最前沿,Nvidia 不惜一切代价优先考虑性能,这就是为什么该公司选择以牺牲风冷为代价制造需要数千瓦功率的 GPU。

    关注+星标“硅基LIFE”,每日获取关于人工智能、芯片领域最新动态。 加微信fusion9000,进“硅基LIFE”粉丝交流群交流并接收实时滚动推送的最新信息  

硅基LIFE
每天推送全球关于芯片和人工智能的最新动态
 最新文章