在英伟达新一代旗舰AI芯片Blackwell交付时间越来越近之时,又被曝过热恐延迟交付。
11月18日,英伟达发言人就此问题向记者回应称:“我们正在与领先的云服务提供商合作,将其作为我们工程团队和流程中不可或缺的一部分。工程迭代是正常且符合预期的。将GB200这一迄今为止最先进的系统集成到各种数据中心环境中,需要与我们的客户共同设计。”
据悉,当Blackwell芯片被安装到设计可容纳72个处理器的服务器机架中时,由于高负荷运算产生的热量超出了现有散热系统的处理能力,导致服务器机架出现过热现象。这种过热问题不仅限制了GPU的性能,还存在损坏组件的风险。
尽管英伟达多次要求供应商调整机架设计以缓解这一问题,但目前尚未找到有效的解决方案。这使得原计划在第二季度出货的芯片交付延迟,并可能影响到Meta Platforms、Alphabet和微软等重要客户的数据中心部署计划。
为了应对这一挑战,英伟达正在与多家云服务提供商合作,共同优化散热方案,并强调工程迭代是正常且预期的一部分,但其交付时间或不得不再次推迟。
此前,为了改善Blackwell芯片的散热系统,英伟达已经对服务器机架设计进行了多项修改。英伟达还向Open Compute Project(OCP)贡献了NVIDIA GB200 NVL72机架和计算以及交换机托盘的液冷设计。这种液冷设计使得系统能够更有效地管理热量,从而提高整体系统的稳定性和可靠性。
英伟达Blackwell架构的GPU在AI计算性能上大幅提升,B200 GPU的晶体管数量是前代H100的两倍多,AI运算性能显著提高。这种技术上的突破使得Blackwell芯片在市场中具有强大的竞争力。目前Blackwell芯片已经吸引了包括微软、Meta等科技巨头的采用,并且与OpenAI有独家合作。
尽管面临生产延迟,但英伟达表示Blackwell的需求依然非常强劲,并预计其收入将在未来几个季度达到数十亿美元。此外,北美CSP厂商(云端服务业者)的资本开支持续增长,这也为AI算力板块提供了高景气度的支持。