▲ 点击上方蓝字关注我们,不错过任何一篇干货文章!AI巨头英伟达昨日突发利空。据The Information报道,英伟达新一代 Blackwell 处理器在高容量服务器机架中存在严重的过热问题。这些问题导致设计调整与项目延期,使谷歌、 Meta 和微软等主要客户对能否按计划部署 Blackwell 服务器感到担忧。
知情人士透露,Blackwell GPU 专为 AI 和高性能计算(HPC)设计,但在配置 72 个处理器的服务器中出现过热问题,此类服务器每个机架功耗最高可达 120 千瓦。过热问题迫使英伟达多次修改机架设计,不仅限制了 GPU 性能,还可能损坏硬件。客户因此担心,这些技术问题会延迟数据中心的处理器部署进程。
为应对这一难题,英伟达要求供应商调整机架设计,并与合作伙伴一起优化散热系统。尽管这种工程改进是大规模技术发布中的常规步骤,但也进一步推迟了产品交付时间。英伟达发言人针对此事对路透社回应称,公司正与云服务提供商密切合作,设计调整属于正常研发流程的一部分。英伟达希望通过这种合作,确保最终产品在性能和可靠性方面达到预期,同时加紧解决技术瓶颈。今年 3 月,英伟达展示了 Blackwell 芯片,当时曾表示将在第二季度发货。但随后出现延迟,可能会影响 Meta Platforms、Alphabet 旗下谷歌和微软等客户。英伟达的 Blackwell 芯片采用两块与该公司之前产品大小相同的方形硅片,并将它们组合成一个组件,使其在执行聊天机器人响应等任务时的速度提高了 30 倍。英伟达的一位发言人拒绝向The Information透露该公司是否已经完成 Blackwell 机架设计。此前,由于该处理器的设计缺陷会影响良率, 英伟达不得不推迟 Blackwell 的生产 。英伟达的 Blackwell B100 和 B200 GPU 使用台积电的 CoWoS-L 封装技术连接两个芯片。该设计包括一个带有局部硅片互连 (LSI) 桥接器的 RDL 中介层,支持高达 10 TB/s 的数据传输速度。这些 LSI 桥接器的精确定位对于该技术按预期运行至关重要。然而,GPU 芯片、LSI 桥接器、RDL 中介层和主板基板的热膨胀特性不匹配导致了翘曲和系统故障。为了解决这个问题,据报道 英伟达修改了 GPU 硅的顶部金属层和凸点结构,以提高生产可靠性。虽然英伟达从未透露有关这些变化的具体细节,但它指出作为修复的一部分,新的掩模是必要的。目前还不清楚新的过热问题是否会影响 Blackwell 的新发布日期(定于明年年初)。英伟达此前曾表示,希望销售约 6 万至 7 万台完整服务器,因此任何进一步的延迟都可能给该公司带来极其昂贵的代价。由于其在人工智能行业的主导地位,该公司已成为全球最有价值的上市公司之一。该公司将于周三公布季度收益结果。
欢迎将我们设为“星标”,这样才能第一时间收到推送消息。免费领取Autosar入门与实践资料包!