英伟达最新GPU,碰到问题了
科技
2024-11-18 19:25
安徽
据《The Information》援引公司员工、客户和供应商(未透露姓名)的话报道,由于过热问题,Nvidia 公司近几个月来已要求供应商改变其新款 Blackwell 图形处理器的服务器机架设计,这导致人们担心产品延迟。据这家专注于技术的刊物报道,Blackwell 机架的变更是在生产流程的后期进行的。Nvidia 尚未通知客户此次变更将延期。据知情人士向The Information透露,Nvidia 用于 AI 和 HPC 的 Blackwell GPU 在装有 72 个处理器的服务器中使用时会过热。这些机器预计每机架功耗高达 120kW。这些问题导致 Nvidia 多次重新评估其服务器机架的设计,因为过热会限制 GPU 性能并有损坏组件的风险。据报道,客户担心这些挫折可能会阻碍他们在数据中心部署新处理器的时间表。据报道,Nvidia 已指示其供应商对机架进行几项设计更改,以解决过热问题。该公司与供应商和合作伙伴密切合作,开发工程修订版以改善服务器冷却。虽然这些调整对于如此大规模的技术发布来说是标准做法,但它们仍然增加了延迟,进一步推迟了预期的发货日期。“Nvidia 正在与领先的云服务提供商合作,这是我们工程团队和流程不可或缺的一部分。工程迭代是正常的,也是意料之中的,”该公司发言人在给路透社的一份声明中表示。今年 3 月,Nvidia 发布了 Blackwell 芯片,并曾表示将于第二季度出货,但随后出现延迟,可能会影响 Meta Platforms、Alphabet 旗下谷歌和微软等客户。Nvidia 的 Blackwell 芯片采用两块与该公司之前产品大小相同的方形硅片,并将它们组合成一个组件,使其在执行聊天机器人响应等任务时的速度提高了 30 倍。Nvidia 的一位发言人拒绝向《Information》透露该公司是否已经完成 Blackwell 机架设计。此前,由于该处理器的设计缺陷会影响良率, Nvidia 不得不推迟 Blackwell 的生产 。Nvidia 的 Blackwell B100 和 B200 GPU 使用台积电的 CoWoS-L 封装技术连接两个芯片。该设计包括一个带有局部硅片互连 (LSI) 桥接器的 RDL 中介层,支持高达 10 TB/s 的数据传输速度。这些 LSI 桥接器的精确定位对于该技术按预期运行至关重要。然而,GPU 芯片、LSI 桥接器、RDL 中介层和主板基板的热膨胀特性不匹配导致了翘曲和系统故障。为了解决这个问题,据报道 Nvidia 修改了 GPU 硅的顶部金属层和凸点结构,以提高生产可靠性。虽然 Nvidia 从未透露有关这些变化的具体细节,但它指出作为修复的一部分,新的掩模是必要的。目前还不清楚新的过热问题是否会影响 Blackwell 的新发布日期(定于明年年初),但 Nvidia 有充分的动力确保产品完美无缺。GB200 Grace Blackwell 超级芯片的单价高达 70,000 美元,而完整的服务器机架售价超过 300 万美元。Nvidia 此前曾表示,希望销售约 6 万至 7 万台完整服务器,因此任何进一步的延迟都可能给该公司带来极其昂贵的代价。由于其在人工智能行业的主导地位,该公司已成为全球最有价值的上市公司之一。该公司将于周三公布季度收益结果。对于客户来说,他们担心任何延迟都会影响他们的数据中心基础设施部署计划,并可能损害他们开发更先进的人工智能模型和应用程序的能力。因此,Blackwell GPU 的最终版本直到 10 月下旬才开始量产,这意味着 Nvidia 将能够从 1 月下旬开始出货这些处理器。Nvidia 的客户包括谷歌、Meta 和微软等科技巨头,他们使用 Nvidia 的 GPU 来训练其最强大的大型语言模型。Blackwell AI GPU 的延迟自然会影响 Nvidia 客户的计划和产品。全球市值最高的公司英伟达 (Nvidia) 将于 11 月 20 日发布季度收益。