速递|英伟达Blackwell机架故障频发,大客户减少订单等待新版本

文摘   2025-01-14 09:00   北京  

图片来源:Unsplash

根据The Information报道,一些英伟达的最大客户正面临其最先进的人工智能芯片在数据中心启动过程中出现的新延迟问题。据三名供应商和两名客户表示,首批配备英伟达最新芯片Blackwell的机架在交付时遭遇了过热和芯片互联故障等问题。这类缺陷对于新型芯片来说并不罕见,但它们已导致像微软这样的客户的数据中心计划延误。

为应对这些问题,微软和另外三家主要客户——亚马逊网络服务(AWS)、谷歌和Meta最近减少了对英伟达Blackwell GB200机架的订单。据了解,这些客户中的一些人正在等待更新版机架,预计可能要等到下半年才会有货,或者计划购买英伟达的旧款AI芯片。

部分客户可能会选择单独购买Blackwell芯片,尽管英伟达一直推荐通过机架来最大化芯片的性能。如果英伟达及其供应商解决了这些故障,客户可能会恢复购买更多机架。

目前尚不清楚客户减少订单对英伟达收入的具体影响,因为该公司可能会找到其他买家来购买这些有故障的GB200机架。因为这些机架中的芯片可能比英伟达旧款芯片性能略优。英伟达在去年11月预计,Blackwell芯片将在1月的季度带来数十亿美元的收入,随着客户收到芯片和机架,英伟达今年可能会实现约1500亿美元的数据中心芯片收入,高于2024年的475亿美元。

即便延迟没有对英伟达造成影响,它们也对最大的云服务提供商以及顶尖的对话式AI开发商造成了压力,这些公司迫切需要搭建最强大的超级计算集群来赢得竞争优势。尽管这些公司也在开发自己的替代方案,但它们仍然极度依赖英伟达的芯片。

英伟达表示,Blackwell芯片的能效是其前代Hopper芯片的四倍。由于数据中心的能源是有限的,因此云服务提供商希望英伟达的新芯片能帮助它们更好地利用有限的电力。微软、亚马逊、谷歌和Meta的Blackwell机架订单每家都超过100亿美元。承包商如鸿海精密工业和纬创资通将这些芯片组装成大型机架,这些芯片由台积电为英伟达生产。

机架问题源于将多个高功耗芯片组合在一起的复杂性,这些机架比家庭冰箱还要高大,重量可达一辆本田思域。这些机架包含的计算能力如此强大,以至于必须使用水冷而非传统的空气冷却。大多数AI开发商和数据中心提供商从未用水冷却大型服务器阵列。由于只有部分数据中心能够容纳这些机架,客户必须仔细管理订购数量及其放置地点。

为OpenAI提供服务器的微软本计划在其凤凰城的一个数据中心安装至少50,000个Blackwell芯片的GB200机架,但由于从去年开始的Blackwell延迟问题,OpenAI要求微软尽快提供旧一代英伟达芯片H200。据参与这些公司数据中心事务的两人透露,这一调整意味着原定安置大量GB200机架的凤凰城数据中心现在填满了H200芯片。微软计划到3月在该数据中心安装配有12,000个Blackwell芯片的GB200机架,约为最初计划数量的四分之一。

另外,微软还计划在今年晚些时候购买GB300版Blackwell机架。

英伟达于去年年底开始向客户发货Blackwell机架,尽管在最初因为设计缺陷导致三个月的延迟,之后公司已解决这一问题。然而到了11月,客户开始担心机架的过热问题。作为回应,英伟达多次要求供应商调整设计。

问题依旧存在,客户还发现芯片间数据传输存在不一致的情况,即所谓的网络故障。据三位参与机架测试的人士表示,Blackwell机架的安装可能比预期的要慢,如果英伟达无法解决这些问题,机架的性能将无法达到公司承诺的水平。


参考资料:

[1] Nvidia’s Top Customers Face Delays From Glitchy AI Chip Racks, https://www.theinformation.com/articles/nvidias-top-customers-face-delays-from-glitchy-ai-chip-racks?rc=d4lanv

欢迎扫码加群参与讨论


---------END--------

我们相信认知能够跨越阶层,
致力于为年轻人提供高质量的科技和财经内容。
投稿邮箱:zfinance2023@126.com

稿件经采用可获邀进入Z Finance内部社群,优秀者将成为签约作者,00后更有机会成为Z Finance的早期共创成员。

🚀 我们正在招募新一期的Z Explorer

Z Finance
我们相信认知能够跨越阶层,致力于为年轻人提供高质量的科技和财经内容。
 最新文章