英伟达Blackwell AI芯片过热难题:数据中心部署或将延期?

科技   2024-11-19 10:44   北京  

近期,英伟达最新研发的Blackwell AI芯片在服务器应用上遭遇了过热难题,引发了业界的广泛关注。这一问题可能导致一些客户的数据中心部署计划受到影响,面临推迟。 


这一消息的发出无疑又印证了“算力的尽头是能源。制约算力性能的是散热”。


由CDCC、阿里云计算有限公司为主编单位,联合数据中心领域50余家单位,根据中国工程建设标准化协会《关于印发<2022年第二批协会标准制订、修订计划>的通知》(建标协字(2022)040号)的要求,共同编制的《数据中心液冷系统技术规程》将在“2024数据中心标准大会”上正式发布,该规程是首部液冷工程类标准,填补了液冷数据中心细分类型中工程规范与设计标准的空白。规程的发布将为数据中心的新建、改扩建提供了设计依据和技术参考,也为液冷系统的设计、实施、调试、验证和验收等环节提供了技术标准。

关于2024数据中心标准大会


站在AI时代、智算中心发展的起点,产业发展的逻辑正在发生着变化,每一位行业从业者都需要重新思考。作为数据中心行业规模最大的高端会议,“2024数据中心标准大会”直面AIDC的变化与未来发展这一核心,将于11月20-21日在北京·国家会议中心召开。

扫码报名参会

注:应场馆要求,需携带身份证入场

具体而言,英伟达 Blackwell GPU 在 72 核的服务器上暴露了过热隐患。这些服务器每个机架的功耗预计高达 120 千瓦,过热问题不仅限制了 GPU 的性能,还可能损坏组件。为此,英伟达不得不多次重新评估服务器机架的设计方案。

这引发了谷歌、Meta 和微软等大客户对能否按时在其数据中心部署 Blackwell 的担忧。
据内部消息透露,英伟达已多次与供应商沟通,要求调整机架设计,以期解决过热的技术瓶颈。然而,尽管多次尝试,问题仍未得到根本解决,而供应商的具体身份尚未公开。面对这一挑战,英伟达方面表示正在积极与多家领先的云服务提供商合作,共同寻找解决方案。
公司发言人在一份声明中强调:“工程迭代是产品开发过程中的正常现象,也是我们预料之中的一部分。”他进一步表示,英伟达的工程团队正在全力以赴,以确保问题得到妥善解决。

自今年3月发布以来,Blackwell芯片作为英伟达的最新产品,一直备受瞩目。
Blackwell 拥有 2080 亿个晶体管,在同一颗芯片上集成了两个 GPU。其两块小芯片之间的互联速度高达 10TBps,彻底解决了内存瓶颈和缓存问题。
与前代产品 H100 相比,Blackwell 的性能提升同样令人瞩目,达到了 Hopper 的 30 倍。
以训练一个 1.8 万亿参数的 GPT 模型为例,如果使用 Hopper,需要 8000 个 GPU,消耗 15 兆瓦电力,训练 3 个月;而换成 Blackwell,仅需 2000 个 GPU,就能在同样的时间内完成,能耗只需 4 兆瓦,实现了性能和效率的双重突破。
Blackwell 的量产问世,无疑将为 AI 模型训练和人形机器人的发展注入强劲动力,对整个 AI 应用生态也将产生深远影响。
6 月份宣布投产以来,Blackwell 最初定于 2024 年第二季度发货,全球科技公司都在疯狂求购。
但在今年 8 月,有媒体称 Blackwell 存在设计缺陷,将推迟发货的消息。
由于 Blackwell 是英伟达首个采用 MCM(多芯片封装)设计的 GPU,在同一个芯片上集成了两个 GPU。
这种「二合一」的创新,显然不能再通过传统方式来打造。Blackwell 的 B100 和 B200 GPU 两个型号使用台积电的 CoWoS-L 封装技术连接两个芯片,该技术依赖于配备局部硅互连(LSI)桥接器的 RDL 中介层,以实现约 10 TB/s 的数据传输速。
然而,由于 GPU 芯片、LSI 桥、RDL 中介层和主板基板之间的热膨胀特性不匹配,导致封装结构出现弯曲,从而引发系统故障。
对此,黄仁勋表示:「我们的 Blackwell 芯片存在设计缺陷,虽然可以正常使用,但该设计缺陷导致良率低下」。
如今,过热问题的出现无疑给Blackwell芯片的推广和应用带来了不小的困扰。
近期,黄仁勋在摩根士丹利举办的投资者会议上透露,Blackwell 已经全部售罄。摩根士丹利分析师 Joe Moore 指出,英伟达高管称,Blackwell GPU 产品的订单积压已达 12 个月。
原本计划在第二季度出货的芯片,由于这一技术难题而不得不推迟。这不仅可能对英伟达自身的产品交付计划造成影响,还可能对其重要客户如meta Platforms、Alphabet(谷歌母公司)以及微软等企业的数据中心部署计划产生连锁反应,引发一系列连锁问题。

关注我们获取更多精彩内容


往期推荐

● 2024数据中心标准大会日程

● 数据中心标准大会主旨论坛:七大维度解读“AI之光,照耀未来”

● 探寻奇点:柴发机组的机遇和挑战

● 风生水起 智算中心液冷新动能

● 加速蜕变 智算中心电气与制冷新趋势

● 飞驰快车道——多维解构智算中心未来发展

CDCC
数据中心标准、技术沟通交流平台
 最新文章