👆如果您希望可以时常见面,欢迎标星🌟收藏哦~
来源:内容编译自tomshardware,谢谢。
Nvidia正停止基于GB200的双机架72卡NVL36×2的开发,将重点放在单机架的NVL72和NVL36上。据知名分析师郭明錤在Medium上的消息,Nvidia的这一决定源于资源有限和客户偏好。单机架的NVL36和NVL72将按计划推出,而此前的报道显示双机架的NVL36×2原本预计会是Nvidia客户中最受欢迎的选择。
最初,Nvidia计划基于Blackwell GPU开发三款GB200型号,以满足AI和HPC工作负载需求:NVL36、NVL72和NVL36×2。然而,同时管理这三个项目,尤其是开发两个不同的72-GPU版本(NVL72和NVL36×2)变得具有挑战性。因此,Nvidia决定将重点放在NVL72和NVL36上。
Nvidia的GB200 NVL72机架包含18个计算模块和9个NVSwitch模块(共18个NVSwitch ASIC),每个模块配备两个Bianca板,每块板上有一个Grace CPU和两个Blackwell GPU。虽然这是Nvidia最强大的产品,但其功耗高达120kW,成为功耗最高的解决方案。
SemiAnalysis认为,NVL72配置的极端功耗和密度需求限制了其广泛使用(典型机架功率为12kW,而基于H100的机架功耗约为40kW),大多数数据中心无法支持这一需求。然而,有一个主要客户计划大规模部署,据郭明錤称,微软明确表示更偏好NVL72而非NVL36×2。
GB200 NVL36×2原本计划由两个互连机架组成,并预计将是更常用的配置。每个机架包括18个Grace CPU和36个Blackwell GPU,能够在72个GPU之间保持完全连接。然而,这将需要36个NVSwitch ASIC,功耗比NVL72更高,每个机架预计耗电66kW(总计132kW),尽管体积更大,但更适合现有的数据中心。
相比之下,GB200 NVL72的空间利用率远高于GB200 NVL36×2。然而,大多数Nvidia客户无法满足NVL72的功耗和冷却密度需求。此外,这些复杂性可能会将GB200 NVL72的出货延迟至2025年下半年。不过,之前的报道显示,部分NVL72机器将在今年12月交付,预计交付给微软。
郭明錤写道:“我最新的供应链调查显示,NVL72的量产可能推迟到2025年下半年(而Nvidia的乐观目标为2025年上半年)。”
今年早些时候,Nvidia在为AI和HPC应用的B100和B200 GPU封装时遇到产量问题,这促使其在需求压力下生产了低产量的Blackwell硬件,并改进了这些处理器的设计。改进后的GPU将从10月下旬开始量产,因此可在明年1月末投入使用。在这种背景下,Nvidia专注于面向需求最高、追求性能最大化的客户的GB200 NVL72设计是合情合理的。
还应注意的是,基于x86的Blackwell处理器服务器要到2025年才会推出。目前,这些机器的具体形态尚未确定,初步报告指出可能包括NVL72和NVL36×2机型。Nvidia的计划似乎已转向优先推出NVL72和NVL36机架,之后再推出定制的第三方解决方案。
END
👇半导体精品公众号推荐👇
▲点击上方名片即可关注
专注半导体领域更多原创内容
▲点击上方名片即可关注
关注全球半导体产业动向与趋势
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第3941内容,欢迎关注。
推荐阅读
『半导体第一垂直媒体』
实时 专业 原创 深度
公众号ID:icbank
喜欢我们的内容就点“在看”分享给小伙伴哦