英伟达最新GB300&B300分析及展望

文摘   2024-12-26 09:30   新西兰  
文章精彩,防止走失,可关注、转发、投币打赏。
专注分享财经信息的专业社区,喜欢请点击下方名片关注。


英伟达在 GB200 和 B200 发布仅6个月后就着急推出一款全新的 GPU,名为 GB300 和 B300。下面我们来对比一下GB200 NVL72和 GB300 NVL72服务器的区别。


其实,很容易就看出来,最大的提升就是High Bandwidth Memory(高带宽内存,HBM)从8Hi到12Hi,因此每GPU的HBM容量从192GB提升到288GB。这里Hi可以理解为存储芯片 die 的堆叠层数。随着堆叠层数的增加,每颗 HBM 堆叠芯片的容量就越大,因此HBM容量也就越大。然后根据GPU Memory B/W参数来看,针脚速度将保持不变,因此每个 GPU 的内存带宽仍为 8TB/s 左右。


B300 的另一个重要变化是采用了 FP4,这有利于推理过程。为什么这么说呢?因为在推理端可以使用FP4量化推理(Quantization for Inference),即将权重或激活值从高精度(例如 FP16、BF16、FP32)转换成 4-bit 浮点数,从而使用更低的存储与计算开销得到相同精度的推理结果。最终通过B300这一新的ultra架构,带来单卡1.5倍的FP4性能提升。这部分性能提升将来自于额外的 200W 功率,GB300 和 B300 HGX 的 TDP 分别达到 1.4KW 和 1.2KW(相比之下, GB200 和 B200 的 TDP 为 1.2KW 和 1KW)。值得一说的是,通过创新的电力调配技术,整个NVL72机柜的能耗依然保持在132kW不变。这意味着单位算力能耗整体降低了33%


内存的改进对于 OpenAI O3 风格的LLM推理训练和推理至关重要,因为长序列长度增加了KVCache,限制了关键的批量大小和延迟。这里不了解KVCache不要紧,增加KVCache可以简单理解为增大HBM内存需求。SemiAnalysis针对内存的改变对推理性能的提升做了测试,实验证明了更大的内存容量所带来的动态效益似乎是巨大的。


我们更要知道的是,当你使用大模型进行推理时,更多的不是在单 B200 或 B300 进行计算,而是要在 NVL72 服务器甚至 NVL72 服务器间进行计算以得到推理结果。当我们在 NVL72 服务器层面时,基于 Nvidia 的系统的性能和成本大幅提升。使用 NVL72 进行推理的关键点在于它使 72 个 GPU 能够在同一个问题上协同工作,共享它们的 HBM 内存,且延迟极低。世界上没有其他加速器具有全互联的交换连接。世界上没有其他加速器能够通过交换机进行全归约。


前面宣传的ASIC做不到,AMD 也做不到,为什么老黄急着在六个月内就推出 GB300 和 B300,这下用意应该明白了吧。英伟达怎么会不知道推理端的需求要来了,GB300 和 B300 的推出是彻头彻尾针对推理端来的,同时又提供极高的训练端的算力。你说 ASIC 专用卡是特种兵,那英伟达这位六边形战士打得就是精锐。


如果觉得对您有帮助,欢迎打赏支持。


注分享财经信息的专业社区,喜欢请点击下方名片关注。


免责声明:本文材料整理于公司公告、新闻、机构公开研报及社交媒体网络等,对文中所涉专业及个股均不构成投资建议。市场有风险,投资需谨慎。图文如有侵权或违反信批规则请后台留言联系删除。


文章精彩,防止走失,可关注、转发、投币打赏。





 最新文章