热辣薯条(Hot Chips 2024) - 英伟达的Blackwell

文摘   2024-08-27 10:08   美国  

引言 — Hot Chips 2024上NV关于Blackwell的介绍,抓几张干货的图,结合一些自己想表达的整理一下


原材料在合适的时候,我会上传至知识星球。



开篇雷击:模型的参数在过去的10年中,增长了七万倍,让我们展望下一个五年和十年的计划。



NVLINK在速度和协议上在过去几代的积累中已经变成了新的领先点,200G PAM4的眼睛,虽然小了一点,但是更加微笑不仅笑对PCIE,也笑对以太网。

下图是NVSwitch,TSMC 4的工艺,有sharp加持。

现在的硬件设计是怎么了?知道的是先进的技术实现,不知道的还以为是满板的飞线😂


回顾一下NVLINK以及NVSwitch的发展过程,all your need is multi-GPU。

八年前,GPU互联的拓扑开始转动~


NVL双雄,没有再提NVL576,和我们之前的讨论与判断一样,NVL576只是NV对客户付钱程度的试金石,在ROI上不具备实际操作性。

参考前文:

音乐,视频,与计算题 - 3



性能对比,终于不用我手动收集数据,把GB200的8卡和NVL72放在一起了。比较是per GPU的性能,所以机器的数量有所差异,下面那行小字好像被logo挡住了,贴在下面:

  • Token-to-token latency (TTL) = 50 milliseconds (ms) real time 

  • GPT-3 175B: First token latency (FTL) 2s; input sequence length = 2,048, output sequence length = 128, 4 HGX H100 air-cooled 400GB IB Network vs 2 GB200 Superchips liquid-cooled NVLink; per GPU performance comparison, 

  • GPT-MoE-1.8T: FTL = 5s; input sequence length = 32,768, output sequence length = 1,024 , 8 HGX H100 air-cooled 400GB IB Network vs 18 GB200 Superchips liquidcooled NVL36; per GPU performance comparison


接下来是对于TP,PP,EP的科普,以及NVL72带来了更多组合的灵活性,再次傲娇的提到30倍。


从青铜到黄金。。。



最后是结论部分,千言万语归结为一句话:NV全家桶,性能嗷嗷好。




为感谢支持,已点赞/分享/赞赏10篇/次以上的朋友,请加微信,进入微信群。我将发放免费加入知识星球的链接。

IT奶爸-知识星球



高阅读量文章





IT奶爸
实践是检验“专家”的唯一标准。一群认真执着的IT奶爸的学习和分享。
 最新文章