引言 — Hot Chips 2024上NV关于Blackwell的介绍,抓几张干货的图,结合一些自己想表达的整理一下。
原材料在合适的时候,我会上传至知识星球。
开篇雷击:模型的参数在过去的10年中,增长了七万倍,让我们展望下一个五年和十年的计划。
NVLINK在速度和协议上在过去几代的积累中已经变成了新的领先点,200G PAM4的眼睛,虽然小了一点,但是更加微笑,不仅笑对PCIE,也笑对以太网。
下图是NVSwitch,TSMC 4的工艺,有sharp加持。
现在的硬件设计是怎么了?知道的是先进的技术实现,不知道的还以为是满板的飞线😂
回顾一下NVLINK以及NVSwitch的发展过程,all your need is multi-GPU。
八年前,GPU互联的拓扑开始转动~
NVL双雄,没有再提NVL576,和我们之前的讨论与判断一样,NVL576只是NV对客户付钱程度的试金石,在ROI上不具备实际操作性。
参考前文:
性能对比,终于不用我手动收集数据,把GB200的8卡和NVL72放在一起了。比较是per GPU的性能,所以机器的数量有所差异,下面那行小字好像被logo挡住了,贴在下面:
Token-to-token latency (TTL) = 50 milliseconds (ms) real time
GPT-3 175B: First token latency (FTL) 2s; input sequence length = 2,048, output sequence length = 128, 4 HGX H100 air-cooled 400GB IB Network vs 2 GB200 Superchips liquid-cooled NVLink; per GPU performance comparison,
GPT-MoE-1.8T: FTL = 5s; input sequence length = 32,768, output sequence length = 1,024 , 8 HGX H100 air-cooled 400GB IB Network vs 18 GB200 Superchips liquidcooled NVL36; per GPU performance comparison
接下来是对于TP,PP,EP的科普,以及NVL72带来了更多组合的灵活性,再次傲娇的提到30倍。
从青铜到黄金。。。
最后是结论部分,千言万语归结为一句话:NV全家桶,性能嗷嗷好。
高阅读量文章