热辣薯条(Hot Chips 2024) - 英伟达的Blackwell

文摘 2024-08-27 10:08 美国

引言 — Hot Chips 2024上NV关于Blackwell的介绍，抓几张干货的图，结合一些自己想表达的整理一下。

原材料在合适的时候，我会上传至知识星球。

开篇雷击：模型的参数在过去的10年中，增长了七万倍，让我们展望下一个五年和十年的计划。

NVLINK在速度和协议上在过去几代的积累中已经变成了新的领先点，200G PAM4的眼睛，虽然小了一点，但是更加微笑，不仅笑对PCIE，也笑对以太网。

下图是NVSwitch，TSMC 4的工艺，有sharp加持。

现在的硬件设计是怎么了？知道的是先进的技术实现，不知道的还以为是满板的飞线😂

回顾一下NVLINK以及NVSwitch的发展过程，all your need is multi-GPU。

八年前，GPU互联的拓扑开始转动~

NVL双雄，没有再提NVL576，和我们之前的讨论与判断一样，NVL576只是NV对客户付钱程度的试金石，在ROI上不具备实际操作性。

参考前文：

音乐，视频，与计算题 - 3

性能对比，终于不用我手动收集数据，把GB200的8卡和NVL72放在一起了。比较是per GPU的性能，所以机器的数量有所差异，下面那行小字好像被logo挡住了，贴在下面：

Token-to-token latency (TTL) = 50 milliseconds (ms) real time
GPT-3 175B: First token latency (FTL) 2s; input sequence length = 2,048, output sequence length = 128, 4 HGX H100 air-cooled 400GB IB Network vs 2 GB200 Superchips liquid-cooled NVLink; per GPU performance comparison,
GPT-MoE-1.8T: FTL = 5s; input sequence length = 32,768, output sequence length = 1,024 , 8 HGX H100 air-cooled 400GB IB Network vs 18 GB200 Superchips liquidcooled NVL36; per GPU performance comparison

接下来是对于TP，PP，EP的科普，以及NVL72带来了更多组合的灵活性，再次傲娇的提到30倍。

从青铜到黄金。。。

最后是结论部分，千言万语归结为一句话：NV全家桶，性能嗷嗷好。

为感谢支持，已点赞/分享/赞赏10篇/次以上的朋友，请加微信，进入微信群。我将发放免费加入知识星球的链接。

IT奶爸-知识星球

高阅读量文章

IT奶爸

实践是检验“专家”的唯一标准。一群认真执着的IT奶爸的学习和分享。

最新文章

聊一聊DDR（12）-DRAM的CS Training Mode(CSTM)

从Mooncake分离式大模型推理架构谈谈RDMA at Scale

聊一聊DDR（11）-DDR频率

液冷，网络，与整机柜 -- Intel IPDC 2024见闻

他山之石，集思广益 | IT奶爸文章奖励计划

英伟达，过热了么？

一文读懂 SFP家族

喜迎双11之月亮湖 -- 热辣薯条(Hot Chips 2024)

谷歌、康宁大超预期

Cerebras处理器架构细节

光计算互连（OCI）

AI 网络背景下 RDMA 的 Why， What & How 以及 Next

“E人”外卖小哥的“I人化”：Gaudi的RoCE优化实现

ETH-X项目及交换/计算节点结构散热设计介绍

近文小结与感谢 - 寄小读者

NVL机架的“中杯，大杯和特大杯”

热辣薯条(Hot Chips 2024)- 英特尔的至强D

RDMA与外卖小哥

英伟达在OCP，对于MGX机架的介绍

Load/Store over ETH乎？

先从一个基础的性能指标说起——CPU频率

CPU架构 -- Power

热辣薯条(Hot Chips 2024) - OpenAI的Scaling

热辣薯条(Hot Chips 2024) - 特斯拉的TTPoE

热辣薯条(Hot Chips 2024) - 博通的CPO

热辣薯条(Hot Chips 2024) - 英特尔的Gaudi

热辣薯条(Hot Chips 2024) - 英伟达的Blackwell

40+AI芯片/Chiplet/RISC-V企业已确认演讲！生成式AI时代最火AI芯片峰会9月举办

向左走，向右走 — 聊聊50亿美元的ZT收购

CPU架构 - CPU的各级缓存

NVL的硬件架构分析-（1）

Aurora Exascale Architecture（PPT）2024

暴力美学背后的细腻布局

Llama 3技术报告解读(1)- AI基础设施和并行策略

LLM推理需要什么样的硬件平台？（2）

LLM推理需要什么样的硬件平台？（1）

音乐，小说，与计算题 - 4： NVL72要出X86版本？！

再来谈谈大模型的分离式推理架构

Transformer架构详解文章与视频

H20跨入百万片俱乐部？

大模型的聚光灯照向以太网: ETH-X的scale up网络

大模型的聚光灯照向网络——当超节点遇上超节点

再谈谈三万亿的破绽

烈日下的绿色森林 —— 英特尔的能效核

暴力美学的show time —— 皮衣教主的Computex 2024 keynote

AI/ML中使用的集体操作（collectives），以太网卸载以及硬件实现

音乐，视频，与计算题 - 3

生成式AI的GPU网络 - 2

音乐，视频，与计算题 - 2

生成式AI的GPU网络

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉