大会预告
12月5-6日,2024中国生成式AI大会(上海站)将举办,30+位嘉宾已确认参会演讲。其中,上海交大副教授、无问芯穹联合创始人兼首席科学家戴国浩,GMI Cloud 亚太区总裁King.Cui,英飞流创始人张颖峰,Jina AI联合创始人兼首席技术官王楠,中昊芯英芯片软件栈负责人朱国梁将在AI Infra峰会带来分享,欢迎报名~
NVLINK 本身的动机是出于对带宽和GPU的协同操作的需求,有如下特点
线程块执行结构高效支持并行化的NVLink架构。
NVLink端口接口尽可能与L2的数据交换语义匹配。
比PCIe更快
每通道带宽:100Gbps(NVLink4) vs 32Gbps(PCIe Gen5)。
多个NVLink可“组合”以实现更高的总通道带宽。
比传统网络开销更低
目标系统扩展规模(如256个Hopper GPU)允许将复杂功能(如端到端重试、自适应路由、数据包重新排序)用更高的端口数量来权衡。
简化的应用层、表示层、会话层功能,使其可以直接嵌入CUDA程序或驱动程序中。
A100 是 2 lanes/NVSwitch * 6 NVSwitch * 50GB/s/lane= 600GB/s 双向带宽(单向 300GB/s)。注意:这是一个 GPU 到所有 NVSwitch 的总带宽;
A800 被阉割了 4 条 lane,所以是 8 lane * 50GB/s/lane = 400GB/s 双向带宽(单向 200GB/s)。
NVLink网络支持
PHY电气接口兼容400G以太网/InfiniBand标准。
OSFP支持(每个笼子4个NVLink),配备定制固件以支持主动模块。
提供额外的前向纠错(FEC)模式,以提升光缆的性能和可靠性。
带宽翻倍
每差分对支持100Gbps(50Gbaud PAM4)。
双倍NVLink配置和每个NVSwitch支持64条NVLink(内部双向带宽达1.6TB/s)。
使用更少的芯片实现更高带宽。
支持SHARP集合操作/多播
NVSwitch内部数据复制,避免源GPU进行多次访问。
嵌入式ALU允许NVSwitch代表GPU执行AllReduce(或类似)计算。
在AI应用中对通信密集型操作的数据吞吐量大约翻倍。
有史以来最大的NVSwitch
32个PHY通道
工艺技术:TSMC 4N
晶体管数:251亿
芯片面积:294mm²
封装尺寸:50mm × 50mm(2645颗焊球)
史上最高带宽
NVLink4端口:64个(每个NVLink包含2个通道)
全双工带宽:3.2TB/s
信号传输:50Gbaud PAM4差分对信令
提供400GFLOPS FP32 SHARP计算能力(支持其他数值格式)。
集成NVLink网络管理、安全和遥测引擎。
所有端口均支持NVLink网络功能。
每个人(节点/GPU)负责一个地区,统计出自己地区的销量数据(梯度)。
最后,通过团队的协调(AllReduce 操作),每个人将数据加总到一个统一的总数,并分享给每个人。
每个 GPU 都会处理一部分输入数据(比如图片Batch),计算出 局部梯度。
使用 AllReduce,把每个 GPU 的梯度汇总起来(相当于“团队开会统计总销量”)。
汇总后的梯度被分发回各个 GPU(保证每个 GPU 都能看到总结果)。
每个 GPU 用同样的总梯度更新模型参数,从而保持模型一致性。
传统 AllReduce 的计算过程
数据交换过程复杂:
带宽效率低:
NVLink Switch(SHARP 加速)的计算改进
步骤优化:
计算嵌入:
通信优化:
NVLink Switch 加速的主要优点
Switch 内部完成计算,GPU 的通信开销显著减少。
减少了全局同步操作的复杂性,提升了 AI 训练的整体速度。
NVLink SHARP 的设计使其更适合在超大规模 GPU 集群(如 256+ GPUs)中使用,避免通信成为性能瓶颈。
GPU 只需专注于发送和接收简化数据,Switch 处理复杂的计算和数据分发任务。
—END—
点击下方名片
即刻关注我们