谈谈AI Fabric, bus with network ?

文摘 2024-07-15 00:01 浙江

夏Core的《AI fabric is a bus or a network？》^[1]这篇文章中很多观点非常正确, 从屁股而言我大概两年前就叛逃网党, 只是中间顺手帮网党解决了一下Lossy和Out-of-order的问题, 另外被计党毒打过了完全认同其中很多观点, 特别是下面这段话是肺腑之言, 价值10亿美金的胶带.

这个观点其实和UALink不谋而合, 我以前对UALink的误解是它只是基于PCIe的Phy演进太慢持有反对态度, 但看到Ethernet Integration这个路标就彻底认同了

从生态的角度来看, 原来有大量的代码要跑LD/ST还是要有的. 但是又面临两难的问题,这样的互联交换芯片谁来做呢?毕竟国内还是没有像HW这样的企业,就连AMD也得跪求BRCM搞UALink.

选择Ethernet ScaleUP其实更多的是在考虑可获得性的问题, 国内大多数的GPU厂商既要自己流片搞GPU,又要搞XX-Link Switch, 短期内还要快速追赶难度较高, 毕竟不是每个国产厂商都有这个能力的.

从当前的workload来看,大模型的矩阵规模相对较大确实不太需要像传统HPC那样的Stencil一样的细颗粒度的访存, 毕竟买以太网的交换机芯片128Radix 51.2T~ 204T的演进基本上都能看到的. 选择Eth并不是屁股而是另一种妥协. 另外从GPU上来看, 一方面是成熟IP的可获得性, 另一方面由于国内算力密度受限的情况下用一些较大的I/O占片上面积也是一个取舍. 还有反正通信库ScaleOut要搞RDMA,顺手搞一把做个短平快的方案占领市场.

当然完全放弃LD/ST的风险非常大,例如对传统的HPC以及夏Core提到的Sparse矩阵的场景, 以及未来一些GNN场景的影响非常大.

其实使用Ethernet做ScaleUP互联这句话还有一些定语.

一方面是ScaleUP连接CPU系统的价值在于我们可以走出一条非NVLink-C2C的路出来, 现实中推理的KVCache管理和基于CPU的Decoding还是有需求的.

《谈谈大模型推理KVCache加速和内存池化》

另一方面,我也不认同直接在ScaleUP上跑RoCE, 并且一直在很多场合强调NV在搞的GPS/PROACT/FinePACK.

GPS对计算核还是一个LD/ST的内存语义, 根据不同GPU之间的Kernel进行订阅,并配合PROACT隐藏延迟

最后再通过FinePACK一类的机制打包成一个较大的message发送

其实这也就是夏Core谈到的

如果没有前置的这些工作, 直接用RoCE的方案是完全否定的. 特别是还有一系列多路径的调度拥塞控制等复杂逻辑的做法, 当然是明确反对的. 在这个位置, 正如几年前在做NetDAM的时候分析的, 我并不认同RDMA:直接扩展主机内总线.

对于拓扑, 我也一直反对任何异构的非对等拓扑, 虽然短期内解决了很多问题,例如多路径等, 但长期是无法演进的. 至于Lossless嘲讽的是那群做PFC魔改的人, 和夏Core无关,只是那一篇发表的时候刚好和两边的人都谈了, 对DCN和NOC夏core的见解有感而发.

另外, 选择Ethernet并不代表要选择RDMA, 只是一个在什么都没有的时候作出的妥协, 先把业务跑起来. 例如国内大量的推理市场需求下, 通过简单的更大带宽的互联把1T多模态的模型承接下来.

话说计党和网党的争论看样子还会继续下去, 但是我认同夏core说的, 而中国的比例，大家都懂的，做网络的太多了些：）不要因为网党而放弃了LD/ST的路, 另一方面计党很多人为了LD/ST还期望继续用PCIe Switch来做ScaleUP也是一个误区.

例如夏Core和UALink都谈到的

统一的物理层和链路层之上，Load/Store/Atomic或Read/Write/Send不过是基于带宽、距离、Topology的取舍之间的变化罢了。

那么有一个问题来了, RackLevel用Ethernet Phy来做LD/ST的一个小规模ScaleUP总线, 如果这里面是黑猫, 那么再上一级到Pod Level呢,或许就是白猫? 中间自然会出现一个类似于协议转换的东西, 熊猫就在这个地方, 希望也是计网两党能够成功会师的地方.

参考资料

[1]

AI fabric is a bus or a network？: https://zhuanlan.zhihu.com/p/708602042

zartbot

随便记录点有趣的东西

最新文章

推测一下Nvidia Rubin的288卡系统架构

AWS Re:Invent 从AWS CTO演讲的教训看AI云基础设施架构

AWS Re:invent GenAI路上快速的追赶者, 详细谈谈Trainium2/3架构

AWS Re:invent一场教科书级的“科普”

从Mooncake分离式大模型推理架构谈谈RDMA at Scale

中国大模型的生存战?

抄袭与创新

谈谈端侧AIPC网络安全的一个场景

ScalingLaw终结了么?

谈谈UEC和UALink是否融合以及协议设计相关的问题

再来谈谈未来AI基础设施演进和EthScaleUP

推荐一本《Streaming Systems》的书

谈谈大模型算法和基础设施的演进...

再来谈谈ScaleUP网络

算力通缩下的“老黄经济学”

把GPU当成一个金融产品如何上杠杆?

继续谈谈三万亿的破绽

聊一聊OAI Swarm和多智能体

敬畏市场, 但是还是要充满希望~

再谈谈A股风险教育以及英伟达挖了思科AI网络的头牌Fellow的八卦

谈谈上交所指定交易, Meta Movie Gen和GPU微架构

Option-001: 谈谈A股的风险管理

谈谈A股量化中性及期权策略和上交所故障

谈谈CoT和推理的Scaling Law

致敬小镇做题家的OpenAI o1

随性摸鱼: 谈谈TTPoE和ScaleUP以及HMC

Tensor-010 Tensor Copy

Tensor-009 Cute Tensor

HotChip2024后记: 谈谈加速器互联及ScaleUP为什么不能用RDMA

Tensor-008 CuTe Layout代数

HotChip2024-Day2: AI加速器互联和云AI处理器, Tesla是亮点

HotChip2024-Day1:AI加速器芯片

Tensor-007 Cute Layout简介

Tensor-006 AI软硬件交互界面: 可组合的Kernel

谈谈AI的软硬件交付界面

Tensor-005 CUTLASS简介

期待一下今年的HotChips

基于EthZ的以太网ScaleUP互联方案

谈谈下一代AI训练网络架构

[Sigcomm2024论文解析]谈谈网络研究和工程方法

Tensor-004 TensorCore编程及优化

[Sigcomm论文解析] Llama 3训练RoCE网络

Tensor-003 TensorCore架构

再来谈谈AI落地的事情

Llama 3技术报告解读(1)- AI基础设施和并行策略