我到底是计党,还是网党呢? 其实一开始我就是存党,四年前做NetDAM的时候就很清楚的表明了这个态度
网党向左, 计党向右
, NetDAM的论文也讲清楚了,计党伸的太远会遇到的问题, 网党捅进处理器也有自己的难处, 紧密团结在存(Mem)党周围才是出路, 没做过体系结构的人很难理解这个事情. 为了把事情说清楚开个车.
0. 开个公交车
其实这里的计党并不是纯粹的计党, 而全称应该是计算总线党. 计党和网党的目的都是怎么把PP(Parallel Processors)捅爽, 捅的爽的时候又不让人家便秘(算好的数据要拉出来). 计党单纯的想捅的快, 网党认为足够粗就够了, 都抛弃屁股来谈捅的姿势好像有点问题吧? 但PP的快感你们问过么? 太快的牙签像挠痒痒, 太粗了也会不舒服. 问题的关键在此.
紧接着的一个问题就是还正交了一个云党, 弹性和多租要求他一定要群P, 按需供应PP, 玩的这么花一定要带个套, 那么问题来了, 套肯定要做薄是共识, 捅太快容易破, 太粗的又需要大号. 那么要螺纹的,还是颗粒的?
而这个套又引申出一个Lossy和Lossless的问题. 云党群P的弹性多租视角下一定是要这么解决的, 例如夏Core说的“技术能力强的OTT”,
单租的视角不带套也无所谓反正Lossless也能解决, 但是PFC是坨翔, 便秘的滋味不好受的.
紧接着如果要做在网计算,本来交换机Buffer就吃紧, 在上面再搞计算那么一定要吃掉PFC这个翔. 例如Reduce-Scatter后的All-Gather从网络的角度来讲,就是一个广播风暴, 前些年在大规模数据中心内去BUM(广播Bcast、未知单播Unkown、组播Mcast)
的事情又忘的一干二净了?
英伟达在IB上能做SHARP而在Spectrum以太网上不能做的更深层次的原因各位要考虑一下. 本质上还是Credit Based的Non Buffer交换机可以渡让一些Buffer来做计算, 虽然跑分看上去有收益, 实际E2E的收益有多少?
Meta不是有两个Hopper的集群么, 一个IB一个RoCE. SHARP有显著的收益么? 而NVLS的收益来自于计党,具体的原因都懒得多讲.
几周前和BRCM搞在网计算的xx1的架构师吃了一顿饭也很深入的聊到了这个问题, 后面详细说, 所以我从来都是以存党为中心的地方去做计算, NetDAM的Reduction计算是以内存为中心的对等的一个PP是计党.
1. 计党谈技术
计党是从可编程的角度来看待这个问题, 做一个大号的PP让所有的人捅爽是一个理想, 最好不让客户怒骂(NUMA). 但是当计算规模和处理器规模足够大了以后, 处理器基本上都需要挂个肛肠科.例如FlashAttention3就要用TMA和WarpGroup来做访存和计算的Overlap来润肠.
进一步肠道拉长了, 肠梗阻就会发生, 特别是加了Cache Coherency以后, 要保证胃和肛同步是一个难题, 会蹿稀么? 这也是大概回到2021年附近, 我并不认同灵衢总线(UBMA)的做法, 主要的争议就在这里, 还有就是我想薅以太网的羊毛, 另外还有很多可靠性的问题, 和大规模组网成本的问题就不展开了.
简单的说, 单纯的计党要想继续扩大规模也很难.
2. 网党谈生存
夏Core文章后面有个评论, 或许也代表着一种声音
这才是网党的屁股. 我并不是单纯的网党, 我只是想薅以太网的羊毛而已. 至于在网计算的网字, 我更认同这个网是NOC的网, 也就是计党
在以太网上要搞在网计算需要十分小心的去考虑交换机的TM, 这是一个非常难的问题. 一方面GPU本身的内存瓶颈必定会因为计算带来外部网络无法捅数据进去产生的慢节点的问题. 另一方面慢节点又会影响在网计算等待buffer.
不考虑Overlapping,我承认SHARP/INCA都能跑的非常高. Overlapping后那么GPU就要做更细粒度的通信/计算/访存调度, 然后还要考虑L2Cache和SMEM以及GMEM的干扰问题.
一切以非E2E视角的单纯跑分的Benchmark收益,并没有任何参考价值.
3. 摊牌, 我是存党
回到本质的问题上, 其实就是解决内存墙的问题.
在这里就需要互相渡让计党和网党的利益, 和为贵. 例如网党难搞的MultiPath, 我这种用计党的办法很容易就解决干净了,并不需要什么确定性的xxx. 计党难搞的Lossy问题, 网党其实也可以很好的补充. 既然大家的目的是一致的, 都是让屁股开心, 相互让一让就好.
其实这条路, 夏Core说的这段话计党和网党的人都不太明白
可能出乎很多人意外 :) 实际上Load/Store/Atomic如果做成异步DMA的方式,是可以做到无限的Outstanding,只要Memory Bandwidth大于IO Bandwidth,无需流控,可以无限Load Outstanding。
这个逻辑的本质,其实和Zartbot提出的NetDAM很类似,其实,只有获得了Memory的控制权
,端侧的IO的能力才能发挥出蛮荒之力。看明白了NetDAM的话,再进一步,就是无限outstanding的Load/Store/Atomic DMA了。
摊牌, 我是存党, 我承认我就是在给计党和网党拉皮条. 有些东西涉密就不公开对外讲了.
但我会对计党说, 你的LD/ST有保障. 至少在机柜内. 也会对网党说, LD/ST这些牙签在DCN网上不需要, 并赞赏你们DMA的粗.
虽然器大, 但活好还要有人配合, 怎么捅PP真的是一门艺术, 大小适中, 九浅一深(多次DMA,一次Notification), 频度合适, 配合PP的感受才是最重要的,
我搞艺术你搞我, 但愿您能深入艺术~