Load/Store over ETH乎？

文摘 2024-09-03 09:32 美国

引言 — 引用夏Core知乎的一篇文章，赞同基于以太的朴素的实用主义，把能用的先用起来，未来的标准和统一很重要，眼下的实现和追赶也很重要。

不过，文中对于UALINK的判断是基于PCIE底层和switch的限制，这个底层不一定，有待观察，以太不香么。

另外，附上之前一篇对于特斯拉基于以太的传输协议的介绍。

热辣薯条(Hot Chips 2024) - 特斯拉的TTPoE

刷到了Zarbot一篇文章，看着挺有意思的：）

HotChip2024后记: 谈谈加速器互联及ScaleUP为什么不能用RDMA

想起前两个月和朋友喝茶，谈到这事，大致的观点还蛮相似。

首先，别惦记Nvlink。那是Nvidia征服世界的关键武器，Nvidian宁可开放Nvlink-C2C，也不会开放Nvlink，所以再好也没法选。其次，也先放下某些大公司大平台下才有的XX能力和YY能力，虽然我写过些主张，但那还是屁股决定的。。。。。。。

哇，我一睁眼，转生了。我是一个AI GPU Startup公司的架构师，公司有200来号人，还有大约5亿RMB还能烧，额，还得为流片预留2亿，那也就烧个1年半的。。。。。。。互联怎么选。买？做？能不能白嫖？

业界通常把AI互联分割成Scale-up和Scale-out，前后者带宽相差10x，假定前者1TBps，后者100GBps吧。

其实这两个问题有一个公共的麻烦，就是Switch，若买Nvidia GPU，必须要买Nvidia的Switch，甚至于如果Scale-Out选择IB，也只能选Nvidia。所以你即使想要替代Nvidia，先不说能力够不够做一个Switch，即使能，搞不好客户就坚决反对了，绑定了一个还不够，还绑两个？当然，如果参考DGX，做个8卡 All2all全相连，对外再走ETH，Scale-Up是可以免Switch的，但这种Topology毕竟属于老派，若未来有更大的Scale-up空间也没法支持，还会被客户质疑持续演进的能力。

看一下可选项：）没有Nvlink和UB，剩下的就是UEC、UAlink、ETH-X。

UEC是基于标准ETH的协议，BroadCom、CISCO甚至Nvidia（MLX）都在里面，Switch的问题瞬间解决了，甚至国产也问题不大。其上的协议则是RDMA改，这个协议做Scale-out挺好，协议也倡导如此，但并没有解决Scale-up的问题。当然，ETH+RDMA只要做大带宽，也能做Scale-up（也就是Zarbot说的RDMA Scale-up）。但是，还好我有过一点设计网口的黑历史，我盘指一算，做一个1TBps的RDMA，经验告诉我，需要~4000人月（不算软件），把手上的钱和人全烧掉都做不出来。

UALink是Broadcom的PCIe团队勾搭AMD诞生的，其底层其实是PCIe改，上层是Load/Store，当前没有cache一致性，这没关系，AI也用不上。嗯，不用设计复杂的RDMA，但Switch很明显有很多隐患，这Switch只有BroadCom一家可供，联盟里面有CISCO，但很明显此人没有真做类PCIe Switch的打算，想一想毕竟PCIe Switch和ETH Switch不太一样（和Silicon One差太多）。除非有人楞一个出来看看，否则搞得不好这事又卡在Switch上了。

ETH-X很多人说他是UEC的白手套，但你真聊下来有点不一样。这个协议添加了中国那种朴素的实用主义，所以他底层虽然是ETH标准协议，但上层其实包括了RDMA + Load/Store多种行为，可以协商再定制。这其实满关键了，Scale-out是可以买一个ETH-X的DPU走ETH+RDMA改的，而Scale-up，最佳的答案，就是基于ETH-X做Load/Store+ETH即可。Switch客户自己买兼容ETH-X的标准ETH Switch即可，国内好多Switch公司都表示小改一下就能出来。

站在Startup的角度，能白嫖就不要付一分钱。

统一Scale-Up/Scale-Out的底层，怎么看都还是ETH是最佳的选择，扁平、开放。

如果Scale-up做不出极高带宽的RDMA，用Load/Store就最简单了，反正Core和DMA都有Load/Store，增加跨片就好，不需要开发额外的网络传输模块，对Load/Store做一个Address Mapping和Packet Engine就好了。

所以呢

Scale-out买张RDMA的网卡（ETH+RDMA改），云豹？或者就用客户自研的，火山？和对方公司相互站个台，双赢。
Scale-up基于ETH-X做ETH层打包Load/Store（ETH+LD/ST），估算一下得大约100人月来交付。
与业界的各家ETH Switch做做兼容性测试，当然关键的拥塞路由等等得看看客户说了算。

什么，你说Load/Store缺乏重传机制，没法过光纤，无法组2K、8K的Scale-up大集群？哦，这就不是我Startup公司的菜，这种珠穆朗玛让其他人去攀登就好了，我们做到8卡、16卡，上探到像NVL32A那种，纯电互联，大约40~60KW的风冷/液冷兼顾边界的RACK规模才是主力的销售档位。

什么，你说ETH的包头负担太重，带宽利用率上不去。嗨，我先把系统兜起来，跑起来给客户才是关键，大公司比拼才纠结那5~10%的带宽利用率，小公司还不如好好打磨一下GPU Core，拿到的算力优化收益更大。

什么，你说ETH Switch延迟太大，嗯，也还好啦，国内有好几家ETH Switch都在朝着低延迟在优化，一些鸡鸣狗盗的玩法，至少是号称能够做到100~200ns级别了，如果到这个水准，和PCIe Switch相差也就不大了。

能白嫖就不想氪金。

为感谢支持，已点赞/分享/赞赏10篇/次以上的朋友，请加微信，进入微信群。我将发放免费加入知识星球的链接。

IT奶爸-知识星球

高阅读量文章

IT奶爸

实践是检验“专家”的唯一标准。一群认真执着的IT奶爸的学习和分享。

最新文章

聊一聊DDR（12）-DRAM的CS Training Mode(CSTM)

从Mooncake分离式大模型推理架构谈谈RDMA at Scale

聊一聊DDR（11）-DDR频率

液冷，网络，与整机柜 -- Intel IPDC 2024见闻

他山之石，集思广益 | IT奶爸文章奖励计划

英伟达，过热了么？

一文读懂 SFP家族

喜迎双11之月亮湖 -- 热辣薯条(Hot Chips 2024)

谷歌、康宁大超预期

Cerebras处理器架构细节

光计算互连（OCI）

AI 网络背景下 RDMA 的 Why， What & How 以及 Next

“E人”外卖小哥的“I人化”：Gaudi的RoCE优化实现

ETH-X项目及交换/计算节点结构散热设计介绍

近文小结与感谢 - 寄小读者