谈谈下一代AI训练网络架构

文摘 2024-08-12 23:11 浙江

看到Meta在CTSW上用了带HBM的Jericho2,buffer深度10ms, 还大言不惭说就此不需要DCQCN了? 反正22us延迟也不是个事情, 成本也不考虑, 连RTSW到CTSW 2倍带宽的事情都干的出来.

于是我给这群人和他们的信徒们出个招, 而且还在以太网上可以很容易的实现在网计算, 根本不需要什么拥塞控制. 于是我们可以设计下面这种超级CTSW, 提供极致的Smart Core Dumb Edge解决方案.

直接把Intel Gaudi3当Jericho2来卖, 整个集群提供3072个200G接口, 并且提供总计高达32TB的buffer,既有以太网的ScaleUP, 还有ScaleUP和ScaleOut的融合, 还可以帮助Intel提升市值. 你们不是特别喜欢在网计算么, 直接把计算节点当网络节点卖不就行了?

大概算了一下,如果一颗Gaudi3大概10K USD,平均每端口成本也就1K USD不到呀. 看看Intel现在这个市值和大量Gaudi3的销路问题, 还不如把它当颗带HBM交换芯片卖了? 让他们给个骨折价估计还是愿意的. 接口带宽从Jericho2的每端口500MB直接提高到10GB, 翻了20倍, 整机带宽从Jericho2 576个400G提升到3072个200G, 容量提升了2.6倍.

这样做不光可以随路做Allreduce/Allgather, 让它做个Parameter Server来跑Optimizer都行. 甚至在推理过程中的Prefill-Decoder部署时, 还可以拿Gaudi3做Decoder. 模型参数也可以直接Checkpoint到这整个CTSW上的32TB内存上. 然后MoE也可以Offload一些到这些随路节点算.

整个网络要什么拥塞控制?PFC只在H100和Gaudi3之间一段, 整个集合通信的参数量都能在Gaudi-3上buffer住. 然后32TB做推理的分布式KVCache也够牛了吧?

如果嫌Gaudi-3和HBM贵, 那么又来一个乞丐版的方案, 找一堆X86配一堆400G网卡做到单服务器3.2T也不是不行?

后记

实在等不及明年愚人节发了, 当一些人踏上一条路到极端的时候, 那么就从这条技术路线上再往前多走几步, 看看是否荒唐? 当然我们也可以像前文那样编造各种荒唐的理由, 反正不是不用考虑钱的问题么? 包括UEC这群人搞什么Low-Latency Ethernet, 也让我想起几年前愚人节的一个玩笑...

《IPv6- : 基于IPv5的48bits寻址互联网协议》

祝您这条路上走的快乐~

反正我还是坚信Smart Edge Dumb Core这条真理

[Sigcomm2024论文解析]谈谈网络研究和工程方法

zartbot

随便记录点有趣的东西

最新文章

推测一下Nvidia Rubin的288卡系统架构

AWS Re:Invent 从AWS CTO演讲的教训看AI云基础设施架构

AWS Re:invent GenAI路上快速的追赶者, 详细谈谈Trainium2/3架构

AWS Re:invent一场教科书级的“科普”

从Mooncake分离式大模型推理架构谈谈RDMA at Scale

中国大模型的生存战?

抄袭与创新

谈谈端侧AIPC网络安全的一个场景

ScalingLaw终结了么?

谈谈UEC和UALink是否融合以及协议设计相关的问题

再来谈谈未来AI基础设施演进和EthScaleUP

推荐一本《Streaming Systems》的书

谈谈大模型算法和基础设施的演进...

再来谈谈ScaleUP网络

算力通缩下的“老黄经济学”

把GPU当成一个金融产品如何上杠杆?

继续谈谈三万亿的破绽

聊一聊OAI Swarm和多智能体

敬畏市场, 但是还是要充满希望~

再谈谈A股风险教育以及英伟达挖了思科AI网络的头牌Fellow的八卦

谈谈上交所指定交易, Meta Movie Gen和GPU微架构

Option-001: 谈谈A股的风险管理

谈谈A股量化中性及期权策略和上交所故障

谈谈CoT和推理的Scaling Law

致敬小镇做题家的OpenAI o1

随性摸鱼: 谈谈TTPoE和ScaleUP以及HMC

Tensor-010 Tensor Copy

Tensor-009 Cute Tensor

HotChip2024后记: 谈谈加速器互联及ScaleUP为什么不能用RDMA

Tensor-008 CuTe Layout代数

HotChip2024-Day2: AI加速器互联和云AI处理器, Tesla是亮点

HotChip2024-Day1:AI加速器芯片

Tensor-007 Cute Layout简介

Tensor-006 AI软硬件交互界面: 可组合的Kernel

谈谈AI的软硬件交付界面

Tensor-005 CUTLASS简介

期待一下今年的HotChips

基于EthZ的以太网ScaleUP互联方案

谈谈下一代AI训练网络架构

[Sigcomm2024论文解析]谈谈网络研究和工程方法

Tensor-004 TensorCore编程及优化

[Sigcomm论文解析] Llama 3训练RoCE网络

Tensor-003 TensorCore架构

再来谈谈AI落地的事情

Llama 3技术报告解读(1)- AI基础设施和并行策略

Tensor-002 矩阵乘法优化

Tensor-001 矩阵乘法分块乘法概述

谈谈AISys架构师的基本素养

再来谈谈AI Fabric,你是计党还是网党?

谈谈AI Fabric, bus with network ?

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉