再来谈谈ScaleUP网络

文摘 2024-10-29 00:20 浙江

今天有个同事发现一个好玩的事情, UALink里面没了BRCM的Logo

然后晚上又和几个朋友聊了一下.... 其实一开始按摩店去找BRCM做PCIe交换机的人搞UALink就是一个错误, 也是渣B早期一直Diss UALink的地方, PCIe有太多的限制和沉重的包袱了...

走以太网的路, 我举双手双脚支持, 再加上里面基本上定制加速器的主流玩家都在了, 应该成功的概率比其它方案高一丢丢吧?

《HotChip2024后记: 谈谈加速器互联及ScaleUP为什么不能用RDMA》

最近还听到很多公司对ScaleUP还是没想清楚, 例如GPU的NOC上能不能把128B往上提一下到1KB? 或许渣B只能对这类人说:“请您去好好读一下《计算机体系结构:量化方法》的第二章还有附录B? ”..你以为128B到1KB就是改个MTU那么简单么?

不要怪渣B喜欢diss人, 忠言逆耳啊, 当年那些人做DPU的人不听渣B的话, 如今沦落到啥下场? 要是当初老老实实的抄个NetDAM, 你看看现在GPU的I/O Die的生意不就做的风生水起了么?

《DPU新范式: 网络大坝和可编程存内计算》

其实你翻开几年前NetDAM的论文, 把ScaleUP(Intra-Host)总线如何桥接到ScaleOut(Inter-Host)总线的问题分析的那么清楚

无论是拓扑/延迟/丢包(无损)/Cache一致性/多路径/FlitSize, 都讲的清楚了. 解法也特么简单到谁都会玩, 就网卡上挂一块内存就行了

这样ScaleUP和ScaleOut就统一了, UALink最终也要走到这里

然后你再看看Tesla的TTPoE, DumbNIC, 大道至简, 有时候做人不要太聪明就好了...

除了Tesla的DumbNIC, 还有某个知名大厂也准备做类似的事情了...

至于有人谈Optical Memory I/O, 想想看当我们有了一个CPO的Switch, 然后如下图这样?

这是三四年前的图了, 如今只需要把switch的带宽换成102Tbps, 内存容量换成10TB, 然后接口带宽换成800G~1.6Tbps即可.

对大模型你会收获什么? Disaggregation-HBM,甚至你都不需要HBM, 不需要CoWoS, 一大堆GDDR7不香么?

对于CPO或者Optical NOC稍微多说几句, 对于交换机而言, 如果要做高Radix,例如做到1024个112G Serdes的102T交换机, 整个封装的问题如何解决? 一些翘曲和板上焊接的可靠性良率如何保障? 如果要Radix做到2048呢? 其实很多事情不是单纯的光或者铜 , 多从其它角度考虑一下物理约束不行么?

至于前面一篇谈到NV 5万亿的市值, 说实话看到这个价位的大概有前几个月的但斌总, 当然还有老黄了, 毕竟最近一段时间高薪快速扩张了很多人, 再加上Blackwell订单的预期, 不做市值管理到这个数到时候就是万丈深渊了.

至于渣B反正看不懂也懒得预测, 不过我们还得警惕几个事情, 大选和日元套利交易的终结等, 很有可能这些都会出一些黑天鹅的事件...不多说了,点到为止...

zartbot

随便记录点有趣的东西

最新文章

推测一下Nvidia Rubin的288卡系统架构

AWS Re:Invent 从AWS CTO演讲的教训看AI云基础设施架构

AWS Re:invent GenAI路上快速的追赶者, 详细谈谈Trainium2/3架构

AWS Re:invent一场教科书级的“科普”

从Mooncake分离式大模型推理架构谈谈RDMA at Scale

中国大模型的生存战?

抄袭与创新

谈谈端侧AIPC网络安全的一个场景

ScalingLaw终结了么?

谈谈UEC和UALink是否融合以及协议设计相关的问题

再来谈谈未来AI基础设施演进和EthScaleUP

推荐一本《Streaming Systems》的书

谈谈大模型算法和基础设施的演进...

再来谈谈ScaleUP网络

算力通缩下的“老黄经济学”

把GPU当成一个金融产品如何上杠杆?

继续谈谈三万亿的破绽

聊一聊OAI Swarm和多智能体

敬畏市场, 但是还是要充满希望~

再谈谈A股风险教育以及英伟达挖了思科AI网络的头牌Fellow的八卦

谈谈上交所指定交易, Meta Movie Gen和GPU微架构

Option-001: 谈谈A股的风险管理

谈谈A股量化中性及期权策略和上交所故障

谈谈CoT和推理的Scaling Law

致敬小镇做题家的OpenAI o1

随性摸鱼: 谈谈TTPoE和ScaleUP以及HMC

Tensor-010 Tensor Copy

Tensor-009 Cute Tensor

HotChip2024后记: 谈谈加速器互联及ScaleUP为什么不能用RDMA

Tensor-008 CuTe Layout代数

HotChip2024-Day2: AI加速器互联和云AI处理器, Tesla是亮点

HotChip2024-Day1:AI加速器芯片

Tensor-007 Cute Layout简介

Tensor-006 AI软硬件交互界面: 可组合的Kernel

谈谈AI的软硬件交付界面

Tensor-005 CUTLASS简介

期待一下今年的HotChips

基于EthZ的以太网ScaleUP互联方案

谈谈下一代AI训练网络架构

[Sigcomm2024论文解析]谈谈网络研究和工程方法

Tensor-004 TensorCore编程及优化

[Sigcomm论文解析] Llama 3训练RoCE网络

Tensor-003 TensorCore架构

再来谈谈AI落地的事情

Llama 3技术报告解读(1)- AI基础设施和并行策略

Tensor-002 矩阵乘法优化

Tensor-001 矩阵乘法分块乘法概述

谈谈AISys架构师的基本素养

再来谈谈AI Fabric,你是计党还是网党?

谈谈AI Fabric, bus with network ?

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉