CPO和OIO的时间表
文摘
2024-10-27 18:37
上海
今天产业群一位技术大佬分享了英伟达OCP上的材料,这个图让人眼前一亮(下图)。过去我们以为基于这一代GB200的superPOD最高可以做到576卡,现在竟然有了1152卡全互联。这事儿3月份GTC后我们密集讨论了多次,576卡的问题在于:1)L2网络实现过于昂贵,网络快和GPU成本一样贵了,能耗也会非常恐怖;2)因此576卡superPOD很难有场景。那么1152如果真的是三层网络,那成本能耗都爆炸了难以想象。而NVlink最高寻址范围其实可以到2500+,如何降低L2/L3层的成本、能耗,或许是能否被下游采纳的关键。上周日我们发了CPO的文章后反响很多,目前看下来scale-out网络交换层走向CPO是巨头都在努力的方向,只是时间表预期、生态能否推动有争议。这里面很大一个变量,是台积电COUPE平台会大幅降低OE光引擎集约化的技术门槛,一旦成功就是潜在的技术突变(参考我们的历史文章:台积电硅光)。按照X800 CPO版本的量产时间、台积电COUPE 2.0时间表、博通Bailly CPO时间表,都指向了2026年第三件事:
3天前HPCwire采访了Ayar Labs CEO,最大的message就是——“2026年-2028年实现光IO(也就是OIO)量产”。这家公司其实一言难尽...有幸在2021年和他们前任CEO开过Zoom会,3年以来,虽然中间chatGPT横空出世互联技术加速腾飞,但Ayar这家公司的roadmap一拖再拖,量产时间不断delay,今年勉强能出1万颗样片。而当年那位CEO,现在已经跳槽到了英伟达负责某块业务的销售...回到这个新CEO的采访提及的量产时间,如果翻回2021年那一轮的BP,其实已经推迟了很多。Compute互联目前显然被电垄断,比如GPU IO,GPU to HBM,GPU to CPU,未来有可能走向OIO,但道阻且长。Network,无论是front-end Back-end还是scale-up scale-out,围绕Switch ASIC的光引擎的封装集约化,似乎是大势所趋,且相对而言比OIO时间表会更早。- CPO的时间点可能是2026,OIO的时间点至少要2027-2028,甚至更晚。这里面有技术的原因(比如台积电的时间表),有生态的原因,可能我个人对Ayar这家公司也有偏见...
- 在OIO成熟之前,L1层只能且最好用铜,按照老黄原话“Low cost low power high stability, use copper as more as possible”
- 而降低L2 L3层的能耗和成本(由于天然的物理瓶颈不可能走铜),围绕switch的CPO可能是中期答案。但量产归量产,能卖多少?聊了更多通信行业的技术大佬,这个问题是有争议的…
- 模型进化对infra的要求,过去我们叫“内存墙、带宽墙”,换种说法就是“带宽成本”(包括金钱和能耗)。而无论是铜缆、CPO、还是未来的OIO,都是为了尽可能降低带宽成本,在有限金额、有限能耗的条件下,降低延迟、压榨出越来越多的带宽。
- 按照台积电的COUPE路线图,台积电在AI上的涉足范围,正在从compute渗透进入network(通过先进封装),这个隐含的叙事所对应的价值空间可能是巨大的。本质上,是将过去离散的系统模块,集成到硅,这反正也是过去几十年的科技发展脉络。
- 说句题外话,“悲观者正确,乐观者成功”,最近一年最大的体会就是不要轻易看空科技,在国内也是,看过去10年全球科技的进步是一直超预期的,何况现在多了一个加速发动机...
(以上报告都已上传社群,更新了新的英伟达供应商名单、智谱AutoGLM的投资机会讨论)