GPU泡沫破裂了吗?

文摘   2024-10-13 20:53   上海  

今天被《GPU泡沫破灭前夜》文章刷屏了,简单谈谈感受,以及对投资有什么启示

1. H100算力现货价格下跌已经挺久了,不是今天才出现。首先反映了过去FOMO囤货带来的过度需求,在玩家集中过程中的算力出清。这里面开源模型对training需求的集中化的确是个重要推手。其次,从A100到H100,从H100到H200,从H到B,算力租赁价格下跌是自然而然的事情。Blackwell相比Hopper将算力成本降低了接近1个数量级,可想而知,当B卡上线部署的初期利润率会爆高,届时H价格还得跌。因此:

  1. 对于算力租赁厂商来说,首要任务就是抢新卡,就赚新产品迭代初期的6-12个月。现在还在新买H100去租赁,那当然是亏的。从这里也可以看出,英伟达“一年一迭代”对算力租赁这门生意来说,是极其负面的,投资回报风险剧增。

  2. 从OEM的角度,该甩货去库存了,那毛利率自然没法看。OEM核心竞争力又回到H200或者B卡的allocation分配权,抢不到新卡,业绩就敢死给你看...

  3. 从NV的角度,下游没人要H100啊,都抢H200或者B但这些产能肯定有限。那剩下几个月的H100 production生产咋卖?塞货...不过这对于NV的宏大叙事感觉也没啥影响,反正华尔街debate的都是25年之后的事情...


2. GPU真的泡沫破裂了吗?不如说,一直处于结构性供需失衡。比如看国内,早就有了过剩苗头,GPU现货价格比海外还低(1.6美元/小时),甚至很多模型厂开始甩卖GPU。而另一边,OpenAI还在抱怨微软算力上线不及时。这说明什么?生态的复杂性注定了我们不可能以集体最高效率方式分配GPU,比如把算力全给OpenAI或者Anthropic或者XAI(OAI对手也不愿意,美国对手也不愿意,老黄更不愿意... )而目前GPU也没有标准化到可以随意转售和迁移(比如大小集群的需求差异)。以上导致这种结构性失衡可能一直存在。

整体GPU供给是否过剩?个人觉得相对于目前AI的整体回报来说,的确是过度投资....(老黄真的值得诺贝尔经济学奖,《如何让全世界甘愿亏着钱也要抢GPU》) 但从AI更长期发展来看,算力替代人力、智力,成为社会的水和电这件事,似乎已经不可逆了。而需求和供给其实已经进入了某种互相推动的状态:算力的富足会让模型进步更快、模型的进步会吃掉更多的算力。局部、短时间、结构性的算力过剩或者紧张,对于整个AI投资大主题来说,都不敢拿去过度线性外推。

3. 假如出现短时间大面积过剩,后面如何演绎?NV现在这架势,不管需求如何,GB200、GB300、Rubin、Rubin ultra、Rubin-Next这眼花缭乱的路线图,会继续让算力成本以数量级速度降低。我大概匡算了下(参考下图),到2025年底,全球GPU存量大概等效于超过3000万张H100!什么样的需求能吃掉3000万张H100,我也好奇...

其次,我们星球嘉宾stacy曾经上传过一个CSP各家的预算分配,各自拿多少万张Blackwell,可以看个大概。关键是除了CSP抢的这些,市场上还会流出200多万张,也就是等效于1000万张以上的H100算力出租,需求来自哪里,现在其实也看不清。

最后,推理的软件优化速度是极快的。就看看DeepSeek当初的工作,以及现在各种蒸馏、小模型的进展。某种程度上,这都是被缺卡逼出来的,软件工程师会用各种方法削弱对硬件的依赖...降本增效嘛

因此,至少在明年之前,推理算力可以说是非常非常富足,就看需求能否被激发出来...

过度投资,在之前每次科技革命好像都发生过。比如2000年海底光缆的过度投资成了之后互联网廉价的基础设施。现在最关键的问题是,算力的富足,可能并不是AI模型能力继续提升的充分条件,只是个必要条件,还需要research上的更多进步(这方面似乎已经出现了更多可能性)。可能到了某一天,多年的投资真的让算力唾手可得,可能research上的进步可以更多、更快得转化为模型能力的提升...

最后,回到投资,AI可能依然会是最重要、最具包容性的投资主题(无论多还是空)。只不过过去2年,大家一直围绕供给侧尤其是硬件端有限的机会来回博弈。这种状态不太健康也不可持续,个人觉得不太会是戛然而止,而是逐渐泛化,会有更广泛、更多层次的机会慢慢出现。

上述文件都在星球里了,此外今天robo也更新了10月最新出炉的NV路线图。下周有好几个业绩ASML、台积电,到时一起讨论

信息平权
理性 客观 朴素