把GPU当成一个金融产品如何上杠杆?

文摘 2024-10-19 17:37 上海

本文就是渣B又菜又想扯淡的周末闲聊, 文中的观点和作者任职的机构无关.

有一点点标题党,谈这个问题,一方面是国内的各种“智算中心”, 实际上是一种融资租赁的业务模式, 但中间面临租赁端的需求风险和市场供应带来的租金下降的风险如何处置? 前段时间还在和一个好朋友调侃她可以去做算力不良资产处置了, 另一方面是像微软这样体量的如何通过GPU的流动性来进行市值管理?

谈这两个问题之前闲谈几个八卦, 主要是又菜瘾又大, 不想看直接往下拉~

幻方逐渐停止量化中性产品
Tesla Dojo芯片互联TTPoE的大佬Eric离职
思科Silicon One + AMD Pensando 给微软做的网关

正文在这里...

如何把GPU当成一个金融产品上杠杆? 4.1 GPU交易的金融创新 4.2 谈谈GPU的流动性溢价 4.3 加杠杆的路径 4.4 技术的周期 4.5 市场的周期 4.6 务实的路径

1. 幻方逐渐停止量化中性产品

昨天晚上看到一个消息, 幻方宣布放弃中性策略. 对于市场的理解是要战略性的做多中国么? 其实正如我上周末在回调时谈到的《敬畏市场, 但是还是要充满希望~》,至少这一周的情况是已经企稳并在周五开始有些反弹了.

其实从个人的观点来看, 一直都不认这些市场中性策略的, 对冲只是一个工具, short is short, long is long 这句老话也代表了在时间维度上错配. 降低风险敞口的另一面也代表收益敞口的降低, 那么另一方面就只能加大杠杆来获取更多的收益, 在极端风险时从年初的DMA到9月底的这一波多的话就不讲了. 量化对于全市场风险的动态测度和预测,特别是未来交易日的波动率风险预测上来动态的暴露敞口, 但是很多花街回来的人照本宣科....但是很多现有的东西都忘了一个系统性风险和流动性的度量, 这个话题非常难.

渣B20多年一直以来的研究和量化算法都是系统性风险的角度去分析, 跳出一个维度去做事情, 你就会发现其实就有很多不同的选择了.

昨天还在跟朋友调侃, 渣B只有回到上海的家里才发现自己是一只金融狗...找到一张珍藏的卡

这是90年代后期家庭大户室的必备品, 当时互联网还刚刚兴起, 互联网行情基本上没有都只能通过图文电视来广播传递行情数据, 而且电视机里也经常有几个图文电视台滚动的播放行情. 交易是采用电话委托的方式...

谈到大A的一些历史, 家里还有两本老书, 蛮值得回味的, 主编之一正好是现在的证监会的主席吴清先生

另外关于期权的笔记, 是一份纸质的在2017年整理的资料,因为一直放在上海的家里...后面等工作的事情忙完了再来一点点的抽空整理成电子版发出来吧...

但是Option-001都给我删了, 让渣B怎么写002呢?

2. Tesla Dojo的Fabric互联负责人离职

今天早上在Linkedin上看到Dojo Fabric的负责人Eric离职了, 从后面的回复看是去了AWS做 Trainium,倒也很期待Trainium和Nitro一起搞一些事情出来.

TTPoE的DumbNIC和当年我在思科做的NetDAM,其实真的很多事情大道至简, 但是做计算的人不懂一些网络上的约束, 做网络的人又压根不愿意去了解计算上的很多约束, 以至于国内各种做网络牵头的互联协议总线盛行...

3. 思科Silicon One+ AMD Pensando

One Size never fits all的话谁都会讲, 但是公司政治经常有要选择One. 我经常吐槽说凡是以One命名的产品可能最终的结果都不太好, 例如以前Sony也搞了一个One系列. 然后Intel前些年也在搞OneAPI啥的, 会想起思科以前也搞过一个OnePK....

这不思科发布了一个带8个AMD Pensando Elba DPU的交换机么? 当初说好的One ASIC for Routing and Switching呢? 为啥还要外挂一个可编程的DPU呢?

实话实说就是做S1的这群人压根就没做过Routing,特别是Service Routing, 而AMD Pensando这帮人亦然, MPLS也是常年做交换的有很多Service Routing特有的东西他们并不清楚.

其实这玩意是设计为Azure用的, Azure一直对于转发的流表和安全组这些东西喜欢用一个外挂的盒子来处理, 最早是用的Cisco ASR1000系列路由器的Service Routing功能来做的

然后后续因为Cisco这样的商用IOS操作系统并不符合云上快速迭代的需求, 以及在容量规模上的需求, 然后还有一些部门墙的因素. ASR1000在重组的过程中和企业级的产品线合并到一个BU了, 而云这些客户属于运营商BU, 因此对于部门和业务边界的考虑并不允许ASR1000构建分布式的大容量框式或者使用更先进的工艺做更高吞吐的产品.

然后后期因为Silicon One的决策, ASR1000的处理器演进几乎停滞, 然后针对SP的LightSpeed ASIC对Azure要的一些功能,特别是NAT/防火墙这样的一些带状态流表的功能支持也并不完善, 印象中这个位置的设备后期都换成Juniper的MX系列了(时间长了记不清楚了,请各位指正一下

至于用Pensando Elba这件事情, 思科的CEO要不要反思一下呢? 前几天还有一篇SDNLAB的文章《HPE“内涵”思科忘了自己是一家网络公司，罗宾斯回怼！》, 花了280M买的Splunk和针对Silicon One一条道走到黑如何让自己错过了整个AI Infra的变革?

渣B在2018年就开始在折腾AI Infra, 从数据处理平台到相应的多业务网关以及AI-Network的工作, 现在被迫买个快过气的Splunk, 然后看着JP也跑路了, S1还要外挂DPU做何感想呢?

Silicon One面对复杂业务多次访问内存需要像Pensando这样的DPU来打辅助其实早就被看的明明白白的, 当时就有一些POC demo反复汇报过, 可惜错过了...出于一些保密的要求就不多谈了..

当然对于Azure这种所谓的Floating NIC的做法, 反思一下真的对么?

一方面服务器上本来就有DPU, 随便拉一台BRCM TD4复用服务器上的DPU资源不行么?非要外挂一个盒子来做? 买了Fungible还要用Pensando, 只能说Azure自己的DPU还是不行吧?

至于去diss Nitro的性能, 只知道pps和带宽,或许还是有很多功能上业务上的需求都没搞明白吧 ? 当然整个infra在开建的时候没想明白SDN架构带来的沉重负担则是另一个话题, 所以在做AI Infra的时候, 特别是在规模起来之前, 很多事情还是要前瞻性的想清楚..

4. 如何把GPU当成一个金融产品上杠杆?

好了,闲谈结束进入正题. 最近经常调侃老黄经济学是怎么把GPU做成一个金融产品的.本质的问题是当下的大模型并没有发挥出应有的生产力来, 因此对于GPU集群的ROI要怎么计算呢?

Azure对NVL72的需求远大于其它CSP又是为了什么呢? 从金融产品的视角来看,本质上就是在追求一个“流动性溢价”的过程. 另一个方面,这几天的某企业大模型训练过程中因为卡的资源分配到不同组带来的一些Loss/Optimizer的异常行为, 本质上也是流动性带来的问题.

4.1 GPU交易的金融创新

在交易所监管的过程中,通常有一个准则:"不以成交为目的订单都可以视为欺诈". 但是对于GPU这样的商品交易并无监管, 相反流动性紧张带来的市值溢价反倒成了“The More You Buy, The More You Save” 其实这些最终都会反噬到企业本身, GPU的泡沫逐渐在几个周期的迭代下就会显露出来.

而GPU的交易恰恰反映了“金融创新”的实质: 绕监管+上杠杆.

4.2 谈谈GPU的流动性溢价

从Scaling-Law开始, 流动性的紧缺就诞生了. 从早期的V100训练的GPT, 到千卡A100的训练规模,再到万卡的H100, 下一步大概是十万卡的B200?

幂律下的算力的需求,乐观的来看是模型演进有了明确的路径和收益,只要算力按幂律配合即可. 而另一方面悲观来看, 从投资回报率和商业模式上来讲, 成本也要按幂律下降才行, 虽然今年国内各个大模型厂家已经卷了一大轮价格战了, 但是离真正大规模落地的应用还有一段距离.

流动性的溢价使得早期的GPU租赁市场ROI非常好, 而如今价格已经跌到盈亏平衡线下方了.

这些流动性溢价不光是在服务器供应商(超微/Dell)上有体现, 在很多大模型的训练团队里也有体现, 在ScalingLaw的大潮下, 卡作为一种紧缺资源的分配, 也成了团队间绩效溢价的关键影响因子. 所以某大厂大模型训练时被xxx的事情, 几经辟谣和反转,某大厂官方的回复也来了, 截图如下:“事情是真的, 确实有损失但是损失没那么大, 然后没影响到线上商业化的业务”,

到底影响有多大呢? 就不猜测了, 根因还是GPU流动性带来的问题.

4.3 加杠杆的路径

正是由于ScalingLaw和对AGI的美好未来的憧憬, 构成了一个很完美的期货. 只要算力够和数据够,AGI就能实现,这是这两年来的共识. 基于这样的共识下, 一场浩浩荡荡的GPU军备竞赛就开始了. 大模型公司的市值估计因为AGI的憧憬推上了千亿美金, 承担算力租赁的CSP也因为模型的投资和算力的需求和一系列Copilot的业务预期被裹到这个路径上来, GPU厂商的估值也到了三万亿以上, 然后进一步是供应链的估值体系的抬升.

似乎整个链条都推高了市值, 都赚到了钱, 但是谁是真正的买单的呢?从Pre-Train ScalingLaw再到Post Train Scaling Law,再到Inference ScalingLaw... 杠杆一步步的往上加, 反正ROI的问题都是期货, 要最后交割的时候才能算清楚.

当然渣B在这个时候并不是在技术上否认AGI的路径,只是在从金融的视角来看待这个问题. 本质上,这一个杠杆的链条背后还隐藏着一个货币本身的流动性泛滥和无风险资产荒的背景, 伴随着地缘政治和美元加息的背景下, 这套逻辑是成立的.

当然为了进一步的流动性溢价, CoWoS产能上, HBM供应上....正如老黄所讲”blackwell demand is insane”, 算力通缩的车轮开动了...

对于微软的ROI, Blackwell不抢会面临已有的持仓头寸快速贬值同时由于Capex的下降带来市值的影响. 对于其它CSP, 如果不跟着微软抢, 已有的集群和存量的业务都会丢掉. FOMO下如同国庆前的大A...

4.4 技术的周期

一个比较难受的问题是算力增长上, 英伟达会逐渐遇到瓶颈. 抛开FP4这些指标看，就FP8/FP16 Tensorcore的性能来看，B200 两个Die 实际性能提升了2.27倍(2250/990TFLOPS)，也就是说平均每个Die来看只提升了13.5% 看样子后续单芯片算力增长有些乏力了。然后到现在都在给客户发货了,官网依旧找不到Blackwell的架构白皮书, 单芯片的瓶颈就在那里...

那么另一方面的杠杆只能加在互联上, 写了好几篇关于NV三万亿破绽的文章都在探讨这个问题,无论是互联还是单芯片的GPU架构上, 都遇到了很大的挑战.

三万亿的破绽

4.5 市场的周期

从市场的周期来看, 除了美元降息和大选的变数, 还有一个事情需要留意:

另一方面, OAI的这一轮融资, 苹果最后退出了也有点意思. 然后OAI的股权问题, 如果造出了AGI和微软之间的关系, 还存在更多的博弈...

4.6 务实的路径

其实你看看呀, Meta和Tesla的路径都是相对务实的, Meta的集群里H100的大规模建设本来就是为它的搜广推服务的, 虽然16K卡在训练Llama3.1但还有很多256卡的小任务在跑推荐系统的算法. 而Tesla的Robotaxi的ROI, X的推荐系统以及自建的Dojo和H100集群的建设周期来看,都是非常务实的. 正好最近在看一本书

然后最近也看了一下Vivo X200的一些端侧AI的用户体验. 个人觉得吧3B端侧, 配合 7B~13B~70B的云侧推理系统来构建一系列的推荐系统在2025年可能会有实质的业务落地场景. 像H20/L20这些卡的ROI应该是可预期的.

对于推荐系统, 特别是一些小规模(7B)的多模态模型或许能够很好的改善当前推荐系统的很多问题带来实质性的营收.

另一方面在3B~7B的模型基础上研究一系列Inference ScalingLaw的算法也降低了研究门槛, 因为基本上一些小规模团队也能负担得起的研究会进一步提升这些卡的利用率.

大概这些就是渣B的观点(或者说暴论)....

zartbot

随便记录点有趣的东西

最新文章

推测一下Nvidia Rubin的288卡系统架构

AWS Re:Invent 从AWS CTO演讲的教训看AI云基础设施架构

AWS Re:invent GenAI路上快速的追赶者, 详细谈谈Trainium2/3架构

AWS Re:invent一场教科书级的“科普”

从Mooncake分离式大模型推理架构谈谈RDMA at Scale

中国大模型的生存战?

抄袭与创新

谈谈端侧AIPC网络安全的一个场景

ScalingLaw终结了么?

谈谈UEC和UALink是否融合以及协议设计相关的问题

再来谈谈未来AI基础设施演进和EthScaleUP