本文是红杉资本8月5日发布的最新文章,预测了AI竞赛的下一阶段将会更多地由物理构造而不是科学发现来定义。
//
在过去 12 个月中,模型对等竞赛一直是 AI 领域的标志性项目。这一阶段的特点是寻找新的研究技术、更好的训练数据和更大的集群规模。
人工智能竞赛的下一阶段将会有所不同:它将更多地由物理构造而不是科学发现来定义。
到目前为止,您可以通过主机托管或改造将训练集群安装到现有数据中心。如果您需要将集群大小从 15k GPU 增加到 25k GPU,您可以找到插入更多 GPU 的方法。这种情况正在改变:“惨痛教训”——大多数 AI 市场参与者都已内化——表明模型大小是性能的首要驱动因素。因此,下一代模型的目标是将模型规模增加 10 倍,达到 300k GPU。要容纳其中一个模型,您需要构建一个全新的数据中心。
这从两个根本方面改变了人工智能:首先,它改变了模型之间的交付周期。如果以前你可以在 6 到 12 个月内训练出模型,那么现在你需要增加 18 到 24 个月的建设时间才能真正开始训练。其次,它改变了最大竞争优势的来源。在新时代,建设效率可能比研究突破更重要。
人工智能运作方式的巨大变化是上周大型科技公司财报的主要主题。大型科技公司的年度资本支出从去年的 1380 亿美元增加到 2290 亿美元。这 910 亿美元的增量运营支出是新人工智能数据中心建设的一个很好的代表——这是一项巨大的投资。
今天的资本支出可能会在 2025 年末至 2026 年初之间产生成果,届时我们将会发现这些更大的模型是否足够智能,能够开辟新的收入来源并产生投资回报。
资料来源:收益记录,公开文件。“增量资本支出”是新 AI 数据中心运行率支出的代理。
那么,未来 1 到 2 年究竟会发生什么?如何才能在 AI 的新阶段“获胜”?
建立数据中心是一项繁琐而复杂的业务。我们认为,日常运营执行将对谁能取得最大成功产生最大影响。幕后运作方式如下(在这个例子中,我们假设一个租赁结构。在内部建设的情况下,超大规模企业既是客户,又是房地产开发商):
一家房地产开发商(QTS、Vantage 和 CyrusOne 是三家知名的公司)去购买他们认为可以建造数据中心的土地和电力。
开发商与大型科技公司接洽,并向他们提供数据中心 15 年或 20 年的租赁期,总成本为 20 至 100 亿美元。
一旦开发商签署了协议,他们就会进入资本市场,并根据该协议筹集资金,通常是从银行或房地产投资者那里筹集资金。
债务投资者并不是在承保数据中心未来的人工智能需求——他们承保的是客户(比如微软或亚马逊)的信用,并预期收益率略高于公司债务。
开发商去聘请总承包商,例如最受欢迎的数据中心建设商之一DPR 。
总承包商去雇佣分包商。然后分包商去招募劳动力。劳动力是数据中心建设成本的很大一部分。
劳动力转移到数据中心的建设地点(例如小镇或城市),并被安置在该地区的酒店或其他住宿场所。
在两年的时间里,一个大规模的建设项目开始了,从整体结构的钢筋混凝土开始,到安装工业零件和 GPU。
在整个过程中,数据中心的最终用户(例如微软或亚马逊)正在与自己的供应链协商柴油发电机、液体冷却系统和其他必要的设备。
如今,五家公司已经站在了数据中心规模扩张新竞赛的起跑线上:微软/OpenAI、亚马逊/Anthropic、谷歌、Meta 和 xAI。每家公司都有一套经得起严格基准考验的模型,以及推进所需的资金。
随着市场结构的逐渐明朗,我们可以开始看到每个参与者将如何采取独特的方法(源自他们自己的商业基础)来赢得胜利:
Meta 和 xAI都是消费类公司,它们都将进行垂直整合,希望各自拥有一位创始人决策者,能够简化模型构建工作,并将数据中心设计和建设紧密结合起来,从而从中获益。两家公司都将寻求在更智能的模型的支持下推出杀手级消费应用。
微软和亚马逊拥有经验丰富的数据中心团队和雄厚的资金,他们利用这些资产与顶级研究实验室建立合作伙伴关系。他们希望通过 1) 向其他公司出售培训和 2) 出售模型推理来实现盈利。他们需要管理其前沿模型(GPT 5 和 Claude 4)与为企业客户使用而构建的其他数据中心之间的资源分配。
谷歌既有消费者业务,也有云业务,还有自己的内部研究团队。周五,该公司宣布将Noam Shazeer带回公司。谷歌还通过 TPU 实现了芯片层的垂直整合。这些因素应该会带来长期的结构性优势。
随着资本支出计划的落实和竞争格局的确定,人工智能新时代即将到来。在人工智能的新阶段,钢铁、服务器和电力将取代模型、计算和数据,成为任何希望取得领先地位的企业的“必赢要素”。
END.
延伸阅读