红杉资本最新发布：o1模型如何推动生成式AI进入推理竞赛？

文摘 2024-10-14 15:04 北京

新的Scaling Law对AI行业意味着什么？

生成式人工智能革命已经进行了两年，研究正在推动该领域从“快速思考”——快速预先训练的反应——向“慢速思考”——推理时推理——发展。这一演变正在解锁一批新的代理应用。

在我们的文章“生成式人工智能：一个创造性的新世界”发表两周年之际，人工智能生态系统看起来截然不同，我们对未来发展做出了一些预测。

生成式人工智能市场的基础层正在通过一组关键的规模化参与者和联盟（包括 Microsoft/OpenAI、AWS/Anthropic、Meta 和 Google/DeepMind）实现稳定平衡。只有拥有经济引擎和大量资本的规模化参与者才能继续参与其中。虽然这场斗争远未结束（并以博弈论的方式不断升级），但市场结构本身正在巩固，很明显，我们将拥有越来越便宜和丰富的下一个代币预测。

随着大语言模型市场结构的稳定，下一个前沿正在出现，重点转向推理层的开发和扩展，其中“系统 2”思维占主导地位。受 AlphaGo 等模型的启发，该层旨在赋予人工智能系统在推理时进行深思熟虑的推理、解决问题和认知操作的能力，而不仅仅是快速模式匹配。而新的认知架构和用户界面正在塑造这些推理能力如何传递给用户并与用户互动。

这一切对 AI 市场的创始人意味着什么？这对现有的软件公司意味着什么？作为投资者，我们在哪里可以找到生成式 AI 堆栈中最有希望获得回报的层面？

在我们关于生成式人工智能市场现状的最新文章中，我们将探讨基础 LLM 层的整合如何为扩展这些高阶推理和代理能力的竞赛奠定基础，并讨论具有新颖认知架构和用户界面的新一代“杀手级应用”。

永远的草莓园

2024 年最重要的模型更新属于 OpenAI 的 o1，以前称为 Q*，也称为 Strawberry。这不仅重申了 OpenAI 在模型质量排行榜上的应有地位，而且对现状架构进行了显着改进。更具体地说，这是具有真正通用推理能力的模型的第一个示例，他们通过推理时间计算实现了这一目标。

这是什么意思？预训练模型正在对大量数据进行下一个标记预测。它们依赖于“训练时间计算”。规模的一个新兴属性是基本推理，但这种推理非常有限。如果你可以教模型更直接地推理会怎么样？这基本上就是 Strawberry 正在发生的事情。当我们说“推理时间计算”时，我们的意思是要求模型在给你答复之前停下来思考，这需要在推理时进行更多的计算（因此是“推理时间计算”）。“停下来思考”的部分就是推理。

AlphaGo x LLMs

那么当模型停下来思考时它在做什么呢？

首先让我们快速回顾一下 2016 年 3 月的首尔。深度学习历史上最具开创性的时刻之一就发生在这里：AlphaGo 与传奇围棋大师李世石的比赛。这不仅仅是一场人工智能与人类的比赛——这是世界看到人工智能不仅仅是模仿模式的时刻。它还在思考。

AlphaGo 与深蓝等之前的游戏 AI 系统有何不同？与大语言模型一样，AlphaGo 首先经过预训练，可以模仿人类专家，其数据库包含来自之前游戏的大约 3000 万步以及更多的自我对弈。但 AlphaGo 不会提供来自预训练模型的下意识反应，而是会花时间停下来思考。在推理时，模型会在各种潜在的未来情景中运行搜索或模拟，对这些情景进行评分，然后以具有最高预期值的情景（或答案）做出响应。AlphaGo 的时间越长，表现就越好。在零推理时间计算的情况下，模型无法击败最优秀的人类玩家。但随着推理时间的延长，AlphaGo 会越来越好，直到超越最优秀的人类玩家。

让我们回到大语言模型的世界。在这里复制 AlphaGo 的难点在于构建价值函数，或者说对答案进行评分的函数。如果你在下围棋，那就更简单了：你可以模拟游戏直到最后，看看谁赢了，然后计算下一步的预期值。如果你在写代码，那就有点简单了：你可以测试代码，看看它是否有效。但是你如何给一篇文章的初稿打分呢？或者一份旅行行程？或者一份长篇文档中的关键术语摘要？这就是用当前方法进行推理变得困难的原因，也是为什么 Strawberry 在接近逻辑的领域（例如编码、数学、科学）相对较强，而在更开放和非结构化的领域（例如写作）不那么强大的原因。

虽然 Strawberry 的实际实现是一个严格保密的秘密，但关键思想涉及围绕模型生成的思维链进行强化学习。审核模型的思维链表明正在发生一些基本而令人兴奋的事情，这些事情实际上类似于人类的思考和推理方式。例如，o1 展示了在卡住时回溯的能力，这是扩展推理时间的突发属性。它还展示了以人类的方式思考问题的能力（例如，将球体上的点可视化以解决几何问题）和以新的方式思考问题的能力（例如，以人类不会的方式解决编程竞赛中的问题）。

研究团队正在努力提高模型的推理能力，他们正在研究许多新想法来推动推理时间计算（例如计算奖励函数的新方法、缩小生成器/验证器差距的新方法）。换句话说，深度强化学习又流行起来了，它正在实现一个全新的推理层。

系统 1 与系统 2

从预先训练的本能反应（“系统 1”）到更深层次、深思熟虑的推理（“系统 2”）的飞跃是人工智能的下一个前沿。模型仅仅了解事物是不够的——它们需要实时暂停、评估和推理决策。

将预训练视为系统 1 层。无论模型是在围棋的数百万步（AlphaGo）上进行预训练，还是在互联网规模的 PB 级文本（LLM）上进行预训练，其工作都是模仿模式——无论是人类的游戏玩法还是语言。模仿虽然很强大，但并不是真正的推理。它无法正确思考复杂的新情况，尤其是样本之外的情况。

这就是系统 2 思维发挥作用的地方，也是最新一波人工智能研究的重点。当模型“停止思考”时，它不仅仅是生成学习模式或根据过去的数据做出预测。它会产生一系列可能性，考虑潜在结果并根据推理做出决策。

对于许多任务来说，系统 1 已经足够了。正如 Noam Brown 在我们最新一期的训练数据中指出的那样，长时间思考不丹的首都是没有用的——你要么知道，要么不知道。快速、基于模式的回忆在这里非常有效。

但当我们研究更复杂的问题时——比如数学或生物学上的突破——快速、本能的反应并不奏效。这些进步需要深思熟虑、创造性解决问题，最重要的是时间。人工智能也是如此。为了解决最具挑战性、最有意义的问题，人工智能需要超越快速的样本反应，花时间提出定义人类进步的那种深思熟虑的推理。

新的扩展定律：推理竞赛已拉开帷幕

o1 论文中最重要的见解是，城里有一条新的扩展定律。

预训练 LLM 遵循一个易于理解的缩放定律：在预训练模型上花费的计算和数据越多，其性能就越好。

o1 论文为扩展计算开辟了一个全新的层面：您为模型提供的推理时间（或“测试时间”）计算越多，其推理效果就越好。

来源：OpenAI o1 技术报告

如果模型可以思考几个小时、几天或几十年，会发生什么？我们会解决黎曼猜想吗？我们会回答阿西莫夫的最后一个问题吗？

这种转变将使我们从大规模预训练集群的世界走向推理云——可以根据任务的复杂性动态扩展计算的环境。

一个模型统治所有模型？

当 OpenAI、Anthropic、Google 和 Meta 扩展其推理层并开发出越来越强大的推理机器时会发生什么？我们会有一个模型来统治它们吗？

生成式人工智能市场刚起步时，人们曾假设，一家单一的模型公司将变得如此强大和无所不包，以至于它将吞并所有其他应用程序。到目前为止，这一预测在两个方面都是错误的。

首先，模型层竞争激烈，SOTA 能力不断超越。有可能有人通过广泛领域的自我博弈找到持续自我改进的方法并取得突破，但目前我们还没有看到这方面的证据。恰恰相反，模型层是一场刀光剑影，自上一个开发日以来，GPT-4 的代币价格已下跌 98%。

其次，这些模型在很大程度上未能作为突破性产品进入应用层，ChatGPT 是个显著的例外。现实世界很混乱。优秀的研究人员没有意愿去了解每个可能垂直领域中每个可能功能的细节端到端工作流程。对他们来说，停留在 API 上，让开发者们去担心现实世界的混乱，既有吸引力，又在经济上合理。这对应用层来说是个好消息。

混乱的现实世界：定制认知架构

作为一名科学家，你计划和采取行动实现目标的方式与作为一名软件工程师的工作方式截然不同。此外，作为不同公司的软件工程师，情况甚至有所不同。

随着研究实验室进一步突破横向通用推理的界限，我们仍然需要应用或领域特定推理来提供有用的人工智能代理。混乱的现实世界需要大量领域和应用特定推理，而这些推理无法有效地编码在通用模型中。

输入认知架构，或者您的系统如何思考：接受用户输入并执行操作或生成响应的代码流和模型交互。

例如，在 Factory 的案例中，他们的每个“机器人”产品都具有自定义认知架构，可以模仿人类解决特定任务的思维方式，例如审查拉取请求或编写和执行迁移计划以将服务从一个后端更新到另一个后端。Factory 机器人将分解所有依赖关系，提出相关的代码更改，添加单元测试并让人类进行审查。然后在批准后，在开发环境中对所有文件运行更改，如果所有测试都通过，则合并代码。就像人类可能会做的那样——在一组离散任务中，而不是一个通用的黑盒答案中。

应用程序发生了什么变化？

想象一下，你想在人工智能领域创业。你瞄准的是堆栈的哪一层？你想在基础设施上竞争吗？祝你好运击败 NVIDIA 和超大规模企业。你想在模型上竞争吗？祝你好运击败 OpenAI 和马克·扎克伯格。你想在应用程序上竞争吗？祝你好运击败企业 IT 和全球系统集成商。哦。等等。这听起来确实很可行！

基础模型很神奇，但也很混乱。主流企业无法处理黑匣子、幻觉和笨拙的工作流程。消费者盯着空白的提示，不知道该问什么。这些都是应用层的机会。

两年前，许多应用层公司被嘲笑为“只是 GPT-3 上的包装器”。如今，这些包装器被证明是构建持久价值的唯一可靠方法之一。最初的“包装器”已经演变成“认知架构”。

应用层 AI 公司不仅仅是基础模型之上的 UI。远非如此。它们拥有复杂的认知架构，通常包括多个基础模型，顶部有某种路由机制、用于 RAG 的矢量和/或图形数据库、确保合规性的护栏，以及模仿人类思考工作流程推理方式的应用程序逻辑。

服务即软件

云转型是软件即服务。软件公司成为云服务提供商。这是一个价值 3500 亿美元的机会。由于代理推理，人工智能转型是服务即软件。软件公司将劳动力转化为软件。这意味着可寻址市场不是软件市场，而是以万亿美元计的服务市场。

出售工作意味着什么？Sierra 就是一个很好的例子。B2C 公司将 Sierra 放在他们的网站上与客户交谈。要做的工作是解决客户问题。Sierra 按解决方案获得报酬。没有“座位”这种说法。你有工作要做。Sierra 会做。他们会得到相应的报酬。

这是许多 AI 公司所追求的真正目标。Sierra 受益于优雅的故障模式（升级到人工代理）。并非所有公司都如此幸运。一种新兴模式是先部署为副驾驶（人机交互），然后利用这些代表获得部署为自动驾驶的机会（无人参与）。GitHub Copilot 就是一个很好的例子。

新一代代理应用

随着生成式人工智能的推理能力不断增强，一类新的代理应用程序开始涌现。

这些应用层公司是什么样子的？有趣的是，这些公司看起来与云计算前辈不同：

云计算公司瞄准的是软件利润池，人工智能公司瞄准的是服务利润池。
云计算公司出售软件（$/席位）。人工智能公司出售工作（$/成果）
云计算公司喜欢自下而上，采用无摩擦分销模式。而人工智能公司则越来越多地采用自上而下，采用高接触、高信任的交付模式。

我们看到，这些代理应用的新一批产品已在知识经济的各个领域涌现。以下是一些示例。

Harvey：人工智能律师
Glean：人工智能工作助手
Factory：AI软件工程师
Abridge：AI 医疗文书记录员
XBOW：人工智能渗透测试员
Sierra：人工智能客户支持代理

通过降低提供这些服务的边际成本（与推理成本的下降一致），这些代理应用程序正在扩展并创造新的市场。

以 XBOW 为例。XBOW 正在构建 AI“渗透测试员”。渗透测试是对计算机系统进行的模拟网络攻击，公司通过执行此测试来评估自己的安全系统。在生成式 AI 出现之前，公司仅在有限的情况下（例如合规性要求时）聘请渗透测试员，因为人工渗透测试成本高昂：这是一项由高技能人员执行的手动任务。然而，XBOW现在正在展示基于最新推理 LLM 构建的自动化渗透测试，其性能可与最熟练的人工渗透测试员相媲美。这扩大了渗透测试市场，并为各种规模的公司提供了持续渗透测试的可能性。

这对 SaaS 世界意味着什么？

今年早些时候，我们与有限合伙人会面。他们最关心的问题是“人工智能转型是否会摧毁你现有的云计算公司？”

我们一开始就默认“不”。初创公司和老牌企业之间的经典之战，就是初创公司建立分销渠道与老牌企业打造产品的赛马。拥有酷炫产品的年轻公司能否在拥有客户的老牌企业推出酷炫产品之前获得大量客户？鉴于人工智能的魔力很大一部分来自基础模型，我们的默认假设是否定的——老牌企业会做得很好，因为这些基础模型对他们来说和对初创公司一样容易获得，而且他们拥有数据和分销方面的先天优势。初创公司的主要机会不是取代老牌软件公司——而是追逐可自动化的工作资源。

话虽如此，我们不再那么确定了。参见上文关于认知架构的内容。将模型的原始功能转化为引人注目、可靠的端到端业务解决方案需要大量的工程设计。如果我们只是大大低估了“人工智能原生”的含义呢？

二十年前，本地软件公司对 SaaS 的想法嗤之以鼻。“这有什么大不了的？我们可以运行自己的服务器，也可以通过互联网交付这些东西！”当然，从概念上讲这很简单。但随后是对业务的全面改造。EPD 从瀑布和 PRD 转变为敏捷开发和 AB 测试。GTM 从自上而下的企业销售和牛排晚宴转变为自下而上的 PLG 和产品分析。业务模式从高 ASP 和维护流转变为高 NDR 和基于使用情况的定价。很少有本地公司实现了转型。

如果人工智能是一种类似的转变，情况会怎样？人工智能的机会是否既可以出售工作，又可以取代软件？

通过 Day.ai，我们看到了未来的一瞥。Day 是一款人工智能原生 CRM。系统集成商通过配置 Salesforce 来满足您的需求，赚取了数十亿美元。Day 只需访问您的电子邮件和日历，并回答一页问卷，即可自动生成完全适合您业务的 CRM。它目前还没有所有的花哨功能，但自动生成的 CRM 无需人工输入即可保持新鲜，这种神奇之处已经让人们开始转换它。

投资领域

作为投资者，我们的投资周期在哪里？资金部署在哪里？以下是我们的简要分析。

基础设施

这是超大规模企业的领域。它由博弈论行为而非微观经济学驱动。对于风险投资家来说，这是一个糟糕的处境。

模型

这是超大规模企业和金融投资者的领域。超大规模企业正在用资产负债表换取损益表，投资的资金将以计算收入的形式回流到他们的云业务中。金融投资者被“惊叹于科学”的偏见所扭曲。这些模型非常酷，这些团队也令人印象深刻。微观经济学见鬼去吧！

开发工具和基础设施软件

对于战略家来说没那么有趣，但对于风险投资家来说却更有趣。在云转型期间，约有 15 家收入超过 10 亿美元的公司在此层创建，我们怀疑 AI 也可能如此。

应用程序

对于风险投资来说，这是最有趣的一层。在云计算转型期间，大约有 20 家应用层公司成立，收入超过 10 亿美元，在移动转型期间又有大约 20 家公司成立，我们猜测这里也会有同样的情况。

结束语

在生成式人工智能的下一阶段，我们预计推理研发的影响将波及到应用层。这些影响迅速而深刻。迄今为止，大多数认知架构都采用了巧妙的“解锁”技术；现在这些功能已深入到模型本身，我们预计代理应用程序将很快变得更加复杂和强大。

回到研究实验室，推理和推理时间计算在可预见的未来仍将是一个强大的主题。现在我们有了新的扩展定律，下一场竞赛开始了。但对于任何给定的领域，收集现实世界的数据并编码特定于领域和应用程序的认知架构仍然很困难。这又是最后一英里应用程序提供商在解决混乱的现实世界中的各种问题方面占上风的地方。

展望未来，多智能体系统（如 Factory 的机器人）可能会开始作为推理和社会学习过程建模的方式而蓬勃发展。一旦我们能够工作，我们就可以让团队完成更多工作。

我们所有人都热切期待着生成式人工智能的第 37 步，那一刻——就像 AlphaGo 与李世石的第二场比赛一样——通用人工智能系统会用超人般的能力给我们带来惊喜，这种能力让人感觉像是独立思考。这并不意味着人工智能“醒来”（AlphaGo 没有醒来），而是我们模拟了感知、推理和行动的过程，人工智能可以以真正新颖和有用的方式探索这些过程。这实际上可能是 AGI，如果真是这样，它就不是单一事件，而只是技术的下一阶段。

END.

延伸阅读

大语言模型专题 | 计算机视觉专题

AI模型更新 | AI技术博客 | AI深度报告

http://mp.weixin.qq.com/s?__biz=MzIxNTY4NzIyNw==&mid=2247488244&idx=1&sn=c19124a1f3f64ed151cb8d3ad29ac031

猜想笔记

探索AI边界

最新文章

Runway CEO：AI时代终结，真正的新媒体诞生

Kimi投放1亿、豆包投放2亿，国产AI在投流上杀疯了