红杉报告 | 生成式AI的o1篇章：智能推理新时代的开启【译】

文摘 2024-10-11 17:54 广东

点击⬇️图标关注抓住你的灵感💡瞬间

“ 报告来自SEQUOIA，作者是SONYA HUANG, PAT GRADY, AND O1 PUBLISHED OCTOBER 9, 2024。本文仅供学习参考，文末可找到原文链接。”

智能推理时代的开始

两年过去了，生成式 AI 革命正从“快思考”——预训练的快速回应——向“慢思考”——推理时的深度思考——发展。这种演变正在推动一类新的智能体应用的诞生。

在我们发表《生成式 AI：创造性的新世界》一文的两周年之际，AI 生态系统已经大为不同，我们对未来做出了一些预测。

生成式 AI 市场的基础层正在与一组规模化玩家和联盟达成平衡，包括微软/ OpenAI、AWS/Anthropic、Meta 和 Google/DeepMind。只有那些拥有经济驱动力和巨额资本支持的规模化玩家依然活跃。尽管竞争远未结束（并且不断以博弈论的方式升级），但市场结构正在稳固，越来越便宜且充足的下一个 token 预测也成为了现实。

随着 LLM 市场结构的稳定，新的前沿正在出现。焦点转向了推理层的开发和扩展，即“系统 2”思维层。在这一层，像 AlphaGo 这样的模型启发了 AI 系统在推理时进行深思熟虑的推理、问题解决和认知操作，超越了简单的模式匹配。而新的认知架构和用户界面正在塑造这些推理能力如何交付给用户以及与用户的互动方式。

这对 AI 市场的创始人意味着什么？这对现有的软件公司意味着什么？作为投资者，我们在哪一层看到生成式 AI 堆栈中最有前途的回报？

在我们最新的生成式 AI 市场现状文章中，我们探讨了 LLM 基础层的整合如何为扩展这些高级推理和智能体能力的竞争奠定了基础，并讨论了新一代“杀手级应用”，它们具有新型的认知架构和用户界面。

永远的草莓模型

2024 年最重要的模型更新当属 OpenAI 的 o1，之前称为 Q*，也被称为“草莓”。这不仅是 OpenAI 在模型质量排行榜上重回顶峰的宣言，同时也是对现有架构的一次显著升级。具体来说，这是首个真正具备广泛推理能力的模型范例，他们通过推理时计算实现了这一点。

这到底意味着什么？预训练模型会基于大量数据进行下一个 token 的预测，它们依赖的是“训练时计算”。随着规模的扩大，基本推理能力作为一种涌现特性出现，但这种能力仍然非常有限。那么，假如我们能让模型更直接地进行推理呢？这正是草莓模型的核心所在。当我们提到“推理时计算”时，指的是让模型在给出答案前停下来进行思考，这需要在推理阶段投入更多计算资源（因此被称为“推理时计算”）。“停下来思考”实际上就是推理的过程。

AlphaGo x LLM

那么，当模型停下来思考时，它究竟在做什么呢？

让我们回到 2016 年 3 月的首尔。当时，深度学习历史上一个具有里程碑意义的时刻在这里发生：AlphaGo 与传奇围棋高手李世石的对决。这不仅仅是一场 AI 对抗人类的比赛，而是 AI 展示超越简单模式模仿，进入真正思考领域的时刻。

那么，AlphaGo 和之前的游戏 AI 系统（如“深蓝”）有何不同？与 LLM 类似，AlphaGo 通过一个包含约 3000 万步围棋数据的数据库以及更多自我对弈的数据进行预训练，以模仿人类专家的下法。但与预训练模型的直觉反应不同，AlphaGo 会在推理时停下来进行思考。模型在多个潜在的未来局面中进行搜索或模拟，对这些局面进行评分，并选择期望值最高的局面作为回答。给 AlphaGo 更多的推理时间，它的表现就会越好。如果没有推理时计算，模型无法击败最顶尖的人类棋手，但随着推理时间的增加，AlphaGo 逐渐变得无比强大，甚至超越了最优秀的人类选手。

让我们回到 LLM 的领域。复制 AlphaGo 的挑战在于如何构建价值函数，也就是如何对模型的回答进行评分。如果是围棋，你可以通过模拟整个游戏进程来计算期望值。如果是编程，你可以通过测试代码是否正常运行来打分。但对于一篇文章初稿，旅行计划，或者长篇文档的关键信息总结，该如何打分呢？这就是推理复杂性的来源，这也是为什么草莓模型在逻辑相关领域（如编程、数学、科学）表现卓越，但在更开放和非结构化领域（如写作）表现略逊一筹的原因。

尽管草莓的实际实现细节严格保密，但关键思想是通过模型生成的思维链进行强化学习。对这些思维链的分析表明，一些基础且令人兴奋的现象正在发生，这些现象类似于人类的思维和推理方式。例如，o1 展现了在遇到困难时自动回溯的能力，这是推理时计算扩展的涌现特性之一。它还表现出像人类那样解决问题的能力（例如，通过想象球体上的点来解决几何问题），以及以新方式思考问题的能力（例如，在编程竞赛中用不同于人类思维的方式来解决问题）。

此外，许多新想法正在推动推理时计算的研究和发展（如新的奖励函数计算方法，缩小生成器与验证器差距的新途径），研究团队正在努力通过这些新技术提升模型的推理能力。换句话说，深度强化学习再次成为热门话题，并推动了全新的推理层的兴起。

系统 1 vs 系统 2 思维

从预训练的本能反应（即“系统 1”）到更深层次、经过深思熟虑的推理（即“系统 2”）的飞跃，是 AI 的下一个前沿。仅仅让模型“知道”是不够的——它们还需要在实时决策时暂停、评估并进行推理。

预训练可视作系统 1 层。无论是围棋的数百万次棋步（如 AlphaGo），还是大规模互联网文本数据（如 LLMs），其任务都是模仿模式——无论是棋步还是语言模式。但模仿，尽管强大，却并不等同于真正的推理。它无法应对复杂的新情况，尤其是那些超出训练样本范围的问题。

这就是系统 2 思维的切入点，也是当前 AI 研究的焦点。当模型“停下来思考”时，它不仅仅是在生成已学到的模式或基于过去的数据进行预测，而是在生成一系列可能性，考虑各种潜在结果，并基于推理做出决策。

对于许多任务，系统 1 已经足够了。正如 Noam Brown 在我们最新的《Training Data》节目中所指出的，花更多时间去思考不丹的首都是什么并不会有帮助——你要么知道答案，要么不知道。对于此类问题，快速、基于模式的回忆是最有效的解决方式。

但对于更复杂的问题——如数学或生物学领域的突破——简单的直觉反应并不足够。这样的进展需要深入思考、创造性的问题解决方法，并且——最重要的是——需要时间。AI 也面临类似的情况。要解决最具挑战性和意义的问题，AI 必须超越简单的样本内反应，花时间进行深度推理，这正是人类进步的标志。

新的扩展法则：推理竞赛已经开始

o1 论文中的一个重要见解是，我们迎来了新的扩展法则。

预训练 LLM 遵循的是一条明确的扩展法则：预训练时使用更多的计算资源和数据，模型的表现就会越好。

而 o1 论文提出了推理时计算的新维度：推理时计算量越大，模型的推理能力就越强。

Source: OpenAI o1 technical report

那么，如果模型可以思考几个小时、几天甚至几十年，会发生什么？我们能否解开黎曼猜想？或者回答阿西莫夫的最后问题？

这种转变将带领我们从庞大的预训练集群走向推理云——能够根据任务复杂度动态扩展计算资源的环境。

一个模型统治一切？

当 OpenAI、Anthropic、Google 和 Meta 扩展它们的推理层并开发出越来越强大的推理机器时，是否会出现一个模型统治一切的局面？

在生成式 AI 市场初期，有一个假设认为一家公司可能会变得如此强大和全面，最终吞并所有其他应用。然而，目前来看，这一预测在两个方面是错误的。

首先，在模型层，竞争非常激烈，顶尖能力的不断超越层出不穷。虽然有理论认为，通过广泛的自我对弈和持续自我改进，一家公司可能会最终实现超越，但目前没有任何证据表明这一点。相反，模型层正呈现出激烈的竞争局面，例如 GPT-4 自上次开发者日以来，其每 token 的价格已经下降了 98%。

其次，除 ChatGPT 外，模型基本上没有突破应用层，成为主流产品。现实世界非常复杂。伟大的研究人员并不热衷于了解每个可能的垂直领域中工作

流程的所有细节。他们倾向于止步于 API，而将现实世界的复杂问题留给开发者来处理，这既具有吸引力也符合经济理性。这对应用层来说是个好消息。

复杂的现实世界：定制认知架构

作为一名科学家，你规划并执行任务的方式，与软件工程师的工作方式大相径庭。即便是软件工程师，不同公司间的工作方式也各不相同。

尽管研究实验室在横向通用推理方面不断突破边界，但我们依然需要应用领域或特定领域的推理能力，才能提供真正有用的 AI 智能体。复杂的现实世界需要大量领域和应用的特定推理，无法高效地通过通用模型编码。

这就是认知架构的作用，或称为系统的思维方式：代码和模型交互的流程将用户输入转化为行动或回应。

例如，在 Factory 公司，每个“机器人”产品都有定制的认知架构，模仿人类解决特定任务的思维方式，比如审查 pull request，或者编写并执行从一个后端迁移到另一个后端的计划。Factory 的机器人会分解所有依赖关系，提出相关的代码修改，添加单元测试，并邀请人类进行审查。通过审批后，它会在开发环境中运行这些更改并合并代码——就像人类处理这些任务一样——以一组离散的任务完成，而不是简单地提供一个黑箱式答案。

应用层的变化

如果你想在 AI 领域创业，应该瞄准堆栈的哪个层次？你打算在基础设施层竞争吗？那可不容易，击败 NVIDIA 和超大规模计算厂商绝非易事。你打算在模型层竞争吗？再次祝你好运，打败 OpenAI 和马克·扎克伯格同样艰难。那你考虑在应用层竞争呢？哦，等等，这似乎更可行！

基础模型虽然神奇，但也复杂。主流企业无法处理黑箱操作、虚假生成和复杂的工作流程。普通用户面对空白的提示框，常常不知道该如何下手。这实际上给应用层带来了机遇。

两年前，许多应用层公司被贬为“只是 GPT-3 的包装”。然而如今，这些包装已经成为构建持久价值的唯一有效途径之一。最初的“包装”已经演变成了“认知架构”。

应用层 AI 公司不再只是基础模型之上的简单界面。远非如此。它们拥有复杂的认知架构，通常包括多个基础模型，并通过路由机制进行协调，结合向量和/或图数据库进行 RAG（检索增强生成），再加上确保合规性的防护栏，以及模仿人类思维处理工作流的应用逻辑。

服务即软件

云计算转型带来了“软件即服务”（SaaS），而软件公司转变为云服务提供商。这是一场 3500 亿美元的机会。
而 AI 的转型则是“服务即软件”。软件公司将人类劳动力转化为软件。这意味着市场不仅限于软件市场，而是扩展到数万亿美元的服务市场。

那么，出售工作（ sell work）意味着什么？Sierra 是一个很好的例子。B2C 公司将 Sierra 集成到他们的网站，与客户互动。它的工作是解决客户问题，收费方式按解决问题的数量计算。没有所谓的“席位”，你有工作要做，Sierra 负责完成并获取报酬。

这就是许多 AI 公司所追求的方向。Sierra 的优势在于其优雅的失败模式（即可转由人类代理介入）。并非所有公司都如此幸运。一种新兴模式是首先作为“副驾”部署（人类在环），通过这些经验逐步发展为“自动驾驶”（无需人类干预）。GitHub Copilot 就是这种模式的一个成功案例。

新一代智能体应用

随着生成式 AI 推理能力的提升，一类新的智能体应用正在涌现。

这些应用层公司的形态有何不同？有趣的是，它们与早期的云计算公司有显著不同：

云公司主要针对软件利润池。AI 公司则瞄准服务利润池。
云公司销售软件（按席位计费），AI 公司销售的是工作（按结果计费）。
云公司倾向于自下而上的分销模式，而 AI 公司越来越多地采用自上而下的高接触、高信任交付模式。

在知识经济的各个领域，我们看到了新一代智能体应用的出现。以下是一些例子：

Harvey：AI 律师
Glean：AI 工作助手
Factory：AI 软件工程师
Abridge：AI 医疗记录员
XBOW：AI 渗透测试员
Sierra：AI 客户支持代理

随着这些服务的边际交付成本降低——与推理成本的下降一致——这些智能体应用正在迅速扩展，并创造新的市场。

以 XBOW 为例。XBOW 正在打造一个 AI “渗透测试员”。渗透测试是一种对计算机系统进行模拟网络攻击的测试，企业使用它来评估自身的安全性。在生成式 AI 出现之前，企业只有在需要满足合规要求时，才会聘请渗透测试员，因为人工渗透测试昂贵，且是由高技能的人员执行。然而，XBOW 正展示出一种基于最新推理 LLM 的自动化渗透测试，其性能可与最顶尖的人类渗透测试员相媲美。这极大地扩大了渗透测试市场，使所有规模的公司都能够进行持续的渗透测试。

这对 SaaS 世界的影响是什么？

今年早些时候，我们与有限合伙人进行了会面。他们最关注的问题是：“AI 的转型是否会摧毁现有的云计算公司？”

起初，我们的默认回答是“不会”。创业公司与老牌企业之间的竞争总是一个竞赛：创业公司在争取建立分销网络，而老牌企业则致力于改进产品。那些拥有酷产品的年轻公司，能否在老牌企业利用其客户资源推出类似产品之前，快速吸引到大量客户？鉴于 AI 的大部分魔力源于基础模型，我们的初步假设是老牌企业会表现不错，因为这些基础模型对它们与对创业公司一样可用，且它们在数据和分销方面拥有既有优势。对创业公司来说，主要的机会并不是取代现有的软件公司，而是去开拓那些可以自动化的工作领域。

然而，我们现在并不那么确定了。关于认知架构的讨论让我们开始重新思考。将基础模型的强大能力转化为一个引人注目、可靠的端到端业务解决方案，可能需要远比我们想象中更多的工程资源。如果我们严重低估了成为“AI 原生”公司所需的转型呢？

二十年前，传统的本地软件公司曾嘲笑 SaaS 的想法：“这有什么大不了？我们可以自己运行服务器，并通过互联网提供这些服务！”确实，从概念上来看，SaaS 看似简单。但接下来发生的却是一场业务模式的全面重塑。产品开发从瀑布模型和产品需求文档转向敏捷开发和 A/B 测试。市场策略从自上而下的企业销售转向自下而上的产品主导增长模式。商业模式从高单价和维护费转向高净留存率和按使用量计费。很少有本地软件公司成功完成了这次转型。

如果 AI 也带来了类似的转型机会呢？AI 的机会不仅在于出售工作，还可能意味着替代传统软件。

Day.ai 的出现让我们窥见了未来的可能。Day 是一个 AI 原生的 CRM 系统。传统系统集成商通过配置 Salesforce 满足客户需求，赚取了数十亿美元的收入。而 Day 只需访问你的邮件和日历，并通过填写一张简短的问卷，就能自动生成一个完全符合你业务需求的 CRM。虽然它还没有所有的功能，但这个无需人工干预、自动保持更新的 CRM 系统，已经让不少人选择了它。

投资机会

作为投资者，我们的关注点在哪里？资金流向了哪些领域？以下是我们的快速见解：

基础设施
这是超大规模计算厂商的领域，受博弈论驱动，而非微观经济学影响。风险投资者在这里没有太多机会。

模型
这是超大规模厂商和金融投资者的领域。超大规模厂商利用资产负债表投入，以换取损益表上的收入，他们投资的资金最终将通过计算业务回流。金融投资者往往受到“科学惊叹”效应的驱动。这些模型非常酷，团队也很出色，微观经济学暂时失去了重要性！

开发者工具和基础设施软件
对于战略投资者来说兴趣不大，但对风险投资者而言非常有趣。在云计算转型中，有大约 15 家年收入超过 10 亿美元的公司诞生于这一层，我们预计 AI 转型也可能会产生类似的结果。

应用
这是风险投资最感兴趣的领域。在云计算转型中，约有 20 家年收入超过 10 亿美元的应用公司诞生。在移动互联网转型中，另有大约 20 家公司诞生。我们预计 AI 转型中也会有类似情况发生。

总结

在生成式 AI 的下一阶段，我们预计推理研究的成果将迅速渗透到应用层。这些成果将影响深远，并带来快速变化。当前大多数认知架构依赖于各种解锁技术的巧妙结合；随着这些能力逐渐内化到模型本身，我们预计智能体应用将变得更加复杂和强大。

在研究领域，推理和推理时计算将继续成为未来的重要主题。随着新的扩展法则的出现，下一场竞赛已经拉开帷幕。然而，在特定领域内，仍然很难收集到足够的真实世界数据，并将领域特定的认知架构编码到模型中。因此，应用层的“最后一公里”解决方案提供商可能在解决复杂的现实问题时具有更大的优势。

展望未来，多智能体系统，如 Factory 的机器人，可能会成为模拟推理和社会学习过程的主要方式。一旦 AI 能够胜任工作，团队协作将使我们能够完成更多的任务。

我们所有人都在热切期待生成式 AI 的“第 37 步”，就像 AlphaGo 对阵李世石的第二场比赛那样——一个通用 AI 系统令人震惊的表现，展示了超越人类思维的创新之举。这并不意味着 AI 觉醒了（AlphaGo 并没有觉醒），但这表明我们已经模拟了感知、推理和行动的过程，AI 可以以真正新颖且有用的方式进行探索。这或许正是通用人工智能（AGI）的表现，如果真是这样，那它将不会是某个特定的时刻，而只是技术进步的下一个阶段。

参考：Generative AI's Act o1: The Reasoning Era Begins | Sequoia Capital

后台回复“SEQUOIA” 直接获取英文原文。

生成式AI视频简史、世界模型与艺术的联结：Runway联创Anastasis Germanidis演讲编译

OpenAI 的产品管理与人工智能的未来: Kevin Weil访谈

马斯克的载入历史的一周：自动驾驶与太空探索的关键进展

HeyGen CEO 万字访谈 | TikTok 的生成式 AI 困境、语音克隆的挑战以及交互式虚拟人的未来

“我们基本上不做大语言模型了，转向人类级别的 AI” | Yann LeCun的思考

从 SaaS 到智能体：IQ+EQ+AQ三商加成下AI将发生角色转换 | 微软CEO舒尔曼观点

ChatGPT是闪电捕手，后续押注产品持久性和用户信任 | OpenAI投资人郭士纳观点

10月AI报告 | AIR STREET CAPITAL 2024全球AI发展现状十大要点（附212页报告链接）

Cursor二号位00后工程师揭秘内部团队：放弃大学期末考，只为加入AI创业

【AI从业必读】Anthropic CEO长文预判AI未来--强大的人工智能的基本假设和框架（6个特性）

NotebookLM产品经理Raiza Martin揭秘背后故事 | Google Labs AI高级产品经理专访

红杉报告 | 生成式AI的o1篇章：智能推理新时代的开启【译】

上传日记让NotebookLM秒变AI陪伴应用

10/10 Tesla We Robot会前展望：三款新车预测引发行业热议

冷知识 | 视频画质下降的真相——技术发展与平台利益对弈

Steven Johnson专访：预见NotebookLM下一步将开发视频生成

创业不疯魔，等于白忙活 | 从0到40亿美元估值：Scale创始人Wang的"过度"哲学

大A和生成式AI的异同

“Fast is Fun” Cursor创始团队看到了编程的未来图景

谷歌NotebookLM起飞！背后团队讲述“小灵快”AI产品故事

【BOS万字专访】AI眼镜要替代手机？别让科技把你玩成傻子！—Meta CTO解惑+祛魅，畅谈AI、AR、脑机接口

推理时间计算和AGI之路 - 对话OpenAI研究人员 | Sequoia Capital访谈

ChatGPT高级语音免费推送所有注册用户，亲测！ | OpenAI's DevDay 2024福利

9月：AI 圈的乌龙、趣事与新闻

AI狂欢中的人性枷锁：OpenAI上演现实版月亮与六便士

Andrej Karpathy灼见：Google NotebookLM或引领LLM交互的下一个ChatGPT时刻

OpenAI CTO 离职，Sora 前景不明

国内用不了，为什么我要了解 OpenAI 4o高级语音（类人精）正式推向市场？

Sam Altman雄文自诩“点灯人”，预告《智能时代》到来

认知GPS：LinkedIn创始人眼中AI的心灵蒸汽机时刻 | 斯坦福演讲万字分享（上）

认知GPS：LinkedIn创始人眼中AI的心灵蒸汽机时刻（下）| 含Lin师傅思考笔记

大师的灵魂拷问：手机与注意力 | 它死机后未能恢复，我过去三年的记忆随之离开

从万年灰T恤到多元风格：扎克伯格的“换装”与 Meta AI 进击之路 | 最新 Acquired访谈

T-Mobile 联手 OpenAI：75% 电话咨询将被 AI 取代，意图驱动客户体验大升级！【译】

利用社交阵地，爆点话题驱动的AI轻咨询app | 一波流搞钱大法

机器人想统治世界？其实是你想让它帮你洗衣服！

世界模型在机器人技术革新中的关键作用 | 附1X公司超100小时训练矢量视频

思考8秒后，o1还是选择 “F**K”！ | 今早OpenAI推理模型使用加速放宽，释放了想象力？

参加完 OpenAI 的活动，我看到了「草莓」的隐患

OpenAI o1的宏大叙事与 AlphaGo的第37手

「草莓」实测：可能只是工程 Trick，且有扣费陷阱！

天选打工人用本周最强AI中文辣评给职场热梗造句

乔布斯的创新苹果，如今只剩核？探讨iPhone 16的3%创新困境

AILin笔记 | 李楠AI 硬件创业取舍之道：从 Meta Glasses 和端侧模型看未来趋势

Human Intelligence & AI 转移认知时刻 | Lin师傅周末听悟

释放大模型潜力：掌握提示词工程的艺术 | 9月Anthropic圆桌深度解析

奥特曼疯了吗，真把AGI当摇钱树？| ChatGPT的订阅月费能否将涨100倍，得看OOMs

小孩哥8岁零编程经验开发游戏/网站的真相是什么？| 赛博一代的成长公式

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉