红杉专访OpenAI O1团队全文记录

文摘 2024-10-10 10:01 美国

OpenAI O1团队接受红杉资本专访

内容导读：
关于推理和O1模型：
推理的定义及重要性: 推理并非所有问题都适用，它更适用于那些通过更长时间思考能提高准确率的问题，例如数独。这可以理解为“生成-验证”差距：生成正确答案很难，验证答案却相对容易。O1模型就是针对这类问题而设计的。
O1模型的工作原理及创新: O1模型系列通过强化学习训练来进行思考和推理，这与传统的语言模型（LLM）有着根本性的区别。它在各种推理领域都展现出良好的泛化能力，代表了一种新的范式转变。
O1模型的成功并非预料之中: 团队并非一开始就确信O1模型会成功，而是通过多年的研究和OpenAI持续的投入，以及在看到模型以不同方式解决问题后，才逐渐确信其潜力。这体现了OpenAI基于经验数据驱动研究的策略。
O1模型与AlphaGo的异同: O1模型与AlphaGo类似，都受益于更长的思考时间。但AlphaGo的推理方法更特定于围棋领域，而O1模型的推理方法更通用，适用于更多领域。
O1模型的应用及反馈: O1模型已被应用于各种领域，例如科学研究（癌症研究、基因疗法）、编程竞赛等。OpenAI通过将模型发布到公众，收集用户反馈来改进模型。一些令人惊喜的应用场景是通过用户在推特上的反馈发现的，例如将O1用作头脑风暴伙伴。
深度强化学习(Deep RL)的复兴: 深度强化学习一度陷入低谷，但O1模型的成功证明了其结合大规模数据训练的潜力，标志着深度强化学习的复兴。
O1模型在STEM领域的优势: O1模型在STEM（科学、技术、工程、数学）领域表现出色，这可能是因为STEM问题通常更符合“难推理”的特征，需要更长时间的思考。
关于O1模型的未来及其他：
推理能力与AGI的关系: 推理能力是通往AGI（通用人工智能）的关键，因为解决任何实际问题都不可避免地会遇到障碍，而推理能力正是克服这些障碍的关键。
O1模型的局限性及改进方向: O1模型并非在所有领域都表现出色，例如在人文领域仍有提升空间。OpenAI正在探索如何缩小模型能力与实际应用需求之间的差距，这部分工作既包括模型本身的改进，也包括依赖于模型API的生态系统的建设。
O1模型的规模化瓶颈: O1模型规模化的瓶颈在于工程上的挑战，包括构建和训练大规模系统，以及在全新的系统上运行前所未有的算法。此外，还需要持续探索新的测试方法和数据集。
O1 Mini的重要性: O1 Mini是一个更小、更快的模型，它在保持推理能力的同时降低了成本和提高了效率，为更广泛的应用提供了可能，并加速了迭代速度。
对无限计算能力的猜想: 团队成员对给予模型无限计算能力后的结果进行了推测，认为理论上所有数学定理都可以被解决，但实际上会存在收益递减，并且模型的优势更可能体现在其擅长领域。

访谈全文

主持人：我们很高兴今天能邀请到Noam、Hunter和Ilga三位研究员，他们都是OpenAI“草莓计划”或O1项目的成员。O1是OpenAI首次大规模涉足通用推理时间计算，我们很高兴能与团队讨论推理、思维链、推理时间缩放定律等等。

主持人： Ilga、Hunter、Noam，非常感谢你们加入我们，并祝贺O1的发布。我想首先问一下，你们一开始就确信它会成功吗？

Noam： 我想我们确信这个方向是有前景的，但实际的路径从来都不清晰。你看O1，它并非一蹴而就。实际上，这背后是多年的研究。而很多研究并没有成功。但我认为OpenAI和许多领导层都确信这个方向一定会有所突破，他们愿意持续投资，即使面临最初的挫折。我认为最终得到了回报。

Hunter： 我要说的是，我一开始并没有像Noam那样有那么大的信心。我一直在研究大型语言模型，试图教会它们进行数学和其他类型的推理。我认为有很多研究是此消彼长的。有时事情会成功，有时事情会失败。当我们看到我们正在追求的方法开始奏效时，我认为这对很多人来说都是一个“啊哈”时刻，包括我自己，我开始阅读模型的一些输出，这些输出正在以不同的方式解决问题。我认为，对我来说，正是那一刻，我的信心真正确立了。我认为OpenAI总体上对这些事情采取了一种非常经验性的数据驱动的方法。当数据开始对你说话时，当数据开始变得有意义时，当趋势开始趋于一致，我们看到一些我们想要追求的东西时，我们就会去追求它。对我来说，就是这样。我认为信心真正确立的时候就是这样。

主持人： Ilga，你呢？你在OpenAI工作了很长时间，五年半了。你当时是怎么想的？你从一开始就确信这种方法会奏效吗？

Ilga： 不，自从加入以来，我对AGI的路径判断过几次错。我最初认为机器人技术是前进的道路。这就是我首先加入机器人团队的原因。具身人工智能、AGI，我们认为事情会朝着这个方向发展。但是，事情遇到了障碍。在我加入期间，ChatGPT，我想现在这很明显，这是一个范式转变。我们能够广泛地与世界分享一些具有通用接口的东西。我很高兴我们现在可能有一条新的前进道路来推动这种推理范式。但是，很长时间以来，这对我来说绝对不是显而易见的。

主持人： 我知道出于很好的原因，你们只能公开说这么多关于它是如何运作的信息。但是，即使只是一些笼统的术语，你们能分享一些关于它是如何运作的信息吗？

Ilga： 因此，O1模型系列是通过强化学习训练来进行思考的，你也可以称之为推理。它与我们习惯使用的LLM有着根本的不同。正如我们最近也分享的那样，我们已经看到它真正地泛化到许多不同的推理领域。因此，对于这个新的模型家族带来的这种范式转变，我们感到非常兴奋。

主持人：对于那些可能不太了解当今语言模型最新技术的人来说，什么是推理？你如何定义推理？也许可以简单说说它为什么重要。

Noam：我认为，理解推理的一种方法是，有些问题需要更长时间的思考才能解决。你知道，人类有一种经典的系统一思维和系统二思维的概念。系统一是指更自动、本能的反应，而系统二是指更慢、更依赖过程的反应。对于某些任务，更长的思考时间并不会带来好处。例如，如果我问你不丹的首都是什么，你思考两年也不会提高你的准确率。不丹的首都是什么？我其实也不知道。

主持人：我也不知道。

Noam：但是，你知道，有些问题明显受益于更长时间的思考。一个典型的例子就是数独游戏。理论上，你可以尝试数独谜题的许多不同可能性，找到可能的解。而当找到正确答案时很容易识别出来。因此，理论上，如果你有足够的时间去解谜，最终你会解出来。我认为这正是我所认为的推理。我认为AI领域很多人对推理有不同的定义，我并不认为这是唯一的、规范的定义，每个人都有自己的看法。

但我认为它指的是那些能够通过考虑更多选项和更长时间的思考而获益的问题。你可能会称之为“生成-验证差距”，即生成正确的解决方案非常困难，但识别正确的解决方案却容易得多。我认为所有问题都处于一个从非常容易验证到非常难以验证的光谱上。例如，如果你试图找出解决方案，你可能需要考虑相对于生成的最佳解决方案是什么，比如数独难题，与仅仅像说出不丹的首都是一样难以验证的难题相比。

主持人：我想问问AlphaGo，并了解你的背景，你曾在扑克和其他游戏中取得了很多成就。游戏玩法中的经验教训与你们在O1上所做的工作有何相似之处，又有哪些不同之处？

Noam：我认为O1真正酷的一点是，它明显受益于更长时间的思考。回顾许多AI领域的突破，我认为AlphaGo就是一个典型的例子。虽然当时可能被低估了，但该机器人真正引人注目的一点是，它在行动前会思考很长时间，每次落子需要30秒。如果你试图让它立即行动，它实际上不如顶级人类棋手，甚至明显不如他们。因此，额外的思考时间显然对它大有裨益。

现在，问题是，它所拥有的额外思考时间，是通过运行多学院研究实现的，这是一种特别适合围棋的推理形式。但例如，它并不适用于扑克之类的游戏，而我的早期研究就是关于扑克的。因此，许多能够进行推理、能够进行更长时间思考的方法仍然特定于某些领域，即使它背后的神经网络非常通用。我认为O1真正酷的一点在于它的通用性。它进行更长时间思考的方式实际上非常通用，可以用于许多不同的领域。我们正在看到这一点。我们通过向用户提供O1并观察他们能够用它做什么来看到这一点。

Hunter：语言模型一直以来吸引我的一个点，这并不是什么新鲜事，仅仅是因为它们的界面是文本界面，它们可以适应各种各样的问题。因此，我认为，我们现在感到兴奋的原因是，我们认为我们有了一种方法，可以在这个通用界面上进行强化学习。然后我们很期待看看这会带来什么。

主持人：关于这个问题，你提到，我认为你表达得很好，就是，我忘了你确切的措辞，但是，生成和验证之间的差距。在事情易于验证的程度上存在某种程度上的差异。推理方法在这种程度差异的各个点上是否保持一致？或者说，适用于这种程度差异各个点的不同方法？

Hunter：我对这次发布感到兴奋的一点是，让如此多的新用户能够使用O1，看看它是如何工作的，它擅长解决什么样的问题，以及它不擅长解决什么样的问题。我认为这是OpenAI迭代部署战略的核心内容。我们将我们构建的技术、我们开发的研究成果发布到世界上，以便我们能够看到。我们安全地进行操作，以便我们能够看到世界如何与之互动，以及哪些是我们自己可能并不完全理解的事情。在思考我们方法的局限性时，我认为看到Twitter展示了它的能力和局限性，这非常具有启发意义。我希望这对世界来说是有启发意义的，这对每个人来说都是有用的，以便弄清楚这些新工具的用途，我还希望我们能够利用这些信息，有效地更好地理解我们的流程、我们的研究和我们的产品。

主持人：说到这里，你们在Twitter上看到有什么特别让你们感到惊讶的吗？你知道，人们想出了一些你们没有预料到的使用O1的方法吗？

Ilga：有一件事让我非常兴奋。我看到很多医生和研究人员将该模型用作头脑风暴伙伴。他们谈到的是，他们在癌症研究领域工作了很多年，他们一直在向该模型介绍他们可以做些什么，关于基因发现、基因治疗类型的应用。他们能够从模型中获得真正新颖的研究方法。显然，模型本身无法进行研究，但在这方面，它可以成为人类非常好的合作者。所以我非常兴奋地看到该模型推动了科学发展。这不是我们团队正在做的事情，但我想，这是我们希望在世界上看到的事情。那些不在我们领域内的，成为从这个模型中受益的领域。

主持人： Noam，我记得你发推文说深度强化学习（Deep RL）已经摆脱了幻灭的低谷。你能详细说说你的意思吗？

Noam：我的意思是，我认为确实存在一个时期，从DeepMind的Atari实验结果开始，深度强化学习一度非常热门。我当时正在读博，还记得2015年到2018年、2019年是什么样的情况。深度强化学习当时非常火爆。从某种程度上说，我认为当时的研究成果丰硕，但也有一些东西被忽视了。我认为其中一个被忽视的东西是，仅仅使用大量数据进行训练（例如GPT方法）的强大力量。

这在某种程度上令人惊讶，因为如果你看看AlphaGo，它在很多方面都是深度强化学习的巅峰之作，是的，它确实包含了强化学习步骤。但除此之外，首先，它还包含了一个推理步骤。但在此之前，还有一个从大量数据中学习的过程。这才是AlphaGo成功的真正基础。所以之后就出现了一种转变，我认为这是一种偏见，许多深度强化学习的研究都专注于无需人类数据，从零开始学习。是的，AlphaZero取得了巨大的成功，结果也比AlphaGo好得多。但我认为部分原因是由于这种从零开始学习的关注点，GPT范式在一段时间内被忽略了。

除了OpenAI，他们看到了最初的一些结果，并且有信心加倍投资。是的，确实存在深度强化学习非常热门的时期。然后我认为，当GPT-3和其他大型语言模型出现时，取得了巨大的成功。然后，当我们开始在没有深度强化学习的情况下进行这项工作时，出现了一个幻灭的时期，许多人放弃了它，或者对它失去了信心。而我们现在在O1中看到的其实是，深度强化学习仍然有其存在的空间，并且当它与其他元素结合时，可以非常强大。

主持人：我认为许多深度强化学习的成果都局限于定义明确的环境中，例如游戏。O1是否是您首次在更通用、更无界的环境中使用深度强化学习？这样理解对吗？

Noam：是的，我认为你说的很好，许多引人注目的深度强化学习结果非常酷炫，但也极具局限性。我的意思是，我认为有很多非常有用的深度强化学习结果，也有一些非常通用的强化学习结果，但没有哪一项能与GPT-O1的影响力相媲美。因此，我认为我们将在新的范式中看到深度强化学习产生这种级别的影响。

主持人：在这个思路下再问一个问题。我记得AlphaGo的比赛结果，在“Mastering the Game”锦标赛的某个阶段，出现了第37步。这一步让所有人都感到惊讶。你有没有见过类似的情况，O1给出了某个令人惊讶的答案，而当你仔细思考后发现它是正确的，并且比任何顶尖人类棋手都能想到的方案都要好？你是否在使用该模型的过程中遇到过这样的时刻，或者你认为这会在O2或O3中出现？

Hunter：我想到的一个例子是，我们在模型参与的IOI竞赛做准备时，花费了大量时间研究它对编程竞赛问题的解答。其中有一个问题，O1坚持要用一种非常奇怪的方法来解决，使用某种奇怪的算法。我不太清楚具体细节，我们的同事更擅长编程竞赛，他们试图弄清楚为什么模型要这样做。我认为这并不是什么灵光一闪的时刻，我认为只是模型不知道实际的解法，所以它不断尝试，直到找到另一种方法。

是的，它解决了这个问题。它只是使用了某种方法，如果你看到另一种方法，它会很容易理解。我希望我能提供具体的例子，但我记得这很有趣。我认为在编程竞赛结果中有很多这样的例子，我们应该在某个地方发布了IOI竞赛的程序。在那里你可以看到，模型的思考方式与人类略有不同，或者它解决问题的方式与人类略有不同。它有略微不同的解决方法。对于实际的IOI竞赛，有一个问题人类做得非常糟糕，而模型却能够获得一半的分数。而另一个问题，人类做得非常好，而模型却几乎无法入门，这表明它解决问题的方法与人类可能有所不同。

Ilga：我见过该模型解决一些几何问题。它的思维方式让我非常惊讶，例如你让模型给出球体，然后球体上有一些点，并询问某个事件发生的概率。模型会说，让我们把它可视化，让我们把这些点放在一起。如果我这样想的话，等等。我心想，哦，你只是在用文字来可视化一些东西，这真的帮助你理解了上下文。就像我作为人类也会那样做。看到O1也这样做，真的让我很惊讶。很有趣。

主持人：太令人着迷了。所以这些东西实际上是人类可以理解的，并且实际上会扩展人类思考问题的方式，而不是某种难以解读的机器语言。这真的太令人着迷了。

Hunter：是的，我认为O1结果的一大亮点在于，模型生成的这些思维链是人类可理解的。因此我们可以研究它们，并且可以了解模型的思维方式。

主持人：在此过程中，有没有什么“啊哈”时刻？或者说，Hunter，你提到你一开始并不相信这是可行的方向。有没有某个时刻改变了你的想法，让你觉得，“我的天哪，这真的会成功”？嗯。

Hunter：是的。我在OpenAI工作了两年半，大部分时间都致力于改进模型解决数学问题的能力。我们在这方面做了大量工作，构建了各种不同的定制系统。在O1项目中，我们用某种方法训练了一个模型，并进行了一系列的修复和改进。这个模型在数学评估中的得分高于我们之前的所有尝试，包括所有定制系统。然后我们阅读了思维链，你会发现它们似乎具有不同的特点。你会看到，当它卡住时，它会说，“等等，这是错的。让我退一步，让我找到正确的方向。” 我们称之为回溯。

我认为很长一段时间以来，我一直期待看到模型回溯的实例。我有点觉得……我不会看到自回归语言模型回溯，因为它们只是不断地预测下一个词元，预测下一个词元，预测下一个词元。所以，当我们看到数学测试的得分以及包含回溯轨迹时，那一刻我意识到，哇，一些我原本认为不可能实现的事情正在融合，我需要更新我的认知。我认为那是我增强信心很多的时候。

Noam：我认为我的经历也差不多。我想可能是在同一时期。我加入时抱着这样的想法：ChatGPT在回应之前并没有真正思考，它非常非常快。而有一种强大的范式，即在这些AI游戏中，能够思考更长时间并获得更好的结果。我非常感兴趣的一个问题是如何将这种能力引入语言模型。说起来容易，但仅仅说应该有一种方法让它思考更长时间，和真正实现这一点之间是有区别的。所以我尝试了几种方法，其他人也在尝试一些不同的方法。特别是，是的，我们想要看到的一件事是模型能够回溯、识别错误或尝试不同的方法的能力。我们围绕如何实现这种行为进行了很多讨论。在某个时刻，我们只是觉得，好吧，至少作为基线，我们应该尝试的一件事就是让AI思考更长时间。

我们发现，一旦它能够思考更长时间，它就会几乎涌现出这些非常强大的能力，其中包括回溯和自我纠正，所有这些都是我们想知道如何在模型中实现的。看到它源于如此简洁、可扩展的方法，对我来说，那一刻非常重要，我意识到，好吧，很明显我们可以进一步推动这项工作，并且事情的发展方向非常清晰。

Hunter：我认为Noam低估了他对测试时计算的坚定信念。我觉得在他加入后的所有早期一对一会议中，我们都在讨论测试时计算及其强大的能力。我认为在项目过程中，Noam多次说过，“为什么我们不让模型思考更长时间呢？”然后我们照做，结果就会更好。他会用一种奇怪的眼神看着我们，好像我们直到那时才这样做一样。

主持人：我们在你们的评估中注意到，O1在STEM方面明显表现出色，比之前的模型更好。对此有什么大致的直觉解释吗？

Noam：我之前提到过，有些任务，比如推理测试，比生成解决方案更容易验证。还有一些任务并不属于这一类。我认为STEM问题往往属于我们认为的难题。所以我认为，这就是我们看到STEM学科提升的一个重要因素。

主持人：说得通。我认为，相关的是，我们在你们发布的研究论文中看到，O1通过了你们的研究工程师面试，通过率相当高。你们对此有何看法？这是否意味着将来OpenAI会雇佣O1而不是人类工程师？是的。

Hunter：我认为我们还没有达到那个水平。我认为还有更多……

主持人：不过100%很难超越。

Hunter：也许面试需要改进。我不确定。至少对我来说，还有我们团队的其他成员，O1感觉比其他模型更像一个更好的编程伙伴。我认为它已经在我们的代码库中编写了几个PR（Pull Request）。所以在某些方面，它确实像一名软件工程师，因为我认为软件工程也是另一个受益于更长时间推理的STEM领域。我不知道。我认为模型目前展示的这种能力是每次思考几分钟。而我编写代码时，思考的时间会超过几分钟。所以，也许随着我们进一步扩展这些能力，随着我们遵循这种趋势，让O1思考越来越长时间，它将能够完成越来越多的任务。

Noam：当我们撤下所有招聘信息时，你们就能知道我们在内部实现了AGI（通用人工智能）。那时，公司要么发展得非常好，要么发展得很糟糕。

主持人：您认为O1需要什么才能在人文学科方面取得优异成绩？您认为擅长推理、逻辑和STEM是否会随着在推理时间上的扩展而自然地延伸到擅长人文学科？或者您认为这将如何发展？

Noam：你知道，正如我们所说，我们发布了这些模型，并且我们很好奇它们擅长什么，不擅长什么，以及人们最终将它们用于什么目的。我认为模型的原始智能与其对各种任务的有用性之间存在差距。在某些方面它非常有用，但我认为它可以在更多方面更有用。我认为仍然需要一些迭代才能释放出这种更通用的实用性。

主持人： 那么，关于这一点，我想请问一下，OpenAI是否有某种理念或观点，来决定模型能力与实际工作需求之间的差距，你们希望多大程度地将差距缩小融入模型本身？又有多少差距应该留给构建在你们API之上的生态系统来解决？你们内部是否有思考过程来确定哪些工作应该由模型完成，以及模型能力的边界在哪里，以便形成一个相应的生态系统？

Noam： 这围绕着我们？所以我一直听说那个开场白，我非常关注AGI，而且在我加入公司之前，说实话我对此有点怀疑。在我第一天上班的时候，公司全体员工开会，Sam在全体员工面前发言，阐述了公司短期和长期的优先事项，那时非常清楚地表明AGI才是真正的优先事项。所以我认为最明确的答案是，AGI是目标。除了实现AGI之外，没有哪个单一应用是优先事项。

Hunter： 我不知道我是否有一个具体的AGI的定义。我只是认为这与我们的模型和AI系统能够完成的经济上有价值的工作的比例有关。我认为在未来几年里，这个比例将会大幅提高。我不知道。这是那种只有当你感受到它时才能体会到的东西，我们会不断地调整目标，然后说，这还算不上，直到有一天，我们只是与这些AI同事一起工作，它们完成我们现在所做的大部分工作，而我们从事不同的工作，整个工作的生态系统都发生了变化。

主持人： 你的一位同事很好地阐述了推理在通往AGI道路上的重要性，我认为可以概括为：任何工作都会遇到障碍，而克服这些障碍的关键在于你的推理能力。我认为这是推理的重要性与AGI目标以及完成经济上有用任务之间相当不错的联系。这是思考推理及其重要性的最佳方式吗？还是你们倾向于使用其他框架？

Hunter： 我认为这是一个待定问题，因为我认为在这些AI系统、这些模型发展的许多阶段，我们都看到了不同的缺点，不同的不足。我认为我们在开发系统、评估系统以及试图理解它们的能力和它们能够做什么的过程中，正在学习很多这些东西。

其他一些我想到的东西，我不知道它们是否与推理有关，比如战略规划、构思等等，要想创建一个像优秀的产品经理一样优秀的AI模型，你需要进行大量的头脑风暴，构思用户需要什么，所有这些东西是什么。这是推理吗？还是一种不同类型的创造力，不完全是推理，需要用不同的方式来解决？然后，当你考虑将这些计划付诸实施时，你必须制定战略，以引导组织朝着目标前进。这是推理吗？其中一些部分可能是推理，而另一些部分可能是什么其他的东西，也许最终它们对我们来说看起来都像是推理，或者也许我们会想出一个新词，并且会有我们需要采取的新步骤才能到达那里。

Ilga： 我不知道我们还能推进多久，但每当我想到这个普遍的推理问题时，思考数学领域会有所帮助。我们花了很多时间阅读模型在解答数学题时在想什么。然后很明显，它会遇到障碍，然后回溯，只是有一个问题。哦，等等，也许我应该试试这个其他的方法。所以当你看到这个思考过程时，你可以想象它可能会推广到数学之外的事情。这就是给我希望的东西。我不知道答案，但希望如此。

Hunter：让我犹豫的是，O1在数学方面已经比我强了，但在软件工程方面却不如我。所以这里有一些不匹配。

是的，还需要做一些工作。如果我的全部工作都是做AIME问题和高中竞赛数学，我就要失业了。现在对我来说还有一些事情要做。

主持人： 既然你提到了思维链以及能够观察幕后的推理过程，我有一个问题，这可能是一个你们无法回答的问题，但只是为了好玩。首先，对于你们在发布O1时发表的博客中解释为什么思维链实际上是隐藏的，并且字面意思是“部分原因是出于竞争的原因”，我表示赞扬。我想知道这是一个有争议的决定，或者说这个决定的争议程度如何，因为我可以看到两种情况。隐藏它是合乎逻辑的决定，但我也可以想象一个你们决定公开它的世界。所以我只是想知道这是一个有争议的决定吗？

Noam： 我认为这不是一个有争议的决定。我的意思是，我认为与你不必一定共享前沿模型的模型权重的原因相同，我认为共享模型背后的思考过程存在很多风险。我认为这实际上是一个类似的决定。

主持人： 你能用通俗易懂的方式解释一下，也许是对一个门外汉解释一下，什么是思维链，以及一个例子是什么？

Ilga： 例如，如果你被要求解一个积分，我们大多数人需要一张纸和一支笔。我们会从一个复杂的方程式出发，逐步展开。然后会有简化的步骤，然后得到最终答案。答案可能是1。但我如何得到这个答案？这就是数学领域中的思维链。

主持人： 让我们谈谈未来的发展方向。推理时间缩放定律。对我来说，这是你们发表的研究中最重要的一张图表。在我看来，这是一个具有里程碑意义的结果，类似于预训练的缩放定律。对不起，有点兴奋。你是否同意这里的含义非常深刻？这对整个领域意味着什么？

Noam： 我认为这相当深刻。我们在准备发布O1时，其中一个疑问是人们是否会认识到它的意义。我们包含了它，但这有点微妙。而事实上，许多人认识到这意味着什么，这让我非常惊讶和印象深刻。此前有很多担忧，认为AI可能遇到了瓶颈或停滞不前，因为预训练成本非常高昂，而且还在不断上涨。围绕着是否有足够的数据进行训练，也存在诸多疑问。

我认为关于O1，特别是O1预览版的一个主要收获，不在于该模型当下的能力，而在于它对未来的意义。能够拥有这种迄今为止尚未充分开发的不同维度的扩展能力，我认为这是一件大事。而且我认为这意味着上限远高于许多人所认识到的那样。

主持人： 如果让模型思考数小时、数月甚至数年，会发生什么？你认为会发生什么？

Hunter： 我们还没有使用O1数年，所以还无法让它思考那么长时间。

主持人： 是否有一个任务现在正在后台运行，它还在思考？解决世界和平。

Hunter： 阿西莫夫有一个类似的故事，叫做《最后的问题》，他们问一个大型计算机大小的AI如何逆转熵。它回答说，我需要更长时间思考这个问题。故事就这样继续下去，十年后，他们去看，它还在思考；一百年后，一千后，一万年后……

Ilga： 目前还没有足够的信息来给出有意义的答案，或者类似这样的说法。

主持人： 你对将会发生的事情有什么经验性的猜测吗？或者说，我认为现在模型，我看到一些报告，说它的智商是120，非常非常聪明。随着推理时间计算的扩展，智商是否存在上限？你认为它会达到无限的智商吗？

Hunter： 不会。重要的一点是，它在某些测试中智商为120。但这并不意味着它在所有我们关心的领域都具有120智商水平的推理能力。我认为我们甚至讨论过它在某些方面，比如创意写作等，得分低于4.0。

Noam： 我认为一个重要的点是，我们谈论这些基准测试，我们在结果中突出显示的一个基准测试是GPQA，它是给博士生提出的问题，通常博士生可以回答。而AI现在在这个基准测试中超过了许多博士生。但这并不意味着它在所有可以想象到的方面都比博士生聪明。博士生可以做很多事情，人类也可以做很多事情，而AI做不到。因此，你必须带着某种理解来看待这些评估，即它正在衡量某件事，当人类进行测试时，这通常是人类智力的替代指标，但当AI进行测试时，其含义就不同了。

Hunter： 也许回答这个问题的一种方式是，我希望我们能够看到，让模型在它已经表现出擅长的事情上思考更长的时间，将继续使其变得更好。我推特上的一件大事是，我看到一位我上学时的数学教授，在推特上说他非常印象深刻，因为给O1一个之前由人类解决过但从未由AI模型解决过的证明。它直接拿过来就做了，并解决了。

对我来说，这感觉像是我们正处于一些真正有趣的事情的尖端，它即将成为一个用于进行新颖数学研究的有用工具，如果它可以为真实的数学研究做一些小的引理和证明，那将是一个真正的突破。因此，我希望通过让它思考更长的时间，我们可以在成为一个非常好的数学研究助手这项特定任务上做得更好。我很难推断出它会是什么样子。它会变得更擅长它现在不擅长的事情吗？前进的道路会是什么样子？那么，当它永远思考它不擅长的问题时，无限智商或任何东西又会是什么样子呢？但我认为你可以将自己定位在：这些是它擅长的问题。如果我们让它在这些问题上思考更长时间，哦，它将对数学研究有用。哦，它将对软件工程非常有用。哦，它将非常……你可以开始玩这个游戏，并开始看到我希望未来如何发展。

主持人： 推理时间计算扩展的瓶颈是什么？我的意思是，对于预训练来说，很明显你需要大量的计算资源。你需要海量的数据。这些东西需要大量的资金。很容易想象预训练扩展的瓶颈。是什么限制了推理时间计算的扩展？

Noam： 当GPT-2和GPT-3发布时，很明显，好吧，如果你只是投入更多的数据和更多的GPU，它就会变得更好。从GPT-2到GPT-3再到GPT-4，仍然花费了数年时间。从一个听起来非常简单的想法，到实际将其扩展到非常大的规模，其中有很多内容。我认为这里也面临着类似的挑战，好吧，这是一个简单的想法，但要真正将其扩展，还有很多工作要做。所以，我认为这就是挑战。

Hunter： 是的，我认为有一件事可能并不需要更多的惊喜，但我认为可能曾经让更多加入OpenAI的学术导向的研究人员感到惊讶的一件事是，我们解决的许多问题是工程问题而不是研究问题。构建大型系统、训练大型系统、在全新的系统上运行前所未有的算法是一项没有人想过会非常困难的技能。因此，总是有很多艰苦的工程工作才能使这些系统扩展。

Ilga： 此外，还需要知道在什么方面测试模型。我们确实有标准的评估作为基准，但也许有一些我们尚未测试模型的方面。因此，我们肯定正在寻找那些我们可以只在测试时间上花费更多计算资源并获得更好结果的方面。

主持人： 我很难理解的一件事是，你知道的，当你给模型提供几乎无限的计算资源时会发生什么？因为作为一个普通人，即使我是陶哲轩，我的大脑在某些方面也受到限制，而你可以随时在推理时间增加越来越多的计算资源。那么，这意味着，例如，所有数学定理最终都将通过这种方法解决吗？或者说，你认为极限在哪里？

Hunter： 无限计算是大量的计算。

主持人： 接近无限。

Hunter： 这要追溯到阿西莫夫的小说，你可能需要等待一万年，但也许吧。我说这话只是为了把它放在一个，我们还不完全了解它的规模如何与解决真正困难的数学定理相关联的背景下。也许你真的需要让它思考一千年才能解决一些未解的核心数学问题。

Noam： 是的，我的意思是，我认为确实是这样，如果你让它思考足够长的时间，那么理论上，你可以遍历所有内容，比如，你知道的，你在Lean中形式化一切，然后遍历每一个可能的Lean证明，最终你会偶然发现定理。

Hunter： 是的，我们已经有可以解决任何数学问题的算法了，也许这就是你接下来要说的话。

Noam：是的，如果有无限的时间，你可以做很多事情。所以很明显，随着你思考的时间越长，收益递减。

主持人：是的，非常公平。你认为关于O1最大的误解是什么？

Noam： 我认为一个很大的误解是，当“草莓”这个名字泄露时，人们认为这是因为网上流行的一个问题，即模型无法回答“草莓”中有多少个字母“r”。而实际上并非如此，当我们看到这个问题时，我们非常担心模型内部存在某种泄露。据我们所知，这只是一个完全的巧合，我们的项目被命名为“草莓”，而且也存在关于草莓的这种流行的推理。

Hunter： 就我所知，它被称为“草莓”的唯一原因是，在某个时刻，有人需要想出一个代号，而那个房间里有人正在吃一盒草莓。我认为这就是全部原因了。

主持人： 它比Q-Stack更贴切。是的。

Noam： 我认为我对它被理解得有多好印象深刻，实际上。是的。我们实际上不确定它发布后会受到怎样的评价。内部曾就以下问题进行过激烈的讨论：人们会不会因为，它在各方面都不够出色而感到失望？人们会不会对它惊人的数学性能印象深刻？我们真正想传达的是，这并不是关于我们正在发布的模型本身，而是关于它的发展方向。我认为，是的，我不确定这一点是否会被很好地理解，但看起来像是被理解了。所以我认为我看到这一点后实际上非常高兴。

主持人： 你认为对O1的哪些批评是公平的？

Hunter： 它绝对不是在各方面都更好。它是一个很奇怪的模型，可以用来玩耍。我认为网上的用户正在找到新的方法来提示它做得更好。所以仍然有很多奇怪的边缘需要处理。我不知道。我很期待看到……有人早些时候提到了让生态系统与我们的平台一起工作以创造更智能的产品，创造更智能的东西。我非常有兴趣看看O1会如何发展。我认为我们正处于非常早期的阶段。这有点像……我不知道。在大概一年前的某个时候，人们开始真正了解这些LLM（大型语言模型），比如带有GPT-4的语言模型程序等等。它正在使更智能的软件工程师工具等成为可能。也许我们会看到人们在O1之上构建的一些类似的发展。

主持人： 说到这个，我们还没有讨论的一件事是O1 Mini。我听说很多人对O1 Mini感到兴奋，因为人们普遍对小型模型感到兴奋。如果你能够保留推理并提取一些世界知识，那么深度神经网络就不是最有效的机制。这真是一个相当不错的东西。所以我很想知道，你对O1 Mini以及它所代表的总体方向有多兴奋？

Ilga： 对我们研究人员来说，这也是一个非常令人兴奋的模型。如果一个模型速度快，它就会具有普遍的用途。所以，我们也很喜欢它。它们在某种程度上服务于不同的目的。而且，我们非常高兴拥有一个更便宜、更快的版本，以及一个更重、更慢的版本。它们对不同的东西有用。所以，我们对最终获得一个良好的权衡非常兴奋。

Hunter： 我非常喜欢这个框架，因为它我认为它突出了你可以前进多少以及你可以迭代多少。至少对于我们的研究，就像ILGA所提到的那样，O1 Mini让我们能够更快地迭代。希望对于玩这些模型的更广泛的生态系统来说，O1 Mini也能让他们更快地迭代。因此，至少由于这个原因，它应该是一个非常有用和令人兴奋的成果。

主持人： 对于正在AI领域创业的创始人来说，他们应该如何考虑何时应该使用GPT-4与O1？他们是否必须从事与STEM、编码、数学相关的工作才能使用O1？或者他们应该如何考虑这个问题？

Hunter： 我希望他们能帮我们弄清楚这一点。

Noam： 我们发布O1预览版的一个动机是看看人们最终会将它用于什么以及他们如何使用它。实际上，有人质疑是否值得发布O1预览版。但我认为我们想要发布它其中一个原因是，我们可以尽早让它落到人们手中，看看它在哪些用例中真正有用，在哪些用例中没用，人们喜欢将它用于什么，以及如何改进人们发现它有用的方面。

主持人： 你认为人们现在最低估O1的什么方面？

Hunter： 这有点证明我们正在越来越擅长命名。我们没有称它为GPT 4.5思考模式，或者其他什么。

主持人： 好吧，我认为它是草莓。我认为它是Q-Star。所以……

主持人：我认为它是Q-star。我不知道。思考模式。这种说法听起来不错。你们对O2、O3或其他即将到来的任何东西最兴奋的是什么？

Ilga： 我们还没有达到黔驴技穷的地步，所以我对它会如何发展感到兴奋。继续进行我们的研究。但是，最令人兴奋的是获得反馈，因为作为研究人员，我们显然偏向于我们可以理解的领域，但我们会从产品的实际使用中获得许多不同的用例。我们会说，也许，这是一件值得努力的事情。超出我们的想象，它可能会在不同的领域变得更好。

Hunter： 我认为我们有一个趋势线，我们在博客文章中发布了它，这真的很酷。我认为看看这条趋势线是如何延伸的将会非常有趣。

主持人： 太棒了。我想这是一个很好的结束语。非常感谢大家今天加入我们。

备注：进群，进入大模型技术群

id：baobaogpt，记得备注呦

http://mp.weixin.qq.com/s?__biz=MzIwNDY1NTU5Mg==&mid=2247492392&idx=2&sn=cbc70a5d059dcc8775914a6c3c92f70d

包包算法笔记

大模型技术和行业认知