点击⬇️图标关注 抓住你的灵感💡瞬间
刚与Meta技术大佬杨立琨对线完的Noam就带着o1研究组的两个小伙伴参加Sequoia Capital的一档播客节目Training Data。让我们看看这次有什么新的爆料?
红杉资本主持人:Sonya Huang 和 Pat Grady
将 LLMs 与 AlphaGo 风格的深度强化学习相结合一直是许多领先 AI 实验室的圣杯,而 o1(又名 Strawberry)则看到了迄今为止两种模式最普遍的融合。o1 诚然在数学方面比论文写作更好,但它已经在许多数学、编码和推理基准上达到了 SOTA。
OpenAI 研究人员 Noam Brown、Ilge Akkaya 和 Hunter Lightman 讨论了 o1 发布过程中的顿悟时刻,它如何使用思维链和回溯来思考问题,发现强大的测试时计算缩放定律,以及随着模型变得更好而会发生什么。
看到桌上的细节?小抄?估计公关说辞都准备很充分
访谈大纲
1、 简介
2、o1 中的信念
3、 o1 如何运作
4、什么是推理?
5、 游戏玩法的教训
6、 生成与验证
7、 到目前为止,o1 有什么令人惊讶的地方
8、 幻灭的低谷
9、 应用深度强化学习
10、 o1 的 AlphaGo 时刻?
11、 顿悟时刻
12、为什么o1擅长STEM?
13、 能力与实用性
14、 定义通用人工智能
15、 推理的重要性
16、 思想链
17、推理时间缩放定律的含义
18、 扩展测试时计算的瓶颈
19、 关于o1最大的误解?
20、o1-迷你
21、 创始人应该如何看待 o1?
1、简介
旁白: 其中一种推理的思考方式是,有些问题会从长时间的思考中受益。你知道,关于人类思维有一个经典的概念,即系统一和系统二。系统一是一种更自动化、更本能的反应,而系统二则是一种更慢、更依赖过程的反应。对于某些任务,长时间的思考并不会带来更多的好处。所以,如果我问你,不丹的首都是什么,你可以思考两年,但这并不会让你更准确地得出答案。不丹的首都是什么?我其实也不知道。但有些问题显然能从长时间的思考中获益。我举的一个经典例子是数独谜题。理论上,你可以尝试各种可能性,推测数独的解答,并且当你找到正确的解答时,它很容易被验证。所以,理论上,如果你有足够的时间解决谜题,你最终会找到解答。
2、 o1 中的信念
Pat Grady: 今天我们很高兴请到了Noam Brown、Ilge Akkaya 和 Hunter Lightman ,他们是OpenAI的"草莓项目"或称"o1项目"的研究人员。"o1"是OpenAI首次涉足通用推理时间计算,我们非常期待与团队讨论思维链、推理时间规模定律以及o1项目的愿景。
Sonya Huang: Ilge、Hunter、Noam,非常感谢你们加入我们,也恭喜你们将o1推向全球。我首先想问一下,你们是否从一开始就相信这个项目会成功?
Noam Brown: 嗯,我认为我们相信这一方向有前景,但实现它的路径从未十分明朗。你知道,o1并不是一夜之间完成的成果,它背后有多年的研究,且不少研究并未成功。但我认为OpenAI和许多领导层一直相信这一方向上必有成效,愿意继续投入,尽管一开始遇到了挫折。我认为这种信任最终得到了回报。
Hunter Lightman: 我要说的是,我起初并不像Noam那样有很强的信心。我一直在关注语言模型,试图教它们进行数学和其他类型的推理,我认为研究过程中起伏不定,有时成功,有时失败。当我们看到我们追求的这个方向开始见效时,我想对我和许多人来说,那是一个顿悟的时刻。我开始阅读模型的一些输出,发现它们以全新的方式处理问题,这就是我真正开始相信的时刻。
Hunter Lightman: OpenAI通常采取非常实证、数据驱动的方式。当数据开始给出清晰的信号,趋势一致时,我们会继续探索。那时,我对这个项目的信念大大增强。
Sonya Huang: Ilya,你在OpenAI工作了五年半时间。在这段时间里,你是如何看待这个项目的?你从一开始就相信它会成功吗?
Ilge Akkaya: 不是的。自从我加入以来,我对AI发展路径的看法已经多次改变。我最初认为机器人技术是未来的方向,这也是我最早加入机器人团队的原因。具身人工智能、AGI,那时我们认为这就是AI的发展方向。但实际上事情遇到了不少障碍。我想说的是,ChatGPT的出现无疑是一个范式转变。它是一个可以与世界广泛互动的通用接口。
Ilge Akkaya: 我很高兴我们现在有了一条新的发展路径,可能推动推理的新范式。但对我来说,这一切并非显而易见,过去很长时间里,确实如此。
3、o1 如何运作
Sonya Huang: 我知道你们出于正当理由对其工作原理能公开的内容有限,但你们能分享一些关于它如何运作的线索吗?即使是一些笼统的说法?
Ilge Akkaya: 所以,o1系列模型是通过ARL训练的,它能够进行推理思考。它与我们习惯的LLM有着根本不同,我们已经看到它可以在许多不同的推理领域中真正泛化。我们对此非常兴奋。
4、什么是推理?
Sonya Huang: 对那些不熟悉大语言模型的人来说,什么是推理?你如何定义推理?可以简短解释一下它为何重要吗?
Noam Brown: 好问题。我的理解是,推理是一种可以从长时间思考中获益的过程。正如之前提到的,人类思维可以分为系统一和系统二。对于一些任务,长时间的思考并不会有明显帮助。比如,如果我问你不丹的首都是什么,你花再多时间也不一定能找到正确答案。但有些问题,像数独谜题,明显从长时间的推理中获益匪浅。你可以试验多种解法,并在找到正确解法时立刻识别。
Noam Brown: 所以,我认为推理是关于能够从更多选择和更长时间的思考中获益的过程。你可能会称之为生成器与验证器的差距,生成一个正确的解答很难,但识别出正确答案要容易得多。所有问题都在这个范围内,比如数独的验证相对简单,而不丹首都的名称则难以生成。
5、游戏玩法的教训
Sonya Huang: 我想请教一下你们的背景,Noam,你在扑克和游戏方面做了许多卓越的工作。从这些游戏中学到的经验与你们在o1项目中的研究有何相似或不同?
Noam Brown: 我认为o1真正酷的地方在于,它明显能从长时间思考中受益。回顾AI的许多突破时,AlphaGo是一个经典的例子。它花30秒思考一步棋。如果你让它立刻下棋,它并不比顶尖人类棋手强。问题是它的推理过程特定于围棋,而在扑克中效果并不佳。o1则更通用,能够在许多不同领域中泛化。
Hunter Lightman: 我一直觉得语言模型特别引人注目的一点在于,它们的接口是文本接口,因此可以适应各种各样的问题。所以我们现在非常兴奋的一点是,我们相信我们有一种方法可以在这个通用接口上进行强化学习,我们迫不及待地想看到这会带来什么样的结果。
6、生成与验证
Sonya Huang: 关于这一点,我想问个问题。你提到了“生成与验证之间的差距”,你能否进一步解释,在推理的各个层面上,这种方法是否保持一致?或者不同的方法是否适用于这个范围的不同部分?
Hunter Lightman: 我对o1发布感到兴奋的一个原因是,它会被很多新人使用,他们将能够玩这个模型,看看它如何工作,它擅长处理哪些问题,不擅长哪些问题。我认为这正是OpenAI迭代部署战略的核心,我们将技术和研究推向世界,安全地观察世界如何与它互动,这样我们就能了解哪些地方我们可能自己没有完全理解。
Hunter Lightman: 当我们思考这个方法的局限性时,看到社交媒体上人们展示的模型表现真的非常有启发性。我希望这不仅对世界是有启发的,对我们自己也是如此,我们能通过这些信息更好地理解我们的流程、研究和产品。
7、到目前为止,o1 有什么令人惊讶的地方
Sonya Huang: 说到这里,你们在社交媒体上看到的最让你们惊讶的o1应用是什么?有什么是你们之前没有预料到的吗?
Ilge Akkaya: 我最激动的一件事是看到很多医学博士和研究人员将这个模型当作头脑风暴的伙伴。他们已经在癌症研究领域工作了多年,利用模型来提出关于基因发现和基因治疗的想法,并从模型中得到了一些全新的研究途径。当然,模型本身并不能进行研究,但它可以成为科研人员非常有力的合作伙伴。所以,看到这个模型推动科学进步让我非常兴奋,这也是我们希望看到的,尤其是在我们没有直接参与的领域,这些领域真正从模型中受益。
8、幻灭的低谷
Sonya Huang: Noam,你曾在推特上说,深度强化学习已经走出了“幻灭的低谷”。你能详细解释一下这句话的意思吗?
Noam Brown: 我的意思是,曾经有一段时间,特别是在Atari游戏的突破之后,深度强化学习成为了最热门的技术。我还记得2015年到2018、2019年时,深度强化学习风头正劲。但在那时,有些重要的因素被忽略了,其中之一就是通过像GPT这样的模型进行大规模数据训练的潜力。在某种程度上,AlphaGo代表了深度强化学习的巅峰,但其实它也是建立在人类数据学习基础上的。这一点被忽视了,而许多研究聚焦于从零开始学习。
Noam Brown: 这也是为什么后来当GPT-3和其他大型语言模型崭露头角并在没有强化学习的情况下取得了巨大成功时,很多人对深度强化学习感到失望,甚至放弃了它。然而,现在在o1项目中,我们看到了深度强化学习与其他元素结合后带来的强大潜力。
9、应用深度强化学习
Sonya Huang: o1项目让我们首次看到深度强化学习用于更通用、不受限制的环境中吗?这是一个正确的思考方式吗?
Noam Brown: 是的,我认为这是一个很好的观点。许多深度强化学习的成果确实很酷,但其适用性非常狭窄。比如,在游戏环境中它表现出色,但当它被应用到更广泛的现实世界任务时,还没有展现出类似的通用能力。我们希望o1能在这种新的推理范式下展现出深度强化学习的潜力。
10、o1 的 AlphaGo 时刻?
Pat Grady: 说到推理链,我记得AlphaGo比赛中令人震惊的第37步,那是一种超出人类预料的棋招。你们在o1模型中有过类似的时刻吗?有没有时候模型给出的答案让你们感到惊讶,它比人类预期的还要好?
Hunter Lightman: 是的,有一个例子让我印象深刻。我们花了大量时间为模型准备IOI编程竞赛,它坚持用一种很特别的方式解决问题,甚至不采用常见的方法,而是通过一种奇怪的路径来找到解法。这虽然不完全是一个天才时刻,但却显示出模型在解决某些复杂问题时有着独特的思维过程,最终也成功解决了问题。
Ilge Akkaya: 我也见过模型解决一些几何问题,它的思维过程让我感到惊讶。比如你给模型一个球体,然后问关于某些点的概率问题,模型会主动尝试将这些点进行可视化处理。这种思维方式让我觉得它真的像人类一样在“思考”。
11、顿悟时刻
Sonya Huang: 有没有什么关键时刻让你们觉得,"这确实会成功"?或者你们在项目中有什么转折点吗?
Hunter Lightman: 是的。我在OpenAI工作了大约两年半,大部分时间都在努力让模型更好地解决数学问题。当o1模型用新的方法训练后,突然在MathyVals上的得分超过了我们之前所有的尝试,并且模型在解决问题时展现出了回溯的能力,这种能力曾让我认为不太可能在自回归语言模型中出现。这就是我开始真正相信这个方向的时候。
Noam Brown: 我也有类似的经历。当我们尝试让AI思考更长时间时,发现它竟然自发地发展出回溯和自我纠正的能力,这让我意识到我们可以更进一步推进这一点。
Hunter Lightman: Noam早在我们开始这个项目时就一直强调推理时间的重要性。他经常建议我们让模型花更多时间思考,并且他一直对这个想法充满信心。
12、为什么o1擅长STEM?
Sonya Huang: 我们注意到o1在STEM领域表现得特别出色,尤其在数学和科学问题上表现优异。你们有直觉上的解释吗?为什么它在这些方面如此突出?
Noam Brown: 我认为这是因为STEM问题往往更适合推理的验证任务。我们可以通过花更多时间思考来验证答案,所以在这些领域提升效果更加明显。
Sonya Huang: 在你们的研究中,o1通过了研发工程师面试,这是否意味着未来某一天,OpenAI会招聘AI而不是人类工程师?
Noam Brown: 我不认为我们已经达到那个水平了。o1目前更多的是作为编码伙伴,能够编写一些PR。但随着我们继续扩展它的推理时间,它可能会逐步胜任更多任务。不过,我认为距离用AI完全取代工程师还有很长的路要走。
Ilge Akkaya: 我们对发布模型非常好奇,想了解它在哪些任务上表现出色,哪些地方还需改进。模型在STEM领域表现出色,但我们认为它仍然需要经过多次迭代才能更好地应对其他领域的问题。
13、能力与实用性
Pat Grady: OpenAI内部是否有讨论过,模型的能力和实际完成任务之间应该留有多大的差距?你们希望模型能做多少,生态系统又应该做多少?
Noam Brown: 我一直听说OpenAI非常专注于AGI,但坦率地说,在我加入之前,我对此持怀疑态度。然而,在我加入的第一天,公司开了一次全体会议,Sam明确表示,AGI是我们的长期优先目标。所以我认为,AGI是最终目标,而其他应用则是我们在前进过程中逐步实现的。
14、定义通用人工智能(AGI)
Pat Grady: 你对AGI有具体的定义吗?
Noam Brown: 每个人对AGI的定义可能都不同,但从我的角度来看,AGI的关键在于它能够完成相当大比例的经济价值工作。随着时间推移,我们会逐步看到这一比例的增长,直到有一天我们和这些AI同事一起工作,它们正在执行很多我们现在所做的工作,而我们则转向其他任务。
15、推理的重要性
Pat Grady: 你的一位同事很好地阐述了推理在通往AGI的道路上的重要性,主要观点是:任何需要完成的工作都会遇到障碍,而推理能力正是克服这些障碍的关键因素。这是否是思考推理的重要性和AGI目标之间最佳联系的方式?还是你们有其他的框架?
Ilge Akkaya: 我认为这是一个有待探索的问题。因为在这些AI系统和模型的发展过程中,我们发现了不同的不足和缺陷。我们一直在学习,理解模型的能力以及它们能够完成的任务。当我们想到推理时,可能会想到战略规划或构思这些任务的方式。要成为一个优秀的产品经理,你需要进行头脑风暴,规划用户需求,并将计划付诸实践。某种程度上,这也涉及推理,但也许还需要创造力,可能不是单纯的推理。总之,如何定义这些行为,如何推进它们,仍是一个开放性问题。
16、思想链
Pat Grady: 你提到了推理链,能够看到模型的推理过程。那么我想问一个问题,或许你们不一定能回答,但很有趣。你们在发布o1时提到了一部分推理链被隐藏,部分原因出于竞争考虑。这个决定有争议吗?你们是否曾讨论过公开推理链的可能性?
Noam Brown: 我不认为这是一个有争议的决定。就像我们不公开最前沿模型的权重一样,隐藏推理链同样出于安全和竞争的考虑。这是一个类似的决定。
Pat Grady: 你能用通俗的语言解释一下什么是“推理链”吗?有没有简单的例子?
Ilge Akkaya: 比如说,如果你被要求解一个积分问题,大多数人需要用纸笔列出从复杂方程式到简化步骤,最终得到答案。这个解题的思维过程就是推理链。
17、推理时间缩放定律的含义
Pat Grady: 我们谈谈未来的方向吧。推理时间规模定律在你们的研究中尤为突出,它让我联想到预训练规模定律。这会不会是一个具有里程碑意义的成果?你们怎么看?
Noam Brown: 我认为这是一个相当深远的发现。当我们准备发布o1时,我就在想,大家是否会意识到它的重要性。我们在研究中提到过这一点,但它的含义比较微妙。我很惊讶也很高兴看到这么多人能理解它的重要性。过去有人担心AI发展是否遇到了瓶颈,尤其是预训练成本越来越高,数据资源有限。o1项目最大的收获之一在于,它为我们打开了一个新的扩展维度,这一维度还没有被充分利用。我认为这对未来的潜力意味着很多。
Pat Grady: 当你让模型思考几个小时、几个月甚至几年时会发生什么?你有任何预测吗?
Noam Brown: 目前我们还没有让o1思考那么长的时间,所以很难说。
Pat Grady: 是否有一个后台运行的模型,它一直在思考?
Noam Brown: (笑)是的,可能它正在思考世界和平的问题。你知道,有一个阿西莫夫的科幻故事叫《最后一个问题》,讲的是人们向一个巨大的AI计算机提问如何逆转宇宙的熵,AI说它需要更多时间来思考这个问题。故事的结尾是1000年后,这台机器还在思考。
Pat Grady: 你认为如果无限延长推理时间,AI的智商有上限吗?还是说它会一直变得更聪明?
Noam Brown: 一个重要的事情是,智商测试中的120分并不代表它在所有领域的推理能力都达到120。在某些领域,比如创意写作,模型可能表现得更弱。所以说,我们应该认识到这些基准测试只是测量了某个特定方面的能力。至于无限推理时间是否会带来无限智商,还没有明确的答案。
Hunter Lightman: 也许一种回答方式是,我们希望看到让模型在它擅长的领域思考更长时间,它会继续变得更好。我的一个启发性时刻是看到o1解决了一个数学问题,这个问题人类已经解决了,但模型之前从未解决过。它仔细研究并成功解答,这让我觉得我们可能正接近让它成为数学研究的有用工具。如果它能帮忙处理小的引理和证明,那将是一个真正的突破。
18、扩展测试时计算的瓶颈
Pat Grady: 推理时间计算的扩展瓶颈是什么?是什么限制了其扩展?
Noam Brown: 当GPT-2和GPT-3问世时,大家很快就意识到,只要投入更多的数据和GPU,它们就会变得更好。但要将这种想法真正扩展到非常大的规模,仍然需要很多工作。我认为推理时间计算面临的挑战类似,虽然这个想法看起来很简单,但要大规模实施依然有很多工程上的难题。
Ilge Akkaya: 另一个挑战是我们还没有找到所有合适的测试方法。我们有一些标准的评估基准,但我们可能还没有测试到所有能够提升推理时间计算的任务。
Pat Grady: 我很难理解的是,当你给模型接近无限的计算能力时,理论上是否意味着所有数学定理都可以通过这种方法解决?你认为它的极限在哪里?
Noam Brown: 我觉得这让我们回到了阿西莫夫的故事。是的,理论上如果给模型足够长的时间,它会遍历所有可能的证明,最终找到答案。但要解决一些核心数学问题,可能真的需要让它思考很长时间,甚至是数千年。也许在这种情况下,理论上确实可以解决所有问题,但我们还不清楚收益的递减效应会在何时出现。
19、关于o1最大的误解?
Pat Grady: 你觉得关于o1最大的误解是什么?
Noam Brown: 当"草莓"这个项目名泄露时,人们误以为这是因为网上流传的一个关于“草莓里有多少个字母R”的问题,但实际上,项目名只是因为有人在开会时在吃草莓。
Hunter Lightman: 我对人们对它的理解程度感到印象深刻。内部也曾讨论过,大家会不会对它的表现感到失望,但我们想表达的是,这个项目的意义不仅在于它目前的能力,更在于它未来的发展方向。看到大家能够理解这一点,我感到很高兴。
Sonya Huang: 你觉得对o1的哪些批评是合理的?
Ilge Akkaya: o1并不在所有方面都更好,它是一个非常有趣的模型,但仍然存在一些奇怪的边缘情况需要处理。我很期待看到它的发展方向,尤其是生态系统与它的交互将带来哪些创新。我们还处于非常早期的阶段,未来还有很多可能性。
20、o1-mini
Pat Grady: 我们还没有讨论o1 mini。很多人对小型模型感到兴奋,特别是如果它能够保持推理能力,并且在一些方面更加高效。你们对o1 mini的方向怎么看?
Ilge Akkaya: 作为研究人员,我们对这个小型模型也非常兴奋。它速度快,应用广泛。因此,拥有一个更便宜、更快的版本是令人高兴的,它们在不同的场景中都有用处。
Hunter Lightman: 是的,o1 mini让我们可以更快地进行迭代。希望这也能对更广泛的生态系统有所帮助,加速模型的开发和使用。
21、创始人应该如何看待 o1?
Sonya Huang: 对于那些在AI领域创业的创始人来说,他们应该如何判断何时使用GPT-4,何时使用o1?是否只有在与STEM相关的领域才应该使用o1?
Noam Brown: 我们也希望大家能帮我们解决这个问题。o1预览版的一个主要动机就是看看人们最终会用它做什么,以及它在哪些用例中真正有用,哪些用例中不太合适。我们希望通过尽早发布,让它进入用户手中,了解它的实际表现。
Sonya Huang: 你认为大家现在最低估了o1的哪个方面?
Hunter Lightman: 我觉得大家可能低估了它在命名上的成功(笑),我们没有把它称为“GPT 4.5思考模式”这样的名字。
Noam Brown: 是的,草莓这个代号的由来也只是因为会议室里有人在吃草莓。
Hunter Lightman: 你们对未来版本(o2、o3等)最期待的是什么?
Ilge Akkaya: 我们仍然有很多想法尚未实现,所以我很期待看到它的发展。作为研究人员,我们对现有领域有一定的偏见,但我们希望通过用户反馈发现更多有趣的应用领域,并推动模型在这些方向上继续改进。
Sonya Huang: 很好,这是一个很好的结束语。非常感谢你们今天加入我们。
本文使用 Notion Nice 排版一键生成
参考:https://www.youtube.com/watch?v=jPluSXJpdrA
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。
点击关注和转发公众号 保持你对AI优质内容的敏感