喝点VC | 红杉美国：不断优化模型的奖励函数，可显著提升AI的性能和可靠性，挑战是如何处理缺乏明确奖励函数的任务

文摘 2024-09-02 11:32 北京

图片来源：Sequoia Capital

Z Highlights

AI Agent的广度与深度平衡：尽管当前的语言模型在广度上取得了巨大进展，但在深度和任务复杂性方面仍有很大提升空间。需要通过多任务数据集和强化学习来提升AI Agent的通用性和可靠性。这种平衡的实现将使AI不仅能够处理多种任务，还能在每个任务中表现得更加深入和细致。
RLHF在AI优化中的关键角色：这需要在数据收集和环境搭建上投入更多的精力，以确保模型在各种任务中的表现都能够得到有效评估和改进。
AGI的潜力与实现路径：随着AI技术的不断发展，我们将能够显著提升人类的生产力和创造力。这不仅体现在日常工作的自动化上，还包括在科学研究和技术创新中的应用。通过不断探索和解决技术挑战，Reflection AI希望能够在未来几年内实现这一目标，为社会带来深远的影响。
模仿学习与强化学习的结合：通过对Alpha Go和其他AI项目的分析，Misha Laskin强调了模仿学习与强化学习结合的必要性。模仿学习使AI能够掌握基本技能，而强化学习则通过不断的反馈和优化，提升AI的复杂任务处理能力。这种结合方法不仅在游戏AI中有效，也可以广泛应用于其他领域，如编程Agent和操作系统Agent，从而实现更高效、更智能的AI系统。
未来AI技术的加速发展：Misha对AI技术未来发展的速度表示乐观，认为我们正处于一个指数级增长的阶段。尽管当前AI训练需要大量时间和资源，但随着技术的进步和优化，训练效率将不断提高。他预测，在未来几年内，AI Agent的深度和可靠性将得到显著提升，从而推动整个行业进入一个新的发展阶段。这一洞见展示了AI技术的巨大潜力和广阔前景，激励更多研究者和开发者投身于这一领域。

本期访谈的参与者如下：

Misha Laskin：是Reflection AI的CEO兼联合创始人，曾在Google DeepMind担任研究科学家。

Julia Boorstin：是CNBC的高级媒体和技术记者，专注于报道技术、媒体和创新领域的最新动态。

Matthew Moore：是Sequoia Capital的合伙人，专注于支持和投资有潜力的科技初创公司。

图片来源：@Reflection AI

Misha Laskin的背景与AI之路：从俄罗斯到美国的科学探索

Julia Boorstin：大家好，欢迎来到Training Data。今天我们邀请到了Reflection AI的CEO兼联合创始人Michelin。Misha曾是Deep Mind的研究科学家，他的联合创始人Yanas是Alpha Go的创造者，也是Gemini的RLHF负责人。他们一起正在构建通用的超人Agent。我们将讨论为什么即使有今天最好的模型，我们仍然离AI Agent的承诺很远。我们需要什么来真正解锁LLMs的目标功能，以及我们可以从那些构建了世界上最强大的Agent（如Alpha Go和AlphaZero）以及最强大的LLMs（如Gemini）的人那里学到什么。

那么，Misha，在开始前我们想更多地了解你的个人背景。你出生在俄罗斯，1岁时搬到以色列，然后9岁时移居美国华盛顿州。你的父母在化学领域推动技术和研究的发展。我认为这激发了你对推动技术前沿的热爱，并使你今天进入了AI的世界。你能分享更多关于是什么激发了你进入这个领域，以及在你的童年和成年时期是什么激励了你吗？

Misha Laskin：是的，确实如此。当时我的父母从俄罗斯移民到以色列，正值苏联解体。他们来到以色列时，身上几乎没有什么财物，口袋里只有300美元，这些钱在他们刚落地时就被偷了，因为他们用这些钱支付了一套公寓的押金，但最终并没有得到这套公寓。这笔钱就这样消失了，我甚至不确定是否真的有那套公寓。因为他们不会说希伯来语，所以决定在耶路撒冷希伯来大学攻读化学博士学位，但这并不是因为他们对学术有特别的热情，而是因为以色列当时为俄罗斯移民提供奖学金以便他们继续深造。

Misha Laskin：有趣的是，当我问我的父母时，他们在掌握了这门技艺后才渐渐热爱上它。所以我觉得这是我从他们那里学到的最重要的一点。他们并不是一开始就对化学特别热情，而是在学习的过程中，逐渐产生了好奇心，并深入研究，最终成为他们领域的专家。这是我自己在搬到美国后发现非常重要的一点。我的父母告诉我，我们将搬到一个美丽的州，那里有许多山脉，就是华盛顿州。我记得那次我们坐飞机，我在以色列的所有朋友面前吹嘘，非常兴奋。我们飞行时确实看到了远处的山脉，但飞机做了一个U形转弯。如果你们不了解华盛顿州，那里的地形一半是沙漠，一半是山脉和森林。而飞机转向了沙漠区，我看到它在一个荒无人烟的地方降落。我问我的父母：“山脉在哪里？” 他们说：“你从飞机上已经看到了。” 我提到这个是因为我们搬到了一个非常无聊的地方，华盛顿州有个叫“三城市”的地方，这个地方有很有趣的历史。这个地方存在的原因是它是曼哈顿计划的一个站点。那里有一个叫做汉福德站的地方是洛斯阿拉莫斯的姊妹站，在那里进行钚的提纯。这个镇子是在1940年代为此建立的，位于荒郊野外，像洛斯阿拉莫斯一样，没什么可做的。

我记得第一次看到风滚草，真的看到风滚草在高速公路上滚动。我发现自己在一个语言不太通的地方，英语不太好。这是一个非常乡村的地方，我和其他人不同，我没有多少朋友，手头有很多时间。而我对科学的兴趣，当时是物理学，是在玩够了电子游戏后再次感到无聊时产生的。我发现了我父母在家里的费曼物理学讲座，这些讲座非常有趣，因为费曼有一种方式能把极其复杂的事情解释得非常简单，让当时数学知识不多的人也能理解一些世界运作的基本原理。这可能是最激励我的事情。我对了解事物如何在根本层面上运作非常感兴趣，并喜欢研究那些根本性的问题。

我在阅读一些发明故事时，比如晶体管的发明，乔·巴丁，一位理论物理学家，发明了晶体管，或者GPS是如何工作的？事实证明，你需要做相对论计算，这来自爱因斯坦的狭义相对论。我想做这样的事情。这就是为什么我进入物理学。我追求了一段时间，接受了这方面的教育，并获得了博士学位。我认为当时我缺乏的关键信息是，你不仅要研究根本性的问题，还要研究你那个时代的根本性问题。你要研究那些现在真的能被解锁的东西。当你被训练成为物理学家时，你会研究这些非常有趣的问题，学习人们如何看待这些问题，基本上是100年前的物理学问题。物理学是我们那个时代的根本性问题，这就是为什么我决定不再专业地追求它。我做了180度的转变，想做一些非常实际的事情。所以我创办了一家初创公司。但在工作时，我开始注意到深度学习作为一个领域正在兴起。

特别是Alpha Go，当Alpha Go出现时，感觉它不仅能在高水平上表现得像人类，而且还能创造性地执行任务。在Alpha Go中，有一个著名的第37步，当时神经网络做出了一个看起来很糟糕的举动。李世石对这个举动感到非常困惑，所有人都感到困惑，看起来像是一个错误。结果在10步之后，这实际上是一个最佳的举动，使Alpha Go在比赛中处于有利位置。这表明这不仅仅是蛮力计算的问题。显然，系统进行了大量的搜索，但它能够找到人们之前没有想到的创造性解决方案。这让我直观地感受到解决Agent问题的重要性。这是第一个真正大规模的超人Agent。这似乎很深刻，这就是为什么我进入AI，并从一开始就致力于构建Agent。所以这是一个非线性的路径，我是一个外行，当时竞争也很激烈。大约在2018或2019年,OpenAI发布了研究请求，是他们希望其他人研究的课题。当我看到这份名单时，可能已经过时了，我不认为他们真的关心这些问题。但它给了我一些具体的工作内容，我开始在这些问题上取得进展，但不知道实际进展了多少。我不断向OpenAI的几位研究科学家提问，可能让他们觉得我很烦，直到他们开始回应我，并建立了一些关系。其中一位介绍我认识了伯克利的Pieter Abbeel，他是强化学习和机器人领域最伟大的研究者之一。但他的实验室几乎做所有事，他们有一些最有影响力的生成模型研究，最重要的扩散模型论文之一就出自那里。老实说，我很幸运，他给了我一个机会，把我带入他的团队。他真的没有理由这么做，当我在另一边看申请者时，发现他没有理由接纳一个未经验证的人。他冒了一个险，我认为这就是我进入这个领域的契机。

Matthew Moore：你和你的联合创始人Yanis在DeepMind和Google上参与了一些最令人难以置信的项目。你能给我们介绍一下你们共同参与的一些项目，比如Gemini和Alpha Go吗？你们从每个项目中学到了什么关键经验，它们如何推动了你们的思考直到今天？

Misha Laskin：是的，Yanis基本上是我进入AI的原因之一。他是Alpha Go的关键工程师之一，在首尔与李世石对战时也在现场。在Alpha Go之前，他参与了一个名为Deep Q Network（DQN）的论文，这是深度学习时代的第一个成功的Agent。这个Agent能够玩Atari电子游戏，并催生了深度强化学习领域。这一领域的AI系统自主学习主要是电子游戏和机器人环境中行动，但这是第一个Agent，是一个证明点，证明你可以仅从原始感官输入中学习在环境中可靠地行动。

这是一个重大突破，当时并不明显。就像2012年ImageNet中的神经网络突破一样，Yanis之后还参与了Alpha Go及其后续工作，包括Alpha Zero和MuZero的研究。我认为这显示了这一思想可以推进到多远，因为与我们今天的大型语言模型相比，Alpha模型实际上非常小，但在某些方面非常智能。

从Alpha Go中得到的关键教训至少对我来说，体现在强化学习研究员Rich Sutton的著名文章《苦涩的教训》中。他基本上说，如果你构建的系统是基于你的内部启发式方法，这些东西很可能会被那些自主学习的系统所取代，或者说那些以可扩展的方式利用计算资源的系统。

他认为有两种利用计算资源的方法。一种是通过学习，也就是训练。我们现在看到的语言模型主要是通过在互联网上训练来利用计算资源。另一种是搜索，即利用计算资源展开一系列计划，然后选择最佳方案。Alpha Go实际上结合了这两种方法，我仍然认为这是AI中最深刻的思想，将学习和搜索结合起来是以可扩展的方式利用计算资源的最佳方法。这两者结合在一起，造就了围棋中的超人Agent。

问题在于Alpha Go只擅长一件事。我记得当时在这个领域，感觉深度强化学习领域有点停滞，因为大家的目标是构建通用Agent，超人的通用Agent。而结果是超人的非常狭窄的Agent。没有明确的路径可以使它们变得通用，因为它们的数据效率非常低，如果训练一个任务需要60亿步，那么你从哪里获得数据来训练其他所有任务？这就是语言模型时代的重大突破。

一种思考互联网的方法是，将互联网上的所有数据视为许多任务的集合。比如，Wikipedia是描述历史事件的任务。Stack Overflow是编码问答的任务。你可以把互联网视为一个巨大的多任务数据集。这很有趣，我们从语言模型中获得通用性的原因是它基本上是一个在大量任务上训练的系统。这些任务并不是特别有针对性或有可靠性的，因此从中产生的语言模型并不是特别好的Agent。当然，它们能够完成许多令人惊叹的事情。

但在Agent问题中，一个根本性的问题是你需要思考多个步骤，而每个步骤都有一定的错误率，这些错误会累积。这被称为错误累积。这意味着如果你在第一个步骤中有一定的错误概率，那么经过几步后，这些错误会迅速累积到几乎不可能在一个有意义的任务中保持可靠的程度。

我认为缺失的关键是，我们现在有了利用学习的语言模型或系统，但它们还没有以可扩展的方式利用搜索或规划的系统。我认为这正是缺失的一块。

好，现在我们有了通用Agent，但它们并不非常胜任。因此，我们需要提升它们的能力。唯一的现存证明是通过搜索实现的Alpha Go。

Julia Boorstin：我非常喜欢你刚才的概述，我认为这为Reflection奠定了很好的基础。你能多分享一些最初的灵感、你们正在解决的问题空间以及你对Reflection的长期愿景吗？

图片来源：unsplash

反思AI的初衷与灵感来源：深度学习与Gemini项目的启示

Misha Laskin：最初的灵感很大程度上来自于工作。Yanis和我在Gemini项目上紧密合作。Yanis领导了RLHF（基于人类反馈的强化学习）工作，而我领导了奖励模型的训练，这是RLHF的关键部分。我们和其他人在这些语言模型上所做的工作是，在后期训练中将它们调整为聊天模式，使它们能为某些最终用户提供良好的互动体验。这通过像ChatGPT或Bard这样的产品实现，现在被称为Gemini。这些预训练的语言模型非常适应性强。如果有合适的数据组合，你可以将它们调整为高度互动的聊天机器人。我认为我们从工作中获得的关键见解是，聊天中没有做任何特别的事情，只是收集了聊天的数据。如果你为另一种能力收集数据，你也可以解锁这种能力。当然，这并不那么简单。

有很多事情发生了变化，一个关键点是聊天是主观的。所以你训练的算法与那些有明确目标任务的算法不同，比如任务是否完成，有各种各样的问题。但主要的是，我们认为架构和模型是有效的。很多我认为的瓶颈都随着计算和规模的增加而消失了，比如长上下文，我曾认为这是需要研究突破的领域。而现在所有的玩家都在发布相对于一两年前认为可能的上下文长度非常长的模型。这些东西的训练和对齐方法以及后期训练方法都相当稳定。实际上，这是一个数据问题，也是一个如何在这些对象上启用规划和搜索的问题。我们认为如果我们独自解决这个问题，进展会更快。我们只是想非常迅速地解决这个问题。

Matthew Moore：你将Agent描述为你和Yanis作为研究人员的梦想，也是Reflection的梦想。我们能暂停一下，讨论一下“Agent”这个词吗？现在它成了2024年的流行词，每个人都称自己是Agent，这个词的含义开始变得有些模糊。我想你对Agent可能有一个更纯粹的定义。你能解释一下吗？什么是Agent？当我们看一些最近让大家非常兴奋的Agent时，似乎它们离成为可靠的同事级真正Agent方面还处于早期阶段。那么你认为我们在这个曲线上处于什么位置？什么是Agent，我们如何到达理想状态？

Misha Laskin：这是一个有趣的问题，因为“Agent”这个词在研究社区中流传了一段时间。实际上，我认为自AI开始以来，但我主要是在深度学习时代的背景下思考Agent。从DQN开始，定义相当简单，它是一个能够自主推理并采取必要步骤来实现指定目标的AI系统，就是这样。

现在，目标的指定方式随着时间的推移而变化。在深度强化学习时代，目标通常通过奖励函数来指定。例如，在Alpha Go中，目标是你是否赢得了围棋比赛。没有人会写“通过文本赢得围棋比赛”。所以人们通常认为Agent是优化奖励函数的事物。但在语言模型之前，关于目标条件Agent的研究已经有很大的领域。所以这些可能是在机器人或电子游戏中，你为机器人设定一个目标，比如给它一个图片，展示苹果被移动到某个地方的图片，然后让它复制这个图片。它必须在现实世界中行动，拾起苹果并将其移动到指定位置以实现目标。所以简短的定义是，必须在环境中行动以实现某些目标的AI系统就是Agent。

Matthew Moore：然后我猜作为一个跟进问题，如果你以编码Agent为例，这是一个最近有很多活动的潜在Agent领域。你可以说目标是，创建一个计算器应用程序，Agent必须去完成这个任务。

当我看Swee Agent和Devin所做的事情时，在你看来，这算是Agent推理吗？将其扩大是否能让我们到达理想状态，还是你认为我们需要在强化学习方面或者其他技术方面采用不同的方法？因为我认为那些Agent的任务完成率仍然在13%到14%之间。我很好奇我们如何让它们达到99%。

Misha Laskin：按照Agent的定义，这些确实是Agent。它们只是处于能力的光谱上，可能还没有达到高水平的可靠性。我认为大多数人今天在语言模型的背景下谈论Agent时，指的是提示Agent。你拿一个模型，给它提示，或者设置几个提示的流程来让它完成一个任务。这让任何人都可以使用语言模型并将其从零带到某种程度上工作。我认为这很有趣，但它只能达到一定程度。

我认为这是“苦涩的教训”适用的一个例子。因为提示和引导这些模型以特定方式工作，正是我们将启发式方法融入这些模型以试图实现更高智能的方式。自深度学习时代以来，每一个Agent的重大进展都显示，通过学习和搜索，许多问题被解决了。

我认为提示的目的是指定目标，所以你总是需要提示，你总是需要告诉Agent要做什么。但一旦你偏离了这个目标，提示的目的是将Agent放在轨道上，而你是在为它进行思考，对吗？你在告诉它，现在去这里做这件事，我认为这将会消失。我认为这是今天发生的一个局部现象。未来的系统，我认为不会有这样的情况。

Matthew Moore：所以关键是思考和规划需要在AI系统内部进行，而不是在提示层面进行，这样才能避免碰壁。

Misha Laskin：你想尽可能多地卸载到AI系统本身。这些语言模型从未被训练为Agent，它们被训练为聊天互动和预测互联网内容。因此，能够通过提示使它们做某些事情几乎是个奇迹。

但有趣的是，一旦你能够通过提示使它们做某些事情，那实际上是一个很好的起点，用于强化学习算法。强化学习算法所做的只是强化好的行为，并减少坏的行为。如果你有一个Agent什么都不做，那么就没有好的行为可以加强，因此算法不起作用。这被称为稀疏奖励问题。如果你没有达到奖励，也就是没有完成任务，那就没有什么可学习的。但如果你通过提示得到了一个像Swee Agent那样的Agent，它的完成率是13%左右，那么你就有了一个至少具备基本能力的Agent，可以通过强化好的行为来提高性能。

挑战变成了数据挑战。你从哪里获得训练所需的一组提示？你从哪里获得运行这些Agent的环境？我猜Swee Agent自带一个环境，但对于许多问题，你需要考虑这一点。或许最大的挑战是如何以可扩展的方式验证任务是否被正确完成。如果你能解决这个问题，即任务通常通过产品获得，这是可解决的。你运行这些Agent的环境是什么，使用什么算法，但实际上是什么环境运行它们。然后关键是，如何以可扩展的方式验证任务是否被正确完成？我认为这是实现Agent的配方。

图片来源：unsplash

AI与语言模型的演变：从Alpha Go到通用Agent的重大突破

Julia Boorstin：我认为这涉及到今天AI Agent问题的核心。为了更好地理解Reflection所要解决的问题，你认为当前市场和AI Agent的现状是什么？许多人认为我们今天的模型能够做的远比实际能做的多。那么你认为问题是什么？为什么你认为当前关于AI Agent的尝试未能达到预期？

Misha Laskin：一种分类或定义通用Agent的方法是使用“universal Agent”这个术语，因为我会用“generality”来指代广度。所以，一个universal Agent需要的是一个非常广泛的Agent，能够处理许多任务和输入，但它也需要在任务复杂性方面有深度。例如，Alpha Go可能是有史以来构建的最有深度的Agent。它可以执行一个任务，但并不太有用，它只能下围棋，而不能玩井字棋。

目前的系统，如Gemini Cloud、ChatGPT和GPT系列模型，则偏向另一方向。它们非常广泛，但在深度上不太强大。它们在广度上非常令人印象深刻和有能力，我认为这是非常神奇的。

正如我所说，这个领域感觉我们没有通用性的答案，然后这些系统出现了。但现在我们在广度上取得了更多进展，这在最新一代的模型中尤其明显，比如GPT-4和最新的Gemini模型家族。这些模型在多模态方面理解其他模态的能力与理解语言的基础层相同，你不需要将一种模态转换为语言。所以，我称之为广度，但在这个过程中，没有针对深度进行训练。

Misha Laskin：互联网上没有关于如何进行连续思考的真实数据。人们试图解决这个问题的方法是使用可能具有这种结构的数据集，并希望它能够推广。例如，数学数据集、编程数据集，人们通常称之为推理的数据集，这通常是指你能否解决数学问题。但这仍然没有真正正面解决问题。我认为我们需要一些方法，可以针对任何任务类别，使用一系列提示作为训练数据，使语言模型在这些任务上逐步变得更有能力。

我认为需要有人来解决深度问题。目前，大型实验室一直在致力于广度问题，这非常了不起，并且有很大的市场，解锁了许多非常有用的东西。但也需要有人来解决深度问题。

Julia Boorstin：我认为这很好地引出了你和Yanis在Alpha Go、AlphaZero和Gemini项目中获得的独特见解，以及后期训练和数据的重要性。你能多分享一些这些经验如何塑造了你们独特的视角，并使我们能够实现Agent能力的突破吗？

Misha Laskin：我发现语言模型非常接近预期效果这一点非常令人惊讶。尽管它们有时不能完成你希望的任务，但实际上非常接近。感觉它们需要更好地与任务结合。我认为这是使它们在聊天中表现良好的见解。你可以与它们互动，尽管它们有时不太可靠，会跑题，但它们几乎是很好的聊天伙伴。

接下来，我们讨论如何将预训练语言模型变成可靠的聊天机器人。这里的可靠性是通过人类偏好来衡量的。与这个聊天机器人互动的人是否比其他聊天机器人或之前的版本更喜欢它？如果当前版本比之前的几个版本更受欢迎，那就说明你取得了进展。这种进展是通过为其收集数据来实现的。收集用户在聊天框中输入的查询、模型提供的输出，以及这些输出之间的有效排序，从而推动模型更倾向于更受欢迎的输出。这里的排序从哪里来？它来自人类。可能是人类标注员，也可能是嵌入到产品中的功能，例如ChatGPT中的点赞或点踩。这些数据用于使模型与用户偏好对齐。这是一个非常通用的算法，是一种强化学习算法，因此被称为基于人类反馈的强化学习（RLHF）。你只是加权了人类反馈中表达偏好的内容。没有理由认为同样的方法不适用于实现更可靠的Agent能力。需要解决一系列其他问题，我认为这是如此困难的原因之一，因为一旦进入Agent领域，你不仅有语言输出，还有它们与之互动的工具。假设你想发送一封电子邮件或在IDE中工作，Agent在环境中执行任务，这需要工具和环境。每个部署Agent的人都在不同的环境中部署Agent。因此，挑战在于如何与环境集成以及如何将Agent加入其中。这就是为什么这种工作有点繁琐，你必须小心环境和结构方式，因为你不想过度拟合某些特定的环境。但从概念上看，它与对齐聊天模型非常相似，只是沿途需要解决更多的集成挑战。

Matthew Moore：既然你认为Alpha Go是构建一个真正有能力的Agent的巅峰之作，我想你是试图通过LLM引入一个Alpha Go时刻。你认为有哪些不同之处？对我来说，在游戏中有一个非常明确的奖励函数，有自我对弈就像是从人类反馈中进行强化学习。你认为这足以让我们在LLM中达到Alpha Go时刻吗？或者说，我该如何看待其中的不同点？

Misha Laskin：我认为你提到的没有一个明确的奖励是关键。我们从之前的强化学习研究中了解到，如果你有一个明确的奖励，基本上就能保证成功。确实有很多非常令人印象深刻的项目在这一点上展示了前所未有的规模。

除了Alpha Go，还有OpenAI的Dota 5和AlphaStar。虽然AlphaStar和Dota 5在某种程度上更为小众，因为你需要玩这些游戏才能理解它们。但作为一个前Starcraft玩家，我对AlphaStar完全震惊了，AI发现的策略看起来像是比我们聪明的外星人决定玩这个游戏，并彻底击败了我们。这归功于很多因素，但明确的奖励在优化行为方面极其重要。

强化学习与人类反馈在AI发展中的角色

现在，对于人类偏好和Agent来说，我们没有明确的奖励。这些是非常通用的对象，我们没有明确的奖励来判断某事是否完成。即使是对于编程任务，什么是正确完成的标准呢？它可能通过一些单元测试，但仍然可能是错误的。这是一个非常难的问题，我认为这是Agent的基本问题之一，还有其他问题，但这是最大的一个。

解决这个问题的方法，对于聊天来说，通过RLHF（基于人类反馈的强化学习），你训练奖励模型，让它预测某件事是否正确完成。首先，这个方法效果不错，但挑战在于，当没有明确的标准时，你的策略或Agent很快就会变得足够聪明，找到奖励模型中的漏洞并加以利用。

Misha Laskin：举一个具体的例子，在聊天中，假设你注意到你的聊天机器人输出了一些有害内容，或者谈论了一些你不希望它讨论的敏感话题。因此，你在数据集中加入了一些例子，这些例子表明聊天机器人忽略或不回答这些问题，而是说：“对不起，作为语言模型，我不能回答这个问题。” 这时你对这个奖励模型进行训练。假设在你的数据集中，只包含了这些不回答的例子，而没有包含机器人在敏感话题上回答的例子。这意味着奖励模型可能会认为每次不回答用户的查询都是一件好事，因为它只看到了这些正面案例。当你基于此进行训练时，语言模型最终会变得足够聪明，发现只要不回答问题就能获得高分，最终导致模型变成一个永远不回答问题的语言模型。这就是为什么这个过程非常挑剔和困难的原因。因此，很多与ChatGPT或Gemini等模型互动的用户可能会发现，有时这些模型会退化，突然不像以前那样回答问题，或者在某些方面变得稍差，或者在政治上有偏见。我认为很多原因是数据中的伪影，而这些伪影通过糟糕的奖励函数被放大。这是最难的问题。

Matthew Moore：如果将大型模型训练管道或大型AI系统训练管道视为预训练和后训练，我认为预训练在很大程度上像是一个已经解决的问题。我们正处于扩展规模的竞争阶段。后训练仍然感觉像是在市场的研究阶段，人们仍在摸索哪些技术能以通用的方式工作。我很好奇你是否同意这一点。在理想状态下，预训练应该负责什么？我们作为外行应该如何看待它？后训练应该完成什么任务？从一个五岁孩子的角度我们应该如何看待这一点？

Misha Laskin：是的，我同意。预训练主要是通过大量无标签数据训练模型，使其具备基本的语言理解和生成能力。这就像是教一个孩子学习词汇和语法规则。预训练的目的是让模型具备基本的知识和能力，为后续的特定任务打下基础。后训练则是通过特定任务的数据进行微调，使模型在这些任务上表现更好。这就像是教会一个孩子如何应用词汇和语法规则去写作文、解决数学问题等具体任务。通过后训练，模型能够更好地理解和回应特定类型的查询，从而提升其在实际应用中的表现。

Misha Laskin：我同意这种说法，预训练已经变得更为理解清晰。尽管细节很多，需要做对，这并不容易，是一个非常艰巨的任务，但在目前这个阶段它是更为人所理解的任务。

Misha Laskin：我以Alpha Go为例来思考预训练会更简单和清晰，因为它并不是涉及庞大的互联网，而是一个非常明确的设定，即这个游戏。Alpha Go有两个阶段：模仿学习阶段，在这个阶段神经网络模仿了一批专家级的围棋玩家；然后是强化学习阶段。你可以把预训练看作是Alpha Go的模仿学习阶段，你只是获得了学习游戏的基本技能。也许此时的神经网络不是世界上最好的，但已经相当不错，从零到不错。语言模型的预训练就是在所有方面从零到不错，这就是它的强大之处。

Misha Laskin：我认为后训练是强化良好行为。这意味着在Alpha Go中，你从模仿学习开始，有了一个能够做一些事情的神经网络，它可以很好地玩游戏。然后你应用另一个方法，即强化学习，让网络开始生成自己的计划，通过游戏行动，获得反馈，好的行为得到强化。我认为这就是后训练。从聊天的角度来看，你在聊天轴线上强化模型的行为。有趣的是，训练Alpha Go和训练Gemini的高级方法实际上是一样的：你有模拟学习阶段，然后有强化学习阶段。Alpha Go的强化学习阶段比我们现在的要复杂得多。

Misha Laskin：原因回到了奖励模型上。如果你有一个相当嘈杂且易于被利用的奖励模型，那么在策略变得聪明之前，你能做的工作有限。即使你使用最先进的RL算法，比如在Alpha Go中使用的蒙特卡洛树搜索，它可能也不会那么有效，因为它会陷入一种退化状态，策略在进行任何有趣的搜索之前已经利用了奖励模型。假设你在下棋时考虑多步棋的前景，但每一步的判断都很糟糕，那么计划十步棋的前景就毫无意义。我认为这就是我们今天在RLHF中的处境。

Misha Laskin：有一篇非常被低估的优秀论文叫《Scaling Laws for Reward Model Over Optimization》。这是OpenAI研究这一现象的论文。有趣的是，这种现象在所有规模上都会发生。论文尝试了几种不同的RLHF算法，发现这种现象在所有算法和所有规模上都会发生。我认为这篇论文非常有趣，因为它揭示了后训练的基本问题。

Matthew Moore：如果你跟随AlphaZero的结果，那么我们可能根本不需要预训练。这是否是一个公平的结论？

Misha Laskin：至少在我的心目中，Alpha Go的模仿学习更多是从实际角度出发。当DeepMind从Alpha Go过渡到AlphaStar时，没有AlphaStar的零预训练版本。AlphaStar的大部分是跨多个游戏的模仿学习。我认为对于Alpha Go来说，它是一个特殊的情况，不仅是零和游戏，而且你可以相对快速地结束游戏。因此你可以快速获得关于你所做的事情是否正确的反馈。

Matthew Moore：明白了。问题太不受限制，不能简单抛弃。

Misha Laskin：一般来说，是的，我认为在实践中，如果我们有所有事物的明确奖励函数，那么AlphaZero可以适用于所有事物。但因为我们没有，所以你需要进行模仿学习，这几乎只是一个实际问题，就像我们需要以某种方式进入游戏一样。

Julia Boorstin：从技术角度描述了Agent在其环境中的重要性，从产品分发和让用户使用的角度来看，考虑用户首先与最强大Agent互动的合适任务类别也很重要。你认为哪些任务类别最适合用户首先使用这些Agent？你想象用户在日常工作流程中可能会使用这些Agent的哪些可能性？

Misha Laskin：如果你想在深度轴上取得进展，你可以选择像Alpha Go这样的非常困难的任务，或者你可以同心扩展你能够处理的任务复杂性。我们专注于以这种同心方式实现深度。我们非常关注构建不包含对某些任务特有启发式方法的通用配方。从研究角度来看，我们正在构建通用配方。现在你必须将这些配方落实到某些具体任务中以展示进展。对我们来说，展示环境的多样性很重要。因此，我们正在考虑各种不同类型的Agent，网络Agent、编码Agent、操作系统计算机Agent。对我们来说，重要的是展示你可以有一个通用的启用Agent的配方。

Julia Boorstin：转换一下话题，你已经吸引了一支优秀的团队。你还在寻找哪些人加入你的团队？

Misha Laskin：是的，我们很幸运能够从业内顶级AI实验室吸引一些人才。我认为这很大程度上与我和Diana所做的工作有关，但肯定要归功于Yanis和他的声誉。我在看迈克尔·乔丹的纪录片时注意到，乔丹之所以如此高效，是因为他是一个令人难以置信的个体贡献者，可能是最好的。他真正激励了团队中的其他人，即使他们无法达到他的水平，也会努力向他看齐。Yanis对人们也有这种影响力，我在Gemini项目上与他密切合作，他对我也产生了这样的影响。我不知道我是否达到了Yanis的水平，但我通过这个过程肯定成为了一个更好的工程师和研究人员。我认为这就是吸引力所在，你可以从他身上学到很多。我们主要在寻找研究人员和工程师加入我们的使命。我们不会快速招聘，而是更有方法地招聘。我会说，所有加入我们的人都有一个共同点，那就是我们都非常渴望。Yanis和我本可以留在DeepMind继续推动Agent研究，但我们选择自己做是因为我们认为可以更快地实现目标。这种紧迫感部分来源于我们真正相信距离实现类似数字AGI的东西只有三年左右的时间，这就是我所说的Universal Agent，具备广度和深度的知识。这意味着我们的时间线非常紧凑。

几个月内你会发现你离实现目标只有5%的距离。或许这种紧迫感也来源于Alpha Go从领域专家怀疑其可行性到在几个月内有效解决问题的速度。人们认为实现人类水平或专家水平的围棋需要几十年，但他们在几个月内就解决了这个问题。

我认为我们在语言模型上也看到了类似的加速。有一种观点认为我们已经达到饱和，我们处于进展的尾端，但我们并不这么看。我们认为我们仍然处于指数增长阶段。部分原因是这些模型非常庞大且训练缓慢，作为一个研究人员和工程师的集体，我们还没有完全优化它们。如果运行最大的模型需要几个月的时间和几亿美元，那么你实际上能进行多少实验呢？所以我们认为事情正在加速发展，我们认为解决深度和可靠性问题没有得到足够的关注。虽然一些大公司在侧面任务上关注这个问题，但我认为你需要一个完全专注于此的团队来解决这个问题。

Julia Boorstin：我喜欢你们对主线任务与支线任务的描述。我喜欢你们团队的饥饿感、零自满和健康的不耐烦。唯一需要强调的是，Yanis激励和激发他人的声誉是众所周知的，我认为这对你和Yanis来说也是如此，这是我们所了解的。

Matthew Moore：所以三年内我就能有一个可以帮我写备忘录的Agent了，希望是三年。

Misha Laskin：是的，我认为备忘录可能会更早实现。

Matthew Moore：这是我最关心的问题之一，这是否需要几十年，还是几个月的时间？听起来你们更接近几个月或几年的时间。

Misha Laskin：对，是几年的时间。这实际上有点令人警觉。这个领域发展的速度确实非常快，部分原因是深度和可靠性。可靠性也意味着安全性。你希望这些系统是安全的。我认为这方面有很多非常有趣的研究。最近有一篇来自Anthropic的论文，讨论了机械可解释性，这一整条研究路线非常有趣，我认为已经开始具有实用性，例如发现模型中的“谎言神经元”并加以抑制。

但对我来说，安全性就是可靠性。如果系统在你的电脑上四处乱跑，破坏各种东西，那就是一个不安全的系统。也许这是功利主义的安全性，你只是希望这些系统能够按你的意图工作，完成你要求它们做的事情。

Matthew Moore：那么，我还有几年时间可以找到写备忘录以外的爱好。

Misha Laskin：或者，你会有一支AI实习生军队为你做所有的研究工作。真是令人期待。

图片来源：unsplash

Reflection AI的长期目标与影响：迈向数字AGI的愿景

Julia Boorstin：总结一下关于Reflection的话题，如果一切顺利，你对Reflection的梦想是什么？

Misha Laskin：这个问题有两个角度。首先，我们之所以致力于此，是因为这是我们这个时代的科学根本问题之一。这就是为什么我们对其如此感兴趣并全力以赴。这可能是科学史上最激动人心的旅程之一，你实现了构建Universal Agent的目标，你的电脑上运行着高度安全、可靠的数字Agent，做那些你不一定想做的繁琐工作。我认为，人们不会因此而花更少的时间工作，人类对生产力和贡献的需求不会改变。我只是认为每个人的生产和影响世界的能力将会大幅增加。

作为研究人员，我在工作中有很多事情，如果有一个更智能的AI可以帮助我，我们会更快地实现自己的目标。如果我们有一个接近数字AGI的东西，我们解决问题的速度会快得多。

另一个角度是从用户的角度来看，我们在电脑上做的很多事情可能可以被看作是我们第一次接触的数字工具，就像人们使用锤子、凿子和镰刀一样。我认为我们正在向更高层次迈进，不再需要花大量时间精确使用这些工具，这实际上是在从实现个人目标的时间中抽出时间。有了这些极其有用的AI Agent，可以帮助你实现任何目标，这非常令人兴奋。我认为，我们个人目标的雄心正在增加，今天的软件工程师可以用这些工具完成更多的工作。但这仅仅是开始。我认为我们将能够为自己和我们想要实现的事情设定更雄心勃勃的目标，因为我们可以将实现这些目标所需的大量工作交给这些系统。这是让我非常兴奋的一些事情。

原视频：Reflection AI’s Misha Laskin on the AlphaGo Moment for LLMs | Training Data

https://www.youtube.com/watch?v=pYBOWDJ5HJc

编译：Lucas Jiang 姜博文

-----------END-----------

🚀 我们正在招募新一期的实习生

🚀 我们正在寻找有创造力的00后创业者

关于Z Potentials

http://mp.weixin.qq.com/s?__biz=MzI4NTgxMDk1NA==&mid=2247498322&idx=3&sn=e4baeaf4d891cdd5fc5abf2011b2fdc2

Z Potentials

我们与Z Potentials同频共振