👇关注公众号后设🌟标,掌握第一手AI新动态
本文内容整理自谷歌副总裁兼Gemini主管Oriol Vinyals接受Google DeepMind Youtube频道专访,公开发表于2024年12月12日。原始内容参考:https://www.youtube.com/watch?v=78mEYaztGaw
内容提要: 谷歌VP维尼尔斯谈Gemini 2.0与自主AI的演进智能体发展历程与现状: 从2019年能够击败职业星际争霸玩家的多智能体系统,到如今的多模态大型语言模型(如Gemini),智能体的能力得到了极大扩展。虽然底层算法(预训练和强化学习)原理未变,但架构(如Transformer)的改进、规模的扩大以及数据类型的丰富都极大地提升了其性能。 模型训练的两个阶段: 所有模型都经历预训练(模仿学习)和强化学习(后训练)两个阶段。预训练阶段通过模仿大量数据(如互联网数据或游戏数据)来调整模型权重;强化学习阶段则通过奖励机制进一步优化模型,使其超越人类能力。然而,在语言模型中,由于缺乏明确的奖励信号,强化学习阶段的难度和有效性远低于游戏AI。 规模扩展的收益递减: 单纯依靠扩大模型规模来提升性能已出现收益递减现象。未来需要更多创新,例如改进算法、优化数据质量、改进数据类型(例如,利用视频数据)、以及开发新的架构和训练方法。 合成数据也成为一个重要的研究方向,以应对数据规模的限制。 赋予智能体“数字身体”: 未来的发展方向是为大型语言模型等核心模型赋予“数字身体”,使其能够自主访问互联网、运行代码、与浏览器交互等,从而实现更自主的决策和更复杂的推理能力。 这将使模型能够进行更深入的研究,并提供更个性化的响应。 推理与规划能力: 多模态模型具备一定推理能力,可以根据用户的需求,自主选择中间步骤来获取信息并生成答案。这包括规划能力,例如根据用户的日程安排和预算推荐最佳度假时间。 这将结合人类大脑的“系统一”(快速直觉)和“系统二”(慢速计算)两种思维模式。 记忆与上下文窗口: 模型的记忆能力包括预训练阶段的隐式记忆(权重),情景记忆(通过搜索引擎访问信息),以及工作记忆(处理当前任务的信息)。 更长的上下文窗口可以提升模型处理复杂信息的能力,但过长的上下文窗口也可能导致信息过载和效率下降。 AGI的可能性: 当前的多模态大型语言模型虽然存在局限性(如产生幻觉),但其能力已经接近通用人工智能(AGI)。未来可能需要新的架构突破和更有效的训练方法来实现真正的AGI,而科学领域(例如,AlphaFold在蛋白质折叠领域的成就)可能是率先实现“超人类智能”的领域。
奥里奥尔·维尼尔斯简介
奥里奥尔·维尼尔斯(Oriol Vinyals)是谷歌DeepMind的副总裁,也是Gemini项目的联合负责人。 他是一位在深度学习和人工智能领域享有盛誉的杰出研究员,其工作对该领域产生了深远的影响。
维尼尔斯的研究主要集中在深度强化学习、神经机器翻译和生成模型等方面。他曾参与开发了AlphaGo Zero,这个在围棋游戏中击败人类顶尖棋手的程序,标志着人工智能发展史上的一个里程碑。 他的贡献不仅仅体现在算法的突破上,更在于他将深度学习的理论与实际应用巧妙地结合起来。
访谈全文
汉娜·弗莱教授: 欢迎来到Google DeepMind播客。我是汉娜·弗莱教授。好的,智能体。它们已经来了,或者说几乎来了,而且它们很可能将成为2025年所有人谈论的焦点。但它们绝对不是什么新鲜事物。我今天这期节目的嘉宾,上次做客播客还是在2019年,当时他和我谈论他正在研究的多智能体系统。这个系统可以击败职业星际争霸玩家,并且最终达到了大师级别。
但是,从那时起,智能体是如何演变的?它们现在能做什么?语言模型和多模态人工智能的进步如何改变了局面?以及,你究竟是如何构建一个能够代表用户自主决策的东西的?
现在,我应该告诉大家,如果你想了解智能体的入门知识,可以观看我们在夏天录制的与弗雷德里克·贝斯特的节目。但现在,奥里奥尔·维尼尔斯是Drastic Research的副总裁兼Gemini的联合技术主管。可以肯定地说,我们有很多东西需要了解。奥雷尔,欢迎回到播客。
奥里奥尔·维尼尔斯: 嗨,谢谢邀请。
汉娜·弗莱教授: Drastic Research是什么?
奥里奥尔·维尼尔斯: 嗯,我一直告诉我的团队,他们必须“drastic”地思考,这意味着不要只做每个人都在想的渐进式的事情。尝试从根本上思考几年后会发生什么,然后尝试将这些想法反向移植,并在今天以这种心态执行。这就是“drastic”的含义。是的,这是一个我经常使用的词。
汉娜·弗莱教授: 我想我上次见到你的时候,你一直在研究一个可以使用键盘和鼠标来做诸如在画图软件中绘画或玩星际争霸之类的智能体。嗯,从那时起,事情已经有了很大的进展。
奥里奥尔·维尼尔斯: 所以,当时的那些智能体,你采用了一套非常通用的原则,机器学习领域非常简单的原则。基本上,你会专门针对一项任务来训练模型。当时我们正在做的是设计一个难度不断增加的任务课程。
例如,当我们上次谈话时,在电子游戏中,我们正在研究《星际争霸》,这是当今最复杂的现代策略游戏之一。DeepMind以开创Atari游戏的趋势而闻名,这是一款相当简单的游戏,你左右移动,击打球拍,然后击球。这是我们算法的目标;我们试图推动算法非常通用,这样我们就可以不断攀登这个难度阶梯,通过一系列游戏,接受更复杂的挑战。
现在,情况发生了变化,即使我们训练的模型也比我们当时开发的模型更广泛地适用于更多任务。想想创建这个数字大脑的过程,它并没有发生太大的变化。然而,这个大脑的能力已经大大扩展。虽然它最初专注于相当狭窄但复杂的任务,比如玩《星际争霸》或围棋,但这些模型现在可以处理更广泛的应用,包括像聊天机器人这样的对话智能体。
汉娜·弗莱教授: 所以那时,强化学习是你的主要手段,我猜是这样。现在的情况有多不同?
奥里奥尔·维尼尔斯: 是的,从算法上来说,实际上,AlphaGo和AlphaStar的流程,这两者都使用了相同的算法序列来创建这个数字大脑。而且,它与当前大型语言模型或多模态模型的创建方式并没有太大的不同。在过去多年来我们参与的许多项目中,有两个基本步骤一直保持不变,我们可以称第一个步骤为预训练或模仿学习。也就是说,你从随机权重开始。你有一个算法,它会尝试模仿人类创造的大量数据,比如玩游戏,或者在当前情况下,所有互联网,所有我们可以获得的知识。在第一阶段,你只是调整权重,以尽可能好地模仿这些数据。
汉娜·弗莱教授: 这些权重本质上位于每个神经元内部,就像一系列数字,描述了它如何与所有其他神经元连接。
奥里奥尔·维尼尔斯: 是的,所以这些基本上是计算单元,也就是神经元,而神经元之间的连接实际上是权重。因此,你可以想象有一个神经元,有几个神经元与之相连,你基本上是将传入神经元的所有激活乘以权重相加,而这些权重是唯一会移动的东西,输入会激发神经元。这很像大脑的工作方式,当然也存在一些创造性的自由。
汉娜·弗莱教授: 好的,如果我们要打个比方,这就像你有神经元,水在其中流动,而权重就像管道的宽度。
奥里奥尔·维尼尔斯: 在神经元之间。是的,没错。然后你可以想象有数百万个神经元和数十亿甚至数万亿个管道。这就是我们花费大部分计算资源训练这些模型,特别是语言模型的地方,这就是预训练或模仿我们所能获得的所有数据。
汉娜·弗莱教授: 好的,现在你已经有了一个巨大的网络,所有神经元之间都有大量的管道。这就是你的模仿阶段,完成了。接下来,如果你在做比如AlphaGo或AlphaZero,你会让它自己和自己对弈。
奥里奥尔·维尼尔斯: 是的,所以这个模型现在已经相当擅长做出类似人类的行动。这意味着,当然,句子是非常合理的英语句子,或者如果它在玩游戏,它会合理地点击移动棋子等。
但是这个模型还没有学到这些动作会产生回报,对吧?这就是强化学习或后训练的部分,这是训练的第二阶段。你只需问,“嘿,互联网上的普通诗歌是什么样的?”就可以写一首诗。但是,问题出现了:我只想要好诗,对吧?那么,如何根据一个信号进一步调整这些参数呢?这个信号对平庸的诗歌给出零分,对好诗给出 1 分?
再次使用游戏类比,这通常与强化学习配对,如果你在游戏中获胜,你会得到 1;如果你输了,你会得到 0。然后,你会进一步调整权重。然而,你不仅是模仿人类,而且你的目标是超越人类的能力,并试图确保你所有的诗都是完美的诗,或者你所有的国际象棋比赛都是完美的比赛。
在语言模型中,第二阶段,也就是强化学习和后训练,往往持续时间相当短,因为我们无法获得超级干净的回报,例如当你像在传统棋盘游戏中那样进行自我对弈时,“你赢得了比赛”或“你输了比赛”。
汉娜·弗莱教授: 一旦完成,对吧,那么这就是幕后发生的所有事情。然后你就像,停在那里,是的,所有人保持不动。我们基本上要对整个网络进行快照。这就是你作为用户实际访问的内容。
奥里奥尔·维尼尔斯: 是的,现在这个神奇的流程已经完成了。这些权重非常宝贵,对吧?你发现的这个配置,你真的花了几个月的时间来精雕细琢,调整所有细节。现在,你基本上不会再动它了,对吧?所以训练结束了,你也不再更改配置了。
你可能会想让它超级高效,对吧?比如说,你发现,哦,看,这个神经元没那么有用。它没用或者什么的。你把它移除,这样一切运行起来就更快更便宜了,能够大规模运行。作为用户,你得到的只是相同的权重。每个人得到的都是我们训练好的相同权重。这就是我们所说的Gemini 1.5 Flash。它就代表着一组冻结的、不会改变、不会进一步训练的权重,或者任何其他修改。
这两个步骤实际上从AlphaGo到AlphaStar再到当前的大型语言模型几乎是相同的。当然,其中有很多细节很重要,这个领域也肯定是在不断发展。但实际上,原理基本上没有改变。
汉娜·弗莱教授: 因为从底层来看,比如说,我不确定,我在这里想到的是DQN,也就是那个Atari的例子,或者说AlphaGo中使用的那些算法,或者再比如,大型语言模型,它们的架构是不同的,对吧?
奥里奥尔·维尼尔斯: 是的,所以构成数字大脑的因素有几个。一个是架构,对吧?所以有这些神经网络。现在我们有了Transformer,这在DQN时代肯定是没有的。所以总有一些架构上的突破,使其更擅长从数据中学习。但是,从Transformer到今天,几乎都是一些微小的调整。我的意思是,即使你看看AlphaFold,它也是由Transformer驱动的,那些团队有时会花上好几年,只是为了找到一些微小的调整,比如,嘿,让我们移除这组神经元。让我们添加另一层。让我们让这个更宽一点。所以你就塑造了这个大脑的形状。它会发生一些小的变化。而这有时会在性能方面决定成败。
汉娜·弗莱教授: 那么,如果这些都是目前为止所取得的成就,我的理解是,目标是创造更多具有自主性的行为,让这些东西能够做出自主的决策。这些是如何帮助实现这一目标的呢?
奥里奥尔·维尼尔斯: 好的,让我们稍微深入了解一下当前的趋势。我们称之为大型语言模型,但它们是多模态的。我想我们之前有一集深入讨论了多模态的方面,能够添加图像,然后提问,提出后续问题等等是多么棒的一件事。所以这个分数,我们仍然会提高它,对吧?这组权重对输入进行这些神奇的推理,对吧?这个图像是关于什么的?用户在问什么?我能写一首更好的诗吗?我能把它写得更长吗?无论如何,就像我们现在可以玩的所有这些互动一样。
但这只是一个组成部分,我们可以认为,嘿,现在这是我们的CPU,我们可以在它周围添加更多东西。如果模型可以自己去做研究,会怎么样?例如,对吧?一个例子,我们很久以前就考虑过了。我可以要求一个模型,一个语言模型或视觉语言模型,学习玩星际争霸这款游戏。这与说创建一个能玩这款游戏的代理是完全不同的方法。
在另一个例子中,对吧,它可以上网,观看关于这款游戏的视频。当然,它可以下载游戏开始与之互动来学习。哦,是的,就像我知道怎么玩了,我明白了。在网上做研究,去论坛,阅读论坛,去玩游戏,发现自己在某方面很弱,然后改进等等。并且在几周之后,它会给你发一封电子邮件说,我现在知道怎么玩这个游戏了。我们来玩吧。
对吧。这并不是一个遥不可及的现实。但是这些模型突然开始做一些事情,采取一些行动,并学习任何可以利用的新知识。思考起来很强大。这是最能推动通用性的,也是让许多人所称的 AGI 感觉更近的原因。
汉娜·弗莱教授: 所以如果我理解正确的话,那么现在我们拥有的东西,大型语言模型、多模态模型,或者你想怎么称呼它们都可以,它们就像一个核心。但是下一步是在这个核心之上构建东西,让它能够放开手脚,自己去做自己的事情。
奥里奥尔·维尼尔斯: 是的,完全正确。如果它能够访问所有知识,并且可以利用它的时间做一些适当的研究,我的意思是,编写假设,编写一些代码等等,并且花时间真正回答非常非常非常复杂的问题,那么现在的可能性就大大增加了。
当然,我们并不需要对所有事情都这样做。我的意思是,如果我们问一个问题,比如“嘿,我今晚应该准备什么晚餐?”我们可能不需要深入思考或花三个星期来考虑这个问题。你可能会对等待时间感到很不满意,对吧?
但我认为这正在推动前沿。你正在给计算机赋予一个数字身体。因此,它不仅可以思考并给出指令或文字输出,还可以上网做事,或者处理你可能上传的文档。它可以提出非常非常复杂的问题,并为你提供个性化的响应等等。
汉娜·弗莱教授: 我喜欢这个想法,这个核心,然后你赋予它一个数字身体。你有了电子大脑,现在你又赋予它一个数字身体。完全正确。好的,那么关于电子大脑,关于这个核心,这个处理器,让我问你一些关于它的问题。我想我们应该在这里考虑Gemini,对吧?这本质上就是我们正在讨论的内容,你们拥有的多模态模型。我知道大型模型的一个重要想法就是扩大规模,对吧?让它们越来越大。你认为我们从规模化中看到的结果现在已经趋于平稳了吗?
奥里奥尔·维尼尔斯: 是的,这是一个非常重要的问题,对吧?就像我们研究了,当你把模型做大时,也就是这些模型有多少神经元,它们在某些任务上的表现如何提高,我们从整个机器学习社区都有明确的指标。例如,一个很容易理解的指标是机器翻译,对吧?所以,当你在数百万、数十亿甚至可能数万亿的神经元之间进行扩展时,模型在两种语言之间进行翻译的能力如何提高,你可以看到性能在不断提高。
现在,即使你做这些研究,一个技巧是它看起来是线性的,但是你必须绘制对数轴,对吧?用外行的话来说,这意味着,假设在过去三年里,我们取得了一些进步。你不应该期望在未来三年里取得同样的进步;实际上,要实现这一目标呈指数级困难,对吧?
这意味着计算投资(当然,计算投资也以超线性速度发展)可能不如这种趋势所暗示的那样有效。你只会看到一些收益递减,因为仅仅扩展 x 轴,即参数的数量,意味着你需要增加 10 倍才能看到相同的改进。这就造成了一些压力,需要考虑,嘿,也许我们不能扩展那么多,我们需要考虑其他扩展模型的方法,让模型变得更好。
汉娜·弗莱教授: 我给学生举的例子是,如果你有一个非常乱的房间,你花最初的10分钟整理,就会产生巨大的变化。你把脏盘子都收拾起来,把脏衣服都放好,很好。但一旦你花了七个小时,那额外的10分钟,就不会有任何区别了。这基本上就是我们现在的情况,对吧?
奥里奥尔·维尼尔斯: 是的,这确实是一个非常好的类比。事实上,这个类比甚至可以应用到模型的性能上,即使你已经有了非常好的性能。如果你想让这些模型达到 100% 的事实准确,它们就不会凭空捏造。我们知道,如果你去探究它们,你可以让它们说出一些不真实的事情。即使是这最后一步也非常困难,这也给大规模部署带来了一些有趣的挑战。
汉娜·弗莱教授: 所以,好的,我明白你说的,这里面存在收益递减的现象,对吧?但是,在如何改进这些东西,如何使这些模型变得更好方面,仅仅是数据、计算能力和规模吗?这些是仅有的,你可以利用的手段吗?
奥里奥尔·维尼尔斯: 是的,当然,如果我们冻结架构,假设在未来一年内,没有任何创新,我们只是因为有更好的硬件出现而进行扩展。把它做得更大。做得更大。这肯定会产生一种可接受的趋势。
但是,特别是在 Gemini 中发生的情况是,我们引入了其他创新,例如新的技巧和技术。这包括关于如何排序呈现给模型的数据、架构的细节、如何运行训练过程以及运行训练过程的时长。
此外,我们还会考虑我们实际呈现给模型的数据类型以及我们如何过滤这些数据。我们应该呈现更多高质量的数据还是更少低质量的数据?有很多不同的因素,我们称之为超参数。
当然,我们还会非常仔细地研究算法的进步,因为训练模型的过程非常昂贵。因此,我们在积累创新时需要非常谨慎。最终,当我们准备好时,我们应该有足够的创新,并可能有更好的规模来运行下一代模型。
最后,我们运行模型,不仅实现了算法上的突破,还通过数据和计算的提升实现了改进。
汉娜·弗莱教授: 我想关于这种扩展的事情,还有一点就是,你可以投入的节点数量实际上没有限制。也许理论上你投入的计算能力没有限制,但是你可以投入的数据是有限制的,对吧?人类的文字数量是有限的。
奥里奥尔·维尼尔斯: 好问题。所以,我认为,我的意思是,节点是有限制的,因为你如何扩展这些模型,嗯,它们无法装在单个硬件芯片上。所以现在你有一个芯片网格,它们在相互通信;你知道,存在一些限制,比如光速等等。所以,当训练如此庞大的模型的效率不值得时,甚至是从你拥有的硬件利用率的角度来看,也会出现一个时间点。但是你说的非常好,对吧?
在预训练中,另一个关键因素是所有数据的模仿。我们没有所谓无限的数据机制。数据是有限的。一旦模型需要,你知道,你可以想,好吧,让我们训练所有的数据:人类读过的所有内容,所有的一切,比如互联网上的所有内容。所以我们才开始考虑,好吧,我们的数据快用完了。
有一些技术,例如合成数据。我们是否可以用许多不同的方式编写或重写现有数据?我的意思是,语言是显而易见的方法,你可以重新编写互联网。我的意思是,它主要是用英语写的;我的意思是,60%,我不知道确切的百分比。但是,有办法用不同的形式重写相同的知识。我们正在探索这些方法,这是一个很多人开始投资的研究领域。因为如果你用完了数据,扩展定律会更加惩罚你。
汉娜·弗莱教授: 那么,例如,你可以让 Gemini 编写自己的互联网版本,然后用它来训练新版本的 Gemini。是的。但是,如果你开始输入同一个模型的输出,是否存在一种危险,即你最终可能会产生这些无益的反馈循环?
奥里奥尔·维尼尔斯: 他们当然可以做一些有趣的实验来测试你刚才提到的这个想法。而且确实,从表面上看,这并不是一个好主意。如果你只是要求它重新创建整个互联网,模型就会受到影响。而且,从信息内容的角度来看,这个数据集具有它所包含的信息。你如何创造新的信息呢?我不知道。这些想法可能会有所帮助,因为机器学习存在一些缺陷,我们并没有达到真正从互联网中提取所有信息的基本能力。我的意思是,我们有很好的算法,但它们并不完美。
汉娜·弗莱教授: 所以我们拭目以待。是的。我的意思是,我想稍微多思考一下这个问题,因为它确实是一个非常有趣的想法。因为当然,如果只是不经思考地做,那么新版本就会带有偏差。然后,新版本在此基础上会更加有偏差,你最终会偏离最初的人类版本。但是你所说的是,在原始的人类互联网中,似乎嵌入了这些概念性的联系。如果你可以提取这些联系,我有点想到 E 等于 MC 的平方,对吧?如果你可以找到人类概念的 E 等于 MC 的平方,然后只使用它来生成新数据,那么这似乎更现实。
奥里奥尔·维尼尔斯: 是的,完全正确。我认为这就是你开始触及的问题,我的意思是,这些语言模型只是在重复网络上的内容,而无法创造任何新的东西吗?或者它们是否真正地学习了一种世界模型,然后你可以从它提取的原理中,有可能泛化到数据以外的东西?在更乐观的版本中,我倾向于更相信,我们可以将数据的限制推得比我们目前的限制更远。话虽如此,我的意思是,有些数据源我们还没有看到突破。比如视频数据,有很多。我们还没有看到这样一个时刻,即利用所有的视频数据,你可能会从中获得大量的知识、大量的物理定律、大量的世界运作方式,即使这些视频中不一定有文字,也能提取这些知识。即使是这样,我认为我们也没有挖掘这个来源。
汉娜·弗莱教授: 而且它不是那样工作的吗?
奥里奥尔·维尼尔斯: 或者你不知道。是的,我的意思是,感觉应该是这样的。我的意思是,即使是我们学习的方式。我的意思是,在早期有一些语言学习,但我们也是通过观察三维等等来学习的,对吧?因此,可能还有我们尚未提取的更多知识。显然我们做得很好,你可以通过测试模型看到,就是连接视频中存在的概念。然后你可以做一些令人惊奇的事情,比如,嘿,把这段完整的一小时视频拿来,只给我提取三个有趣的时刻,对吧?但是模型本身,它是否真的直接使用了该信息?可能没有。
汉娜·弗莱教授: 哦,我太喜欢这个了。我们之前和 Jeff 聊过关于多模态模型的事情,你知道,如果让这些模型观看所有已创建的视频,它们能否真正提取出“重力”这个概念的含义?所以,你在这里描述的,如果我理解没错的话,是目前它们可以告诉你视频里有什么,但是它们不能说,你知道,E=mc²。或者,如果你给它们看夜空的图片,它们不会像人类天文学家那样突然能够预测行星的运动。
奥里奥尔·维尼尔斯: 是的,没错。我的意思是,我们在这里走的捷径是,当我们在图像或视频上进行训练时,我们几乎总是有一个与该模态相关的文本表示,对吧?它可以是一个解释图像或视频内容的标题等等。这使得,当然,这很不可思议,对吧?你可以放一张带有概念性绘画的作业图片,它会连接起来,并在此基础上做很多不错的逻辑推理。但是,我在这里想说的是,我是否可以只使用视频,不使用任何语言,然后训练一个模型来理解正在发生的事情,甚至以某种方式推导出一种语言,当然,这可能不会是我们的语言,并提取出这些概念。而这还没有发生。我的意思是,它可能会发生。
汉娜·弗莱教授: 回到你一开始说的关于 DeepMind 构建的所有模型的两个阶段。一个是模仿阶段,也就是我们现在一直在讨论的,然后是在此之上的强化学习阶段。我知道 AlphaGo 和 AlphaZero 以及其他许多模型通过自我对弈变得更好。这种情况也适用于这里吗?
奥里奥尔·维尼尔斯: 是的,这是主要的开放性挑战之一,比如扩展,不仅是预训练,还有后训练或强化学习,对吧?游戏中的强化学习的美妙之处在于有一套编码的规则。如果你赢了,你就知道你赢了。有一个程序,如果你下棋赢了,它会检查一切。好的,那是将军。恭喜你赢了比赛。有一个明确的成功指标。明确的指标。
现在,在语言中,这要棘手得多,对吧?比如说,这首诗比那首诗更好吗?我的意思是,即使在我们之间讨论这个问题,都很难达成一致,对吧?所以,通用性再次使得精确计算变得非常困难。比如说,这个电影的总结更好吗?这是这个视频中最有趣的部分吗?这些都很难量化,但我们可以尝试。我们也确实在尝试。你训练一个模型,基于一些人类的偏好,大致上,你只是说,好的,现在尝试概括。
所以,我让模型批评自己的输出。它不会做得太差。它可能做得不错,也许,我不知道,80% 的情况下是好的,这还不错。它可以给你一些信号。但是,当你开始说,好吧,现在你按照这个指标攀升,你有一种不完善的评估性能的方式。现在我们要开始根据这个不完善的奖励进行训练。模型将会做的是利用奖励的弱点。
对吧。也许用下棋的例子来说,想象一下我有一个袋子,如果一个兵在某个位置,你总是赢。这是一个没人会下的位置。也许没人知道它的存在。但是现在你要求一个算法去探索一切,并尝试发现如何赢得这个游戏。突然,你会发现,嘿,如果我把第一个兵移动到这个位置,没人会这样开局。你赢了比赛。当然,这个算法已经掌握了这个游戏。
然后一位研究人员去查看你是如何下棋的,发现你下得很糟糕。真是个顽皮的 AI,基本上就是这样。这就是我想说的。所以这就是挑战所在,对吧?基本上,你是在寻找漏洞,而不是真正理解一首好诗的真正含义,对吧?
汉娜·弗莱教授: 你难道不能加入另一个玩家吗?对吧?加入另一个模型,它就像是最终的仲裁者。
奥里奥尔·维尼尔斯: 嗯,好建议。但是问题是,你如何训练那个模型?对吧?比如,我们只有有限的关于什么是好诗的概念,我们可能会询问一些专家,嘿,比较这两首诗等等。所以我们只有有限的数据来训练这些仲裁者。所以,真正的标准可能是问一位专家,当然,如果我们能做到的话,我们会的。但这不具有可扩展性,对吧?然后想象一下,如果我说,好吧,我找到了一个三秒钟就完成的参数更新。现在,请专家审核这 10,000 件东西,因为那是真理的来源。我们没有足够的数据来训练一个足够好的奖励模型。所以,再说一遍,有一些想法,但凭直觉,你肯定能理解。但是问题是我们无法获得真相。
汉娜·弗莱教授: 我的意思是,就是这样。这就像你戴着烤箱手套在黑暗中摸索。你甚至不完全确定是否有可以抓住的固体物体。好的,如果这就是核心,那么,对吧,那就是电子大脑。现在我们正在构建数字身体。那么你希望这个数字身体拥有什么样的能力呢?比如推理,因为这方面也做了很多工作,不是吗?
奥里奥尔·维尼尔斯: 是的,所以你开始思考,嗯,我们应该给这些模型提供哪些主要的接口,让它们能够看到它们权重之外的东西,这些权重是冻结的,以便能够收集知识或做一些比仅仅从它们在上下文中的内容加上它们权重中的内容来预测下一个词更复杂的事情。
所以,你会想到一些显而易见的事情,比如让它们访问搜索引擎。这是我们在谷歌做得非常好的事情。另一个是让它们能够运行它们编写的代码,对吧?然后,当然,也许更广泛地说,这可能更通用,是让它们能够与可以访问互联网的浏览器进行交互,对吧?
有了所有这些,你总是要小心进行沙箱化。这只是意味着保护这个环境,即使模型不是那么先进,也不会做一些非本意的事情,对吧?所以,当你超越模型时,这方面的整个安全方面开始变得非常有趣。
但是,如果我们只是梦想一下,如果这些工具可以供模型使用,将会发生什么,那么突然之间,它们就可以开始做一些比我们当时使用的训练语料库更高级的事情。它们可以更可靠,并且可以依靠最新的新闻来向我们解释或总结昨天发生的主要事情。所有这些都需要我们给它们这些工具。走吧。
汉娜·弗莱教授: 好的,那么推理在这其中是如何发挥作用的呢?
奥里奥尔·维尼尔斯: 是的,推理很有意思,对吧?所以我描述的可以概括为,嘿,我的意思是,我想知道昨天发生了什么。我可以说,嘿,模型,我是 Oriole,我对这个和那个感兴趣。我的政治观点是这个或那个。给我昨天新闻的积极解读,对吧?
然后模型可能会搜索,检索所有新闻,然后根据我要求它做的事情,以我喜欢的方式,并觉得令人愉快的方式去做。也许如果我不喜欢,我甚至可以去说,我不喜欢这个,或者这不是一个好笑话。然后我们可以通过对话迭代一下。
现在,推理是一个不同的扩展维度,对吧?所以你可以想象模型决定采取哪些中间步骤来给我更好的答案。想象一下,谷歌搜索检索了 100 家新闻媒体。也许模型决定,嘿,我不只是要阅读这个,然后尝试一次性总结所有内容。我要先总结这 100 篇文章中的每一篇,对吧?
所以这意味着模型决定,我要为这 100 页中的每一页写一个摘要。我要写的不是给用户看的,而是给自己看的。然后现在它有了 100 个摘要。也许它决定的下一步是,嗯,我要按主题对这些进行分组。然后它发现其中一篇文章看起来可疑。所以也许它会去网上查看是否在任何论坛上有人讨论过,哦,这可能不是真的,因为作者的原因等等。
所以它可以做很多步骤来进行研究。你知道,它可以这样做相当长一段时间。只有当模型说,嗯,我想我现在有了质量更好的答案时,它才会给你一个简短的总结。但是现在它有足够的时间对可以获得的信息进行更多的处理。
我们希望,推理时间计算,我们给模型的时间越多,它总结新闻的效果就越好,它写诗的效果就越好,当然,它做数学的效果也越好。但这当然是另一个扩展维度,我们正开始逐渐解锁它。我们希望能够解锁它,并且再次打破我们在预训练,纯预训练中看到的扩展规律和限制。
汉娜·弗莱教授: 这是否也包括规划?比如,它可以查看你的日历,算出你的发薪日,或许知道一月份的打折季快到了,然后告诉你推迟几天预订假期吗?
奥里奥尔·维尼尔斯: 我的意思是,这可能会变得非常复杂。但当然,当你考虑诸如个性化以及考虑到所有其他正在进行的事情来决定何时做某事时,你会有更多的信息来源。你需要收集这些信息,然后给出最佳答案。它不再是“天空是什么颜色”这种简单的问题,尽管这个问题本身并不容易回答。我一直在思考这个例子。我的意思是,我们早期的论文中就有这个例子,认为这是语言模型可以做的事情。这很神奇,对吧?你不需要编程来让它们回答,但它们就是能回答。但实际上,如果你开始思考,哦,是的,你知道,行星和一天中的什么时间?我的意思是,是阴天还是晴天?那么,思考和规划,这绝对是这些模型可以做的事情。
汉娜·弗莱教授: 这让我想起,大概在2019年,我和德米斯的一次对话,当时他谈到了卡尼曼和特沃斯基的思想,即人类的大脑几乎有两种思维系统,一种是快速的、本能的、基于直觉的,另一种是慢得多的、计算的,有点像你做数学和下国际象棋的方式。德米斯当时说,第二种传统上更容易用计算机实现,但现在我们看到了更快速的本能的东西。我的意思是,你似乎在谈论将两者结合起来,对吧?
奥里奥尔·维尼尔斯: 是的,没错。我的意思是,德米斯可能在谈论的是系统二,它确实是需要更多思考的系统。在游戏中,这一点很明显,对吧?你可以直接说,“这一步感觉是对的”,然后就走。但如果你思考和权衡,你可能会走出更好的一步。
现在的挑战是,因为我们正朝着非常通用的方向发展,这些模型几乎可以做任何事情。我的意思是,任何事情——真的,你可以做任何你想做的事情。你可以上传一张图片,谈论新闻。所以,拥有更深层次的思考能力对特定领域来说是什么意义?这引发了一个问题,你将如何实现这一点?
我的意思是,有几个答案,但我喜欢的一个是,这些模型非常通用。为了在非常通用的一系列能力之上添加思考能力,你可能需要一种通用的思考方式。因此,你使用模型本身来生成它应该如何思考任何事情。模型会自己想出,哦,我要总结每篇文章。我要做这个,那个和那个。
这不是我们编程实现的——这是一个非常深刻的见解。现在,这是唯一的方法吗?这是最好的方法吗?我们还处于早期阶段——只有五年时间。
汉娜·弗莱教授: 我们拭目以待。我会在2029年和你谈谈。我现在也在想,很多在五年前感觉非常重要的事情,很多都是从神经科学中获得的灵感。所以我想,从某种意义上说,你在这里谈论的是规划和推理,但记忆是另一个非常重要的问题,而且人们经常谈论长上下文和短上下文,我想这在某种程度上就是工作记忆,不是吗?
奥里奥尔·维尼尔斯: 是的,我的意思是,有一些技术可以应用到语言模型中。至少有三种,而且它们解释起来相当简单,对吧?我们拥有一个记住整个互联网的系统的第一种方式是直接进行预训练步骤,对吧?这实际上是以一种特定格式进行的记忆步骤,也就是说我们有这些权重,它们是随机的,然后我们将它们组装成这些惊人的架构。
现在,第二层是,也许我稍微解释一下如何给模型提供像谷歌这样的搜索引擎工具。你可以认为这有点像神经科学家所说的情景记忆,你知道,作为人类,也许就像,你知道,我们有很久以前的记忆。它们不是很精确,所以往往有点模糊,对吧?就像如果我要想,哦,我在谷歌的第一天怎么样?我记得一些在房间里或我遇到的人的片段,或者其他什么的。大意。对吧?
现在,有趣的是,这些模型可能没有这种限制,对吧?你真的可以获得多年前在线撰写的一篇文章,它将拥有所有的图像。一切都会被完美地重建。因此,第二种被称为情景记忆的模式,当我们将特别强大的搜索引擎集成到我们的模型中时,我们显然看到了这一点。
第三种是你可以称之为工作记忆的东西,对吧?实际上,我描述的整个思考过程就是其中之一,对吧?如果我们获取每一篇新闻文章,然后想创建摘要,找到它们之间的关联,并批评其中的一些,这开始结合了工作记忆,这意味着我将有一个草稿,记录摘要和我发现的问题。
当我们说短或长上下文时,通常是指最后一部分,比如工作记忆。你有一千个令牌,这意味着我不可能做太多事情,对吧?我可以检索文章。已经超过一千个单词了。我无法对它们进行总结。或者它可能是巨大的,在这种情况下,你有更多的可能性在此基础上进行推理等等。
因此,今年(实际上我们还在2024年)的突破之一就是实现上下文中的数百万个令牌,这使得很多事情成为可能。你可以从过去检索某些东西,然后将其带到现在,然后进行非常详细的分析。这有点像我们有一个电影的例子;我们可以上传一部电影或一些非常长的视频,然后开始进行总结。我们上传它的事实更像是情景记忆,但现在我们把它放在了内存中。它完全适合内存,我们可以在电影的每一帧、每一个对象中进行大量的关联。
汉娜·弗莱教授: 更长的上下文窗口总是更好吗?我的意思是,我只是在想,我不知道你们在多大程度上仍然使用神经科学作为你们正在做的事情的灵感。但我的意思是,人类的记忆,比如工作记忆是有限的,对吧?当然,有时候你会觉得,我的大脑满了,我正在处理。
奥里奥尔·维尼尔斯: 是的。有时大脑是一种灵感,但计算机当然有我们应该利用的优势,对吧?所以,也许它们实际上可以在内存中存储像每个维基百科文章这样的东西,而我们不能。但如果模型可以,那就好了。你有了新的能力。但即使对于这些神经网络来说,拥有太多信息也可能太令人困惑了。因此,压缩信息可能是一个好主意。这可能是你想要推动从我们如何处理信息中获得灵感的地方,这在记忆检索等方面相当令人惊叹。
汉娜·弗莱教授: 是的。这就是你主导重大回应的原因。
奥里奥尔·维尼尔斯: 是的,这就是我们希望模型做的事情,它应该具有启发性和前瞻性。然后,这项技术的主要限制是什么?然后尝试,当然,将赌注放在关键组件周围,并激励团队找到解决方案。
汉娜·弗莱教授: 但是,你之前押注的一些方向已经取得了成功。我的意思是,我知道最近发布了很多令人眼花缭乱的新功能。我们可以聊聊其中的一些吗?然后,也许还可以谈谈我们之前提到过的不同技能,以及它们在这些功能中是如何体现的?
奥里奥尔·维尼尔斯: 好的。我们在我们最好的Gemini模型周围构建了很多系统。其中一件事情就是更新到了 2.0 版本。我们看到了代际的飞跃,即使你说,好吧,我们不再进行规模扩展了。我们能获得更好的质量吗?所以我们又一次这样做了。这些模型速度更快,成本更低,而且实际上性能更好了。
汉娜·弗莱教授: 基本上,Gemini变得更好了。
奥里奥尔·维尼尔斯: 是的,Gemini变得更好了,但不仅仅是因为我们进行了规模扩展。我想这算是主要的信息之一。
汉娜·弗莱教授: 能多谈谈你们为 Gemini 带来的智能体能力吗?
奥里奥尔·维尼尔斯: 好的,我们正在 Chrome 浏览器中发布一个助手,你可以在其中输入指令来完成任务。你知道,其中一些任务很棘手,因为我既享受它们,又不喜欢它们。我现在很清楚地想到了旅行,好吗?你旅行时会搜索酒店或航班之类的,很多时候会感觉,哦,我希望这些可以自动化,但同时,我也不想完全不参与这个过程,对吧?
所以我猜我们发布的这种东西,希望能自动化一些比较琐碎的步骤或重复的任务,这些任务需要自动化,因为我懒得点击所有东西,对吧?所以我们正在添加一个智能体,你可以要求它为你做某事。它会通过思考和执行,比如点击链接等基本操作,尝试为你解决任务,对吧?
这是一个非常令人兴奋的研究挑战和机遇,因为它是一个通用的智能体和模型的通用环境。我们早期原型中的一些例子是,我们可以让它玩游戏,这当然可以追溯到 DeepMind 在浏览器上的根源。
它表现得还不错,对吧?它找到一个网站,开始玩游戏,这与更通用的能力有一种很酷的联系,当你能力更通用的时候,你就可以将过去需要专门化的环境视为,哦,我只需要输入指令,它就会去学习玩这个游戏。我的意思是,我们还没有完全实现,但这可以让我们一窥这项技术未来的发展方向。
汉娜·弗莱教授: 你的确说到了点子上,这真的让我们回到了你多年前所做的事情,即使用键盘和鼠标操作的东西,对吧?这确实非常相似。
奥里奥尔·维尼尔斯: 是的,甚至操作方式也很相似,对吧?它们理解屏幕,并且根据你的要求,决定在哪里点击等等。这和你在那些非常通用的游戏中互动的方式很相似。不同之处在于,目标是狭窄的,只针对一个游戏和相同的屏幕,而这里是整个网络,它非常庞大。
汉娜·弗莱教授: 好吧,那么,我现在想象一下你能做什么。我的意思是,它可以查看你的日历吗?你可以说,我想明年去度假,它可以查看你的日历,算出最佳的度假周,了解你的预算等等。
奥里奥尔·维尼尔斯: 是的,这些模型距离实现自动化并不遥远,对吧?现在的问题是如何让它变得更好,让它更安全。还有很多步骤要做。但如果你快进一下,人类可以在浏览器上做的任何事情,原则上这些东西都可以做。然后,如果你让它们真正理解你想要什么,并且通过思考和其他技术,它们会变得越来越好,它们可能会比你更快,甚至在某些情况下比你做得好得多。这大概就是梦想。这还处于非常早期的阶段,但也非常令人兴奋。我认为明年,我们将看到很多围绕这种将语言模型智能地与浏览器或更广泛的计算机结合的想法的实验。
汉娜·弗莱教授: 那代码编写呢?代码编写怎么样?
奥里奥尔·维尼尔斯: 是的,代码编写也是一个很好的方向。我们也在发布用于软件工程的工具,当然,这些工具通常需要的不仅仅是,“嘿,这里有一个关于编程的难题的完美描述,请为我编写代码。顺便说一下,我知道如何测试它”。它更具有迭代性,对吧?你必须编写代码,运行代码,等等。所以我们也在从智能体的角度推进这种能力。我们还认为游戏非常重要。当然,那是为了开发强大算法的手段。但思考这些非常强大的多模态模型如何开始理解游戏,并可以帮助用户在游戏过程中娱乐、提供建议或讲一个关于游戏的笑话,也很有趣。所以我们也在尝试这些游戏伴侣。
汉娜·弗莱教授: 好吧,你说的所有这些事情,听起来非常接近于相当通用的智能。我的意思是,我们是否正在接近 AGI(通用人工智能)?
奥里奥尔·维尼尔斯: 嗯,这是一个很好的问题。我本周早些时候就在思考这个问题。如果 10 年前,5 年前,甚至更早的时候,我能拿到今天的模型,然后我会说,看,这里有一个秘密实验室。这是一个模型。玩玩它,告诉我你是否认为它真的接近通用人工智能。我可能会声称,哦是的,这来自 AGI 已经发生或我可以看到它非常接近的未来,对吧?你越是接近,你就会发现,哦,但它会产生幻觉。当然,这非常重要,对吧?但我想,从更宏观的角度来看,感觉就像,好吧,它越来越接近了。
汉娜·弗莱教授: 但是 DeepMind 的使命宣言是“解决智能”,那种智能,比如超级智能,一种超越人类智能的东西。你认为规模扩展足以让我们达到那里吗?还是你认为我们需要其他的东西?
奥里奥尔·维尼尔斯: 是的,我的意思是,Google DeepMind 的使命显然是将智能与科学结合,以突破边界。我们最近看到了一个很好的例子,当然是 AlphaFold。所以从这个意义上说,从一个领域的角度来看,我们实际上已经看到了一些狭窄但超级智能系统的例子。我的意思是,AlphaFold 只是在做那件事。
我认为这可能是我们开始看到超级智能的领域,即使这些模型具有通用的能力。你可能需要做一些专业化,而且这可能是值得的。我的意思是,解决蛋白质折叠问题值得吗?当然。绝对值得,对吧?但我认为这是一个很好的测试用例,而且我们处于非常有利的位置,因为我们当然有整个科学团队等等,在研究非常有趣的问题。
现在,如果你采用语言模型,并开始考虑智能体,将它们放入可能更多关于科学、模拟、定理证明器等的环境中,是否需要一些非常离散的东西来实现其他突破?我想说,可能需要另一个类似 Transformer 的突破,也许。
感觉我们将开始看到更多这样的例子,哦我的天,比如在数学方面。它现在只是发现了数学家觉得有趣的新定理。这仅仅是通过非常好的执行,加上一些想法的规模扩展等等而实现的。
汉娜·弗莱教授: 不过,有趣的是,最先倒下的多米诺骨牌是那些具有真实依据的,对吧?就像你刚才说的科学一样。
奥里奥尔·维尼尔斯: 是的。虽然,我的意思是,是的,科学,这取决于哪些科学可能具有真实依据。蛋白质折叠绝对是其中之一。是的,没错。我希望我们也能看到一些其他以超人方式进步的方法。比如,你可以想象有一个由这些强大的模型驱动的头脑风暴科学顾问,它不只是发现或证明新事物,而是挑战你的假设,让你以一种打破常规的方式思考,从而激发我的创造力,把我带到我本来无法到达的地方。那么,在某种程度上,你也可以称之为超人,对吧?所以我认为这些绝对不是超出范围的,当然,也很难思考如何奖励这种行为。
汉娜·弗莱教授: 太迷人了。我的意思是,那里绝对有很多惊人的东西。是的,是的。
奥里奥尔·维尼尔斯: 非常感谢你加入我。是的,我也一样。谢谢。很高兴。五年后再见。
汉娜·弗莱教授: 我认为从这次谈话中浮现出一个真正的主题,至少对我来说是这样,那就是普遍性的概念。如果你仔细想想,会发现智能在推进知识的方式上存在这种普遍性。就像那些古老的的天文学家,比如哥白尼,他们通过观察天空来评估大量数据,并用这些数据提取出太阳系的模型。但在AlphaGo的案例中,它通过观察围棋比赛来提取最佳下棋方式的模型。
现在,在人类创造的一切事物中,都蕴含着这个模型,这个我们体验现实的潜在真理。当然,我们正在寻找的模型永远不会像日心说那样简洁,但这个模型似乎隐藏在Gemini的固定权重中。
既然我们目前已经做到了这一点,那么下一个阶段就是尝试利用这些普遍的思想来提取人类偏好的模型。这当然要困难得多,但如果我们成功了,它或许会引导我们走向更普遍的智能形式,即通用人工智能(AGI)。
如果你觉得这次谈话很有趣,我认为值得查看我之前与杰夫·迪恩关于扩展等主题的对话,以及与雅松·加布里埃尔关于人工智能伦理的对话。或者,如果你想更深入地了解Gemini 2.0的开发,那么你可以查看由洛根·基尔帕特里克主持的最新一期谷歌人工智能发布说明播客。你可以在任何你收听播客的地方找到这一集和其他剧集。下次再见。
参考资料: https://www.youtube.com/watch?v=78mEYaztGaw,公开发表于2024-12-12
关注公众号后设🌟标,掌握第一手AI新动态