OpenAI 首席科学家MIT演讲:揭示 o1模型训练核心秘密 激励模型学习是培养 AGI 的最佳方式

文摘   2024-09-22 16:53   安徽  

OpenAI 首席科学家,也是OpenAI o1模型团队的主要成员Hyung Won Chung,近日在 MIT 的演讲分享中,提出了“不要教导,要激励”的模型训练理念,他认为通过激励模型学习是培养 AGI 系统通用技能的最佳方式。

传统的逐一教导任务方法不适用于大规模任务,反而通过激励结构,如“下一步标记预测”,可以有效促进模型自发学习通用技能。虽然激励机制对人类而言可能需要更长时间,但对于机器可以通过增加计算资源即可加速学习。

在他的演讲中,他提出了类比“教人钓鱼”的方式,强调激励学习的重要性:“授人以鱼,不如授人以渔”,但是更进一步的激励应该是:“让他知道鱼的美味,并让他保持饥饿”,这样他就会主动去学习如何钓鱼。在这个过程中,他还会学会其他技能,如耐心、阅读天气、了解鱼类等。而其中有些技能是通用的,可以应用到其他任务中。

通过激励来教导比直接教导可能要花费更多时间。对于人类来说确实如此,但对机器来说,可以增加计算量以缩短时间。因为机器可以通过更多的计算资源克服人类时间上的限制,从而在专门领域表现得比专家更好。

这就像在《龙珠》中,有个“精神与时间之屋”,在里面训练一年,外面只过一天,倍率是365。对于机器来说,这个倍数要高得多。因此,它认为通过高效的计算,通才模型在专门领域中也能超越专家。

这次演讲深入探讨了如何通过扩展(Scaling)和激励机制来推动通用智能的开发。Hyung Won Chung 分享了在OpenAI的研究经验,并讨论了目前AI领域的核心挑战和未来方向。

以下是演讲主要内容总结:


1. 通用智能 vs. 专用智能

Hyung Won Chung 强调了通用智能(General Intelligence)与专用智能(Specialized Intelligence)的区别。专用智能模型是为特定任务设计的,适合处理单一任务,而通用智能模型能够处理广泛的任务,适应各种未知场景。

由于通用智能要求模型具备更强的适应能力,研究者不可能为模型教授每个具体任务。相反,Hyung Won Chung 认为,通过弱激励机制,让模型在大规模数据和计算资源的驱动下自主学习各种技能,才是通往通用智能的可行途径。


2. 扩展与计算能力的关键作用

Hyung Won Chung 展示了一个重要的数据点:计算能力以指数级增长,成本持续降低。这意味着随着时间的推移,更多的计算资源变得可用,这为AI研究提供了巨大的机会。

他指出,AI研究者的工作是利用这种不断扩大的计算能力,设计可扩展的算法,使模型能够随着计算资源的增加而自动提升性能。与此相对,那些高度结构化的模型虽然在初期可能表现较好,但在规模化时往往会遇到瓶颈。


3. 弱激励学习(Weak Incentive Learning)

目前大规模语言模型,如GPT-3和GPT-4,使用的是弱激励学习,例如通过下一个词预测任务来驱动模型的训练。Hyung Won Chung 提出,通过这种任务,模型不仅学会了语言,还掌握了推理、数学和编码等技能,尽管这些技能并没有被直接教授。

他进一步指出,与其直接教给模型某种技能,最好的方法是通过提供弱激励,让模型在面对大量任务时自主发展出解决问题的通用能力。例如,通过训练模型进行下一个词的预测,模型不但学会了语言结构,还学会了如何在没有明确指令的情况下推理出复杂答案。


4. 涌现能力(Emergent Abilities)

Hyung Won Chung 详细讨论了涌现能力这一现象。随着模型规模的扩大,模型在解决问题时往往会自发地表现出新能力。这些能力并非被人为编码,而是通过模型的自我学习在训练过程中自然涌现出来的。

他用大规模语言模型的例子说明了这一点。在没有直接教授推理或数学的情况下,GPT-4等模型能够表现出复杂的推理能力和数学计算能力。这表明,涌现能力是随着模型规模扩展而自然发生的,尤其是在面对广泛的任务时。


5. 激励结构的设计

Hyung Won Chung 提倡为AI模型设计更复杂的激励结构。通过引入更丰富的奖励机制,模型可以学会更高层次的能力。例如,Hyung Won Chung 提出,为了解决语言模型中的“幻觉问题”(hallucination),可以设计奖励结构,使得模型不仅仅追求回答问题的正确性,还要学会在不确定的情况下说“不知道”。

他指出,通过激励结构,模型可以学会如何判断自己是否知道答案,这种能力对提高模型的可靠性和可信度至关重要。激励结构使模型在大量任务的驱动下学会适应不同的问题情境,并在此过程中发展出更通用的能力。


6. 扩展定义的重新思考

Hyung Won Chung 对“扩展”(Scaling)的定义进行了重新审视。传统意义上的扩展指的是“用更多的机器做相同的事情”,但他认为,这种定义过于狭隘。

他提出了一种更有价值的扩展定义:识别那些限制进一步扩展的假设或结构,并用更具扩展性的方法替代它们。这种扩展不只是增加计算资源,还涉及对模型进行重新设计,使其更好地利用不断增加的计算能力和数据。


7. 持续的“去学习”与适应

随着更强大的模型(如GPT-4)的推出,AI领域的基本假设不断变化。Hyung Won Chung 指出,研究者需要具备一种持续“去学习”的能力,以便适应新模型带来的新现实。

他解释说,语言模型的发展使得我们几乎每隔几年就必须抛弃旧的认知,适应新模型带来的新能力。这种去学习的过程对于保持在AI领域的领先地位至关重要,因为每次新模型的出现都会改变我们对AI的理解和使用方式。


8. 总结与展望

Hyung Won Chung 总结了几大关键点:

  • 计算成本在以指数级下降,AI研究者的任务是设计出能充分利用这种趋势的可扩展算法

  • 当前的语言模型依赖于下一个词预测任务,这是一种弱激励结构,但它有效地推动了通用技能的发展。

  • 我们需要开始思考如何通过激励结构来进一步提升模型的能力,而不仅仅依赖于现有的任务设置。

  • 涌现能力是AI发展中的一个关键现象,它表明,随着模型规模的扩大,新的技能和能力自然会涌现出来。

  • 最后,AI研究者必须不断适应技术发展的新阶段,尤其是在面对快速变化的计算能力和模型能力时,必须具备持续去学习的能力。

以下是该演讲的完整整理:


今天,我们非常幸运地邀请到来自 OpenAI 的 Hyung Won Chung,他是OpenAI的首席科学家。有趣的是,他实际上是在麻省理工学院(MIT)完成的博士学位,但他的研究领域并不是机器学习,而是可再生能源和能源系统。此后,他加入了 Google Brain,然后又转到了 OpenAI。他以大型语言模型的工作而闻名,他之前的一些研究包括扩展 FLAN、FLAN-T5、FLAN-PaLM,以及 T5X(训练框架,用于训练 PaLM 模型)。今天我们很高兴他回到 MIT,给我们带来关于大型语言模型(LLM)的一些进展。让我们以热烈的掌声欢迎他!

“谢谢大家,能回到这里感觉非常好。今天我的演讲题目是《不要教授,而是激励》(Don’t Teach, Incentivize)。我的研究方向是开发通用智能(General Intelligence),而不是专门化的智能。在这种研究中,我们不可能枚举出我们想教给模型的所有技能,因为有太多的技能是我们需要的,而且我们甚至不知道所有的技能是什么。所以,我认为实现通用智能的唯一可行方式是弱激励(weakly incentivize),这样模型才能自行探索、学习。

在进入演讲细节之前,我想先分享一下今天演讲的目标,它与大多数技术演讲有所不同。今天我不会分享我最新的技术论文或实验结果,而是想分享我的思维方式,并以 AI 为例子进行探讨。你可能会问,为什么要这么做?在我看来,技术人员过于关注解决具体问题,而忽视了找到重要问题的重要性。我认为最好的研究人员并不一定是技术最强的那些人,他们真正的优势在于能够找到最有影响力的问题去解决。这种能力来自于他们的视角,而我认为拥有良好的视角这一点往往被低估了。通过这次演讲,我希望能引发大家的思考,促使我们作为一个社区更多地讨论这些问题,从而变得更擅长找到更好的问题。

演讲大纲

今天的演讲大纲大致如下:首先,我会分享我的视角,基本上是围绕‘扩展’(Scaling)这个主题。之后,我们会将这种视角应用到通用 AI 研究中,接着深入探讨语言模型(LLM)。这就是整个演讲的框架。

首先,我想展示我所知的关于 AI 领域最重要的数据点之一。这个图表来自 Rich Sutton 去年发表的主题演讲。在横轴上,我们看到的是时间,从 1900 年到 2020 年;纵轴是计算能力,即花费 1000 美元所能获得的计算力,这是一张对数坐标图。我们看到,计算能力在过去 100 年间呈现出指数级增长。换句话说,计算成本正在快速下降。我不知道有哪一个趋势像这样强大且持久。当我看到这种超出直觉的趋势时,我想到两件事:第一,我不应该与之竞争;第二,我应该尽可能在我职业生涯和生活中的各个方面利用它。

随着硬件能力的爆炸性增长,作为开发软件和算法的人,我们也需要赶上这一趋势,尤其是需要更多可扩展的方法来更好地利用日益增长的计算能力。更一般地说,AI 研究人员的工作是教机器如何思考,但一种非常普遍且不幸的做法是,我们教机器我们认为自己如何思考。但我们真的了解自己是如何思考的吗?在非常低的层面上,我们并不知道。所以,当我们用这种方法教机器时,实际上是在教我们自己都无法完全理解的东西,而且是用数学这门有限的语言来表达。这个过程通常会对问题施加结构,而这种结构在扩展时往往成为瓶颈。

Rich Sutton 的另一点教训很好地总结了这个现象。他说,过去 70 年的 AI 进展,归根结底是开发出越来越通用、结构越来越少的方法,并加上更多的数据和计算能力。换句话说,‘扩展’(Scaling)。这是一种非常强烈的表述,因为我们见过许多不同类型的进展,但他将所有的进展概括为这个简单而强烈的观点。我完全同意这一点。事实上,我认为这是 AI 领域中最重要的思想之一,我经常回顾这篇论文,所以我强烈推荐大家阅读它。

这是我对同一观点的图形化版本。横轴代表计算量,纵轴代表性能,你可以把它想象成某种智力指标(Intelligence Metric)。这里有两种方法:一种带有更多结构,另一种带有较少的结构。我们反复看到的是,带有更多结构的方法通常会快速取得初步成功,因为结构本身起到了捷径的作用。然而,这种结构在进一步扩展时往往成为瓶颈。相比之下,带有较少结构的方法通常一开始不起作用,因为我们给了模型太多自由,而它不知道如何利用这些自由。但一旦我们提供足够的数据和计算能力,再加上合适的算法,它就会表现得越来越好,我们称之为更具可扩展性的解决方案。

具体举个例子,经典的机器学习算法如支持向量机(SVM),可以与深度学习相比。SVM 可以被认为是具有更多结构的版本,特别是核方法等会规定我们应该如何表示数据的特征。而深度学习则允许模型自行学习如何表示数据的特征。虽然一开始深度学习并不奏效,但最终它凭借其可扩展性取得了胜利。在深度学习的内部,我们也看到类似的层级,某些深度学习方法比其他方法更具可扩展性。

扩展(Scaling)带来的深刻启示

聪明的人类研究人员所提出的结构,通常在扩展时会成为瓶颈。从长远来看,通常有效的方法,在短期内可能看起来并不起作用。计算能力的成本下降速度远远超过我们成为更好研究人员的速度,因此我们不应该与之竞争,而应该赋予机器更多自由,让它们选择如何学习。我们关心的是模型最终的智能水平和它所创造的价值,而不是它是否模仿人类的思维模式。

这或许听起来显而易见,但实际上并非如此。有很多原因导致这种思路未被广泛接受,其中一个原因是,研究人员往往希望加入自己的建模想法,因为这在学术上更有成就感。有些人认为‘扩展’只是一种工程问题,毫无科学性可言。我经常听到人们说:‘这只是无聊的工程而已’。我想问这些人:‘我们为什么要开发人工智能?为什么要开发任何技术?’我认为最终目标是创造有益于人类的价值,而这比任何科学家个人的学术成就要重要得多。

因此,我们应该专注于最大化人工智能所带来的价值,尽可能减少它的负面影响。无论是哪一个学科达到了这个目标,都应该被接受。如果我研究了十年的东西现在不再是最具可扩展性的方法,那么我就应该重新思考并学习新的东西。我采取的研究方法一直是围绕更好地利用计算资源的,这一点从未改变过。

大语言模型(LLM)的训练与发展

接下来我想详细介绍一下语言模型。我使用了‘大语言模型(LLM)’这个术语,但我认为这里的‘大型’和‘语言’这两个词其实没有太大意义。‘大型’是个相对的概念,今年的大型模型明年就可能变成小型模型。至于‘语言’,我稍后会解释为什么它不是一个准确的描述。

目前,所有的 LLM 都使用 Transformer 架构。我们可以从功能的角度来看待 Transformer,把它看作一个序列到序列的映射模型。输入是一个序列的向量,输出也是相同的格式,而这些向量之间的交互通过一系列矩阵乘法来完成。

这里简要介绍一下‘下一个词预测’(next token prediction)的过程。首先,我们有一个序列,比如一句话,它由多个词组成。为了让计算机理解,我们首先需要将这些词转换为数字,这个过程叫做‘词元化’(Tokenization)。每个词或词片段会被映射为一个整数,形成一个序列。然后,模型会通过嵌入(Embedding)将这些整数转换为向量。

接下来,模型会计算这些向量之间的点积。如果两个向量的点积较大,模型会认为它们在语义上有较强的关联,反之则关联较弱。通过一系列的点积计算,模型逐渐形成对整个序列的理解。最终,模型通过预测下一个词来完成任务。

在这个过程中,我们并没有直接教给模型语言的概念,比如动词或名词等。模型只是通过预测下一个词逐渐学会了语言。实际上,我认为教语言的最好方式是不教语言。通过‘下一个词预测’,语言知识自然而然地涌现出来。我甚至认为,LLM 不应该被称为语言模型,因为它不仅仅学习了语言,它学习了更广泛的知识。

有趣的是,模型不仅能学会语言,还能学会推理、数学、编程等复杂任务,即使我们从未直接教它们这些技能。许多研究人员提出了不同的假设来解释为什么这种方法如此有效,但目前还没有共识。我自己有一个假设,那就是大型语言模型实际上是一种隐式的多任务学习。虽然我们没有明确告诉模型要完成哪些任务,但通过多样化的语料库,模型自然而然地学会了执行多种任务。”

结论

“今天的演讲到这里就结束了。总结一下:我们讨论了计算能力的指数级增长,这促使 AI 研究人员设计出更具可扩展性的方法。当前的语言模型依赖于‘下一个词预测’,这实际上是一种弱激励机制,它促使模型学习通用技能,从而应对大量不同类型的任务。展望未来,我们需要设计新的激励结构,不仅限于预测下一个词,而是让模型能够从中发展出更广泛的能力。”


演讲视频:https://www.youtube.com/watch?v=kYWUEV_e2ss

演讲PPT:https://docs.google.com/presentation/d/1nnjXIuN2XDJENAOaKXI5srQscO3276svvP6JgivTv6w/edit?usp=sharing

______________

End.


感  阅
谢  读

点赞,关注关注关注!


小互AI
XiaoHu.AI 学院(http://xiaohu.ai)学习如何让AI为你服务。加入小互AI学院,获取最新AI资讯、案例、项目、教程。学习如何使用AI...
 最新文章