Ilya Sutskever在NeurIPS 2024大会演讲全文:预训练将结束,超级智能将完全不同

科技   2024-12-14 11:33   北京  

北京时间12月14日早间消息,在NeurIPS 2024大会上,Scaling Law提出者、SSI创始人伊利亚·苏茨克维(Ilya Sutskever)发表了简短演讲,并回答了与会者的提问。


在演讲中,Ilya Sutskever表示,预训练毫无疑问将会结束,因为我们只有一个互联网,“我们已经达到了峰值数据,将不会有更多。”


Ilya Sutskever还对人工智能的未来发展进行了预测。他预测认为,超级智能系统是未来的发展方面,这些系统将以真正的方式成为智能体,具备强大的推理能力,并能从有限的数据中理解事物,同时拥有自我意识。


“当所有这些元素汇聚在一起时,我们将拥有当前所不存在的、质量和特性完全不同的系统。当然,它们将具备令人难以置信和惊人的能力。但这种系统所带来的问题,我只能留给大家去想象。”Ilya Sutskever说。


以下是Ilya Sutskever在NeurIPS 2024大会的演讲和回答全文,智能超参数整理,enjoy:


我想感谢组织者选择这篇论文获奖。这真是非常好。

我还要感谢我不可思议的合作者和共同作者,Oriol Vinyals和Quoc V. Le,他们刚才就站在你们面前。

这里是一张图片,是十年前在2014年蒙特利尔的NeurIPS大会上类似演讲的截图。

那是一个更加单纯的时代。照片里我们是这样的。这是"之前"。

这是"之后"。现在我们有了经验丰富且充满希望的导师。

在这里,我想谈谈这项工作本身,也许可以回顾一下十年的历程。因为这项工作中的很多内容是正确的,但也有一些不太正确。

我们可以回顾它们,看看发生了什么,以及它如何平稳地发展到今天的状态。

让我们开始谈论我们做了什么。我们将通过展示十年前同一个演讲的幻灯片来进行。

我们做的工作可以总结为以下三点:

这是一个在文本上训练的自回归模型。

它是一个大型神经网络。

它使用了一个大型数据集。

就是这些。

现在让我们更详细地深入了解。

这是十年前的一张幻灯片。深度学习假说。

我们说,如果有一个有十层的大型神经网络,那么它可以在一瞬间完成人类可以做的任何事情。

为什么我们强调人类可以在一瞬间做的事情?为什么特别强调这一点?

如果你相信深度学习的教义,人工神经元和生物神经元是相似的,或者至少不太不同,并且你相信真实的神经元是缓慢的,那么我们(指人类)能快速完成的任务,即使是世界上只有一个人可以在一瞬间完成某项任务,那么一个十层的神经网络也可以做到,对吧?

这是合理的。

你只需要将它们的连接嵌入到你的人工神经网络中。这就是我们的动机。

任何一个人类在一瞬间可以做的事情,一个大型的十层神经网络也可以做到。

我们专注于十层神经网络,因为这是当时我们知道如何训练的神经网络。

如果你能在层数上有所突破,那么你就可以做更多事情。

但那时,我们只能做十层,这就是为什么我们强调人类在一瞬间可以做的事情。

演讲中的另一张幻灯片。

幻灯片上写着我们的主要想法。你可能会认识到两件事,或者至少一件事。

你可能会意识到这里有自回归的东西在发生。

这张幻灯片到底在说什么?

这张幻灯片说,如果你有一个自回归模型,并且能够很好地预测下一个词,那么它将准确地捕捉和把握接下来的序列分布。

这在当时是相对新颖的事情。它并不是第一个自回归神经网络。

但我认为这是第一个我们真正相信,只要训练得足够好,就能得到想要的结果的自回归神经网络。

在那时,我们的目标是翻译这个看似简单(现在看来简单,但当时极其大胆)的任务。

现在我将向你展示一些古老的历史,许多人可能从未见过。

这就是LSTM。

对于不熟悉的人来说,LSTM是在 Transformer出现之前,可怜的深度学习研究人员使用的东西。

基本上就是一个旋转了90度的残差网络。这就是LSTM。

它出现在之前,就像是一个稍微复杂一点的残差网络,你可以看到这里有你的积分器,现在称为残差流,但还有一些乘法运算。

这有点复杂。但这就是我们所做的。就是一个旋转了90度的残差网络。

我想强调那个老演讲中的另一个很酷的特点是我们使用了并行化。

但不仅仅是普通的并行化,我们使用了流水线,正如这张"每个GPU一层"的幻灯片所示。

流水线是明智的吗?现在我们知道,流水线并不明智。

但那时我们还不太聪明。

所以我们这样做了,并且使用 8个GPU获得了3.5倍的加速。

结论幻灯片,某种意义上来说,那时演讲的结论幻灯片是最重要的,因为它阐明了可以说是缩放假说的开端。

如果你有一个非常大的数据集,并且训练一个非常大的神经网络,那么成功就是有保证的。

如果要慷慨一点看待,可以说这确实就是一直发生的事情。

我想提到另一个想法。

我认为,这是真正经得起时间考验的想法。这是流水线本身的核心思想。

这是联结主义的思想。如果你允许自己相信人工神经元某种程度上类似于生物神经元,那么这会让你有信心相信,非常大的神经网络不需要完全达到人脑规模。

它们可能稍微小一些。但你可以配置它们来做人类所做的几乎所有事情。

尽管如此,仍然存在差异。我当时忘记说了,人脑还知道如何重新配置自己。

而我们使用的是需要与参数数量相同的数据点的最佳学习算法。

人类在这方面仍然更优秀。

但这导致了什么,我认为,可以说是预训练的时代。

预训练的时代就是我们可以说的GPT2模型、GPT3模型、缩放定律,我特别要提到我的前合作者,Alec Radford,还有Jared Kaplan、Dario Mode,是他们真正让这个工作成为现实。

但这带来了预训练的时代。

这是我们今天看到的所有进步的驱动力。

超大型神经网络,非常大型的神经网络,在海量数据集上进行训练。

但预训练毫无疑问将会结束。

预训练将会结束。为什么会结束?

因为计算能力通过更好的硬件、更好的算法和更大的集群不断增长,所有这些都在增加你的计算能力。

所有这些都在增加你的计算能力。

但数据并不会增长,因为我们只有一个互联网。

你甚至可以说,数据就像AI的化石燃料。

它是以某种方式创造的,现在我们使用它,我们已经达到了峰值数据,将不会有更多。

我们必须处理现有的数据。

现在这仍然可以让我们走得很远,但问题是只有一个互联网。

所以在这里,我将稍微自由地推测接下来会发生什么。

实际上,我不需要推测,因为很多人都在推测,我将提及他们的推测。

你可能听说过"智能体"这个词。

这很常见,我相信最终会发生一些事情,但人们觉得智能体是未来。

更具体但也有些模糊的是,“合成数据”。

但合成数据意味着什么?

弄清楚这一点是一个巨大的挑战,我相信不同的人在这方面都有各种有趣的进展。

还有推理时计算,或者最近最生动地体现在O1模型中,这些都是人们试图找出在预训练之后该做什么的例子,这些都是很好的事情。

我想提到生物学中的一个例子,我觉得非常酷。

这个例子是这样的。

很多年前在这个会议上,我看到有人展示了这张图表,图表显示了哺乳动物身体大小和他们大脑大小(在这种情况下是质量)之间的关系。

我清晰地记得,他们说,看,在生物学中,一切都是如此混乱,但这里有一个罕见的例子,动物身体大小和大脑之间存在非常紧密的关系。

很偶然,我对这张图表产生了好奇。

于是我去谷歌搜索这张图表。谷歌图片中的一张图片引起了我的注意。

有趣的是,在这张图片中,你可以看到,各种不同的哺乳动物,然后是非人灵长类动物,基本上是同一回事。

但后来是人属动物。据我所知,人属动物是人类在进化中的近亲。比如尼安德特人,还有很多,比如智人。有一大堆,它们都在这里。(上图中很短的那条线

有趣的是,它们的大脑与身体规模的指数有不同的斜率。

这很酷。

这意味着有一个先例,有一个生物学找到某种不同的 Scaling的例子。

显然有些东西是不同的。所以我觉得这很酷。

顺便说一下,我想强调这个X轴是对数刻度。

你看到这是100,这是1,000,10,000,100,000,同样在克的单位上。1克,10克,100克,1,000克。

所以事情是可以不同的。

我们一直在扩展的东西,实际上是我们首先找到可以扩展的东西。

毫无疑问,这个领域,所有在这里工作的人,你们将找出该怎么做。

但我想在这里花几分钟推测长期发展。

长期,我们最终将走向何方?

我们正在取得进步。这是惊人的进步。

真的,对于那些十年前就在这个领域的人来说,你们还记得当时一切是多么无能为力。而现在,你可以说深度学习仍然令人难以置信。

这完全是,我无法向你传达那种感受。

如果你是在过去两年加入这个领域的,那么当然你可以与计算机交谈,它们会回复你,还会反驳,这就是计算机的样子。

但情况并非一直如此。

但我想和你们谈谈超级智能,就稍微聊一下。

因为这显然是这个领域的发展方向。这显然是正在构建的东西。

关于超级智能的事情是,它将在质上有所不同。

我的目标是在接下来的一分钟里,尝试给你一些具体的直觉,让你自己能够推理它将有何不同。

现在我们有了令人难以置信的语言模型和令人难以置信的聊天机器人,它们甚至可以做一些事情。

但它们同时不太可靠,但又在在评估中表现出极其超人的性能。

所以很难调和这种情况。但最终,迟早,以下情况将实现。

这些系统实际上将以真正的方式成为智能体。

而现在这些系统在任何有意义的意义上都不是智能体。

仅仅是,这可能说得太强了。非常、非常轻微地具有智能体特征。

刚刚开始。它将真正进行推理。

顺便说一下,我想谈谈推理。

一个进行推理的系统,它推理得越多,就变得越不可预测。推理越多,就越不可预测。

我们一直习惯的深度学习是非常可预测的,因为我们一直在复制人类直觉,本质上就像是直觉反应。

回到0.1秒的反应时间,我们大脑中处理的是什么?

是我们的直觉。

所以我们已经赋予了我们的AI一些这种直觉。

但推理,你已经看到了一些早期迹象,推理是不可预测的。

看看国际象棋AI就知道了,最好的那些对于最优秀的人类棋手来说是不可预测的。

所以我们将不得不应对极其不可预测的AI系统。

它们将从有限的数据中理解事物。它们不会感到困惑。

所有这些都是非常大的局限性。我不是说如何,也不是说何时。

我是说它将会发生。

当所有这些与自我意识一起发生时,为什么不呢?

自我意识是有用的。

我们自己是我们世界模型的一部分。

当所有这些元素汇聚在一起时,我们将拥有当前所不存在的、质量和特性完全不同的系统。

当然,它们将具备令人难以置信和惊人的能力。但这种系统所带来的问题,我只能留给大家去想象,它们与我们习惯的非常不同。

我想说,未来是完全无法预测的。实际上,各种各样的事情都是可能的。

但在这个振奋人心的结尾,我将结束这段话。

对话环节:

提问:现在是2024年,你是否认为还有其他与人类认知相关的生物结构值得用类似的方式进行探索,或者是你感兴趣的领域?

Ilya Sutskever:我对这个问题的回答是,如果你或某人对某件事情有独特的洞察力,例如“嘿,我们都在做一些非常愚蠢的事情,因为显然大脑会做某些事情,而我们却没有做到”,那么他们应该去追求这个方向。

就我个人而言,我……嗯,这取决于你所看的抽象层次。或许我可以这样回答:有很多人渴望创造生物启发的人工智能。从某种程度上讲,生物启发的人工智能已经非常成功,比如说所有的深度学习技术本质上都是生物启发的人工智能。但另一方面,生物学上的启发其实非常非常有限。

它就像“让我们用神经元”,这就是生物学启发的全部内容。更详细的生物启发很难实现。但我不会排除这种可能性。如果有人有特别的洞察力,他们可能会发现一些有用的东西。

提问:我有一个关于“自动纠正”的问题。问题是这样的:你提到推理可能是未来建模的核心方面之一,也可能是一个区别点。我们在一些海报展示中看到,当今模型中的幻觉问题。我们分析模型是否在产生幻觉时,用的是统计分析方法。

假设某些偏离平均值的标准差。在未来,你认为一个具有推理能力的模型是否能够纠正自己,类似于一种自动纠正?这会成为未来模型的核心功能吗,从而减少幻觉的发生?因为模型会意识到自己在什么时候发生了幻觉。这是否有些过于玄奥了?但模型会通过推理来理解幻觉的发生。这问题是否合理?

Ilya Sutskever:是的,这个问题合理,答案也是肯定的。我认为你描述的情景是非常有可能的。我的意思是,您可以去验证,我不排除这可能已经在一些早期推理模型中发生了。我不确定,但从长远来看,为什么不呢?

提问:这就像微软Word的自动纠正一样,这是一个核心功能。

Ilya Sutskever:我只是觉得称它为“自动纠正”可能有些低估了它的重要性。当您说“自动纠正”时,会让人联想到一些比自动纠正更宏大的东西。但撇开这个观点不谈,答案是肯定的。

提问:嗨,我非常喜欢这个结尾部分,充满了神秘感。提到了“他们会取代我们吗?”或者“他们是否更优越?”“他们是否需要权利?”你知道,这是一种新型的智人智能,或许它们需要权利。我有一个不相关的问题。你认为应该如何为人类创造合适的激励机制,以便能以一种赋予它们类似我们智人自由的方式去创造?

Ilya Sutskever:我觉得这种问题,从某种意义上讲是人们更应该反思的问题。但是关于你提到的激励结构应该如何创建,我并不觉得我能自信地回答这类问题,因为这听起来像是在讨论一种自上而下的结构或政府体制。

提问:我不知道,也许可以是加密货币?是的,比如说有个叫BitTensor的东西。

Ilya Sutskever:我并不觉得自己是评论加密货币的合适人选。不过,你描述的情况有可能发生。确实我们可能会在某种意义上得到这样的结果。

如果人工智能只想与我们共存,同时也希望拥有权利,也许这会是可以接受的结果。但我不知道,我认为未来是如此不可预测,我很难去评论。但我鼓励这种思考。

提问:非常感谢你的精彩演讲。我叫Shalom Lipschitz,来自多伦多大学。我想问一个问题,你认为大型语言模型是否可以进行跨分布的多跳推理?

Ilya Sutskever:好的,这个问题假设答案是“是”或“否”,但这个问题不应该简单地回答“是”或“否”。因为跨分布泛化是什么意思?在分布内是什么意思?跨分布又是什么意思?

因为这是一个时间的测试话题,所以我要说,在很久以前,人们在使用深度学习之前,他们使用的是字符串匹配和n-gram技术。用于机器翻译时,人们使用的是统计短语表。

你能想象吗?他们有数以万计的复杂代码,真是难以置信。当时,泛化的意思是,它是不是字面上不在数据集的相同词组中。

现在,我们可能会说:“好吧,我的模型在某个数学竞赛中获得了很高的分数。”但可能这个数学竞赛的讨论内容在某个互联网论坛上已经出现过了,因此它是记忆出来的。

那么好吧,您可以说,也许这是在分布内,也许是记忆。但我也认为,我们对泛化的定义已经显著提升,甚至是戏剧性地提升了。如果你跟踪这些进展的话。

所以,我认为答案在某种程度上来说,可能不像人类那么好。我认为人类确实具有更强的泛化能力。

但同时,这些模型在某种程度上也确实具有跨分布的泛化能力。我认为这是一个有用的答案,尽管有些逻辑自洽。

主持人:很抱歉,我们这一环节的时间已经到了。


觉得内容有收获,请您个关注,标个星~ 谢谢您

智能超参数
看趋势,涨知识,开眼界。 记录AI技术与商业。 提供独立思考与理性价值。
 最新文章