👇关注公众号后设🌟标,掌握第一手AI新动态
本文内容整理自Ilya Sutskever在NeurIPS 2024的演讲,公开发表于2024年12月14日。原始内容参考:https://www.youtube.com/watch?v=WQQdd6qGxNs
内容提要: 伊利亚·苏茨克弗在NeurIPS 2024的演讲
Ilya Sutskever 的访谈主要围绕深度学习的十年发展和未来展望展开,核心观点如下:
大型神经网络和海量数据集是深度学习成功的关键: 十年前,他们就认识到大型神经网络和大型数据集的重要性,这构成了“缩放假设”的基础,即更大的模型和更多的数据能带来更好的性能。 这在今天的预训练大模型时代得到了充分验证。 自回归模型的重要性: 他们的早期工作强调了自回归模型在捕获序列数据分布方面的优势,认为如果模型能很好地预测下一个token,就能准确捕捉后续序列的分布。 预训练时代的终结和未来方向: 预训练时代依赖于海量数据,而互联网数据存在上限,预训练时代终将结束。未来方向可能包括:使用代理、合成数据、改进推理时间计算等。 生物学启发与局限性: 深度学习受到生物神经网络的启发,但这种启发是有限的。未来可能需要更深入地探索生物学机制,以获得更有效的AI模型。 超级智能的不可预测性: 未来超级智能系统将具有与现有系统截然不同的特性,例如强大的推理能力和不可预测性,这将带来新的挑战。 超级智能系统将从有限的数据中理解事物,不会感到困惑。 模型的自我纠错能力: 未来模型可能具备自我纠错能力,能够识别并修正自身的“幻觉”,类似于文字处理软件中的自动纠错功能,但其复杂程度远超后者。 对超级智能伦理问题的思考: 超级智能的出现将引发伦理问题,例如超级智能是否需要权利,如何构建激励机制以确保其与人类和谐共存等,这些问题需要更多探讨。 大型语言模型的泛化能力: 大型语言模型的泛化能力虽然比人类弱,但在某些方面已经能够超出分布进行多跳推理。对“超出分布”的定义也需要更清晰的界定。
Ilya Sutskever简介
伊利亚·苏茨克弗(Ilya Sutskever)是人工智能领域一位极具影响力的人物,他曾是OpenAI的首席科学家,在深度学习和人工智能安全方面做出了巨大贡献。
苏茨克弗早年在多伦多大学师从杰弗里·辛顿,参与了深度学习的早期研究,并为其发展做出了重要贡献。他尤其擅长神经网络架构的设计和训练,对卷积神经网络和循环神经网络等模型的改进和应用有深入研究。 他与他人合作开发的AlexNet在2012年ImageNet图像识别比赛中取得了突破性进展,标志着深度学习时代的到来。
在加入OpenAI后,苏茨克弗发挥了关键作用,领导了诸多大型语言模型的开发和训练,包括广为人知的GPT系列模型。他一直致力于推动人工智能技术的发展,同时也在积极探索人工智能安全和伦理问题,呼吁对人工智能的潜在风险进行深入研究和谨慎应对。 他的工作不仅推动了人工智能技术的前沿发展,也促使人们更加重视人工智能的社会影响和潜在风险,对未来人工智能的走向具有深远的影响。 他被认为是当今人工智能领域最杰出的科学家之一。
演讲全文
Ilya Sutskever: 首先感谢组织者选择这篇论文颁发奖项,我感到非常荣幸。同时,我也要感谢我出色的合作者和共同作者,Oriol Vinyals 和 Quoc Lee,他们刚才就在你们面前。你们现在看到的是一张图片,一个截图,来自
10年前,在2014年蒙特利尔举行的New Rips会议上,一个类似的演讲。那是一个更加纯真的时代。照片里展示了我们当时的样子。这是“之前”。
顺便说一句,这是“之后”。现在我们有了一些经验,希望更明智了。但在这里,我想稍微谈谈这项工作本身,也许可以对它进行一个10年的回顾。
因为这项工作中的很多事情都是正确的,但也有一些并非如此。我们可以回顾它们,看看发生了什么,以及它如何逐渐演变成今天的样子。
那么,让我们从谈论我们所做的事情开始。我们将通过展示10年前同一个演讲的幻灯片来完成。
我们所做工作的总结如下三个要点:它是一个在文本上训练的自回归模型;它是一个大型神经网络;它是一个大型数据集。就是这样。现在让我们更深入地了解一下细节。这是10年前的一张幻灯片。还不错。“深度学习假设”。我们在这里说的是,如果你有一个大型神经网络,有10层,那么它可以像人类一样在很短的时间内做任何事情。
为什么我们要强调人类在瞬间可以做的事情?为什么特别强调这些事情?好吧,如果你相信深度学习的教条,也就是说,人工神经元和生物神经元是相似的,或者至少没有太大的不同,并且你相信真正的神经元是缓慢的,那么我们能快速做到的任何事情——这里的“我们”指的是人类——都变得意义重大。我甚至指的是全世界只有一个人可以完成的。如果全世界只有一个人可以在瞬间完成某项任务,那么一个10层神经网络也可以做到,对吧?这是必然的。
你只需获取他们的连接,并将它们嵌入到你的人工神经网络中。这就是动机。任何人类可以在瞬间完成的事情,一个大型的10层神经网络也可以做到。我们专注于10层神经网络,因为那是当时我们知道如何训练的神经网络架构。如果你能在层数上有所突破,那么你就可以做更多的事情。
但当时,我们只能做到10层,这就是为什么我们要强调人类可以在瞬间完成的任何事情。
演讲中的另一张幻灯片展示了我们的主要想法。你可能能够识别出两件事,或者至少一件事。你可能会注意到这里发生了一些自回归的事情。它到底在说什么?这张幻灯片真正传达了什么?
这张幻灯片断言,如果你有一个自回归模型,并且它能够很好地预测下一个token,那么它确实会捕获后续序列的正确分布。这个概念在当时相对较新。虽然它不是严格意义上的第一个自回归神经网络,但我认为它是第一个我们真正相信,只要经过充分训练,就能实现预期结果的神经网络。在当时,我们的目标——一个现在看来非常大胆的谦逊的尝试——是翻译任务。
现在,我要给你们展示一些你们中许多人可能从未见过的古老历史。它叫做LSTM。谢谢。
对于那些不熟悉的人来说,LSTM是可怜的深度学习研究人员在Transformer之前所做的事情。它基本上是一个ResNet,但旋转了90度。所以这就是LSTM。它比ResNet出现得更早;它有点像更复杂的ResNet。你可以看到你的积分器,它现在被称为残差流。但是有一些乘法运算正在进行。它稍微复杂一些。但这就是我们当时所做的。它是一个ResNet,旋转了90度。
我想强调的旧演讲的另一个很酷的特性是我们使用了并行化。但不仅仅是任何并行化;我们使用了流水线,正如每个GPU上一层所见证的那样。使用流水线明智吗?正如我们现在所知,流水线并不明智。但我们当时并不那么明智。所以我们使用了它,并使用八个GPU获得了3.5倍的加速。
而结论幻灯片,从某种意义上说,当时演讲的结论幻灯片是最重要的幻灯片,因为它阐明了可以说是缩放假设的开端,对吧?如果你有一个非常大的数据集,并且你训练一个非常大的神经网络,那么成功是保证的。如果有人愿意慷慨地认为,这确实是正在发生的事情,对吧?
我想再提一个观点。我声称,这个观点真正经受住了时间的考验。它是深度学习本身的核心思想。它是连接主义的思想。它是指如果你让自己相信
一个人工神经元有点像生物神经元,对吧?如果你相信一个有点像另一个,那么你就会有信心相信非常大的神经网络,它们不需要完全达到人脑的规模。它们可能会稍微小一些,但你可以配置它们来完成我们人类所做的几乎所有事情。
仍然存在差异。哦,我忘了提差异。仍然存在差异,因为人脑还会弄清楚如何重新配置自身。而我们正在使用我们拥有的最好的学习算法,这些算法需要的数据点与参数一样多。在这方面,人类仍然更胜一筹。
但这一切导致了,我可以说,预训练时代的到来。我们可能会说,GPT-2模型、GPT-3模型和缩放定律都属于预训练时代。我想特别指出我的前合作者Alec Radford,还有Jared Kaplan和Dario Amodei。
他们为此做出了巨大贡献。但这导致了预训练时代的到来,这是我们今天看到的所有进步的驱动力。超大型神经网络,在海量数据集上训练的超大型神经网络。
但我们所知的预训练无疑将结束。预训练将会结束。为什么会结束?因为虽然计算能力通过更好的硬件、更好的算法和更大的集群不断增长,所有这些都在增加你的计算能力。所有这些都在增加你的计算能力。
数据并没有增长,因为我们只有一个互联网。我们只有一个互联网。你甚至可以说数据是人工智能的化石燃料。它以某种方式被创造出来,现在我们使用它。我们已经达到了数据峰值,以后不会再有了。我们必须处理我们现在拥有的数据。它仍然可以让我们走得很远,只有一个互联网。
所以在这里,我将稍微自由地推测一下接下来会发生什么。实际上,我不需要推测,因为很多人也在推测。我会提到他们的推测。你可能听说过“代理”这个词。它很常见。我确信最终会发生一些事情。但人们感觉代理是未来。
更具体地说,但也有些模糊的是,合成数据。但合成数据意味着什么?弄清楚这一点是一个巨大的挑战。我确信不同的人都在那里取得了各种有趣的进展。以及推理时间计算,或者最近在O1模型中最生动地看到的。这些都是人们试图弄清楚预训练之后该做什么的例子。而这些都是非常好的做法。
我想再提一个来自生物学的例子,我认为这非常酷。这个例子是这样的。大约很多年前,在这次会议上,我也看到一个演讲,有人展示了这张图,这张图显示了生物体的大小之间的关系。
哺乳动物的身体大小与其大脑大小的关系是生物学中一个有趣的话题。在这种情况下,它指的是质量。我清楚地记得一个演讲,他们在说,在生物学中,一切都如此混乱,但在这里你有一个罕见的例子,即动物的身体大小和它们的大脑之间存在非常紧密的关系。
完全偶然地,我对这张图产生了好奇。我到谷歌上去搜索这张图,谷歌图片中的其中一张图片就是这个。这张图片的有趣之处在于,你看到了各种各样的哺乳动物被呈现出来。
当我研究这张图表时,我被不同哺乳动物之间的差异和模式深深吸引。它以视觉化的方式呈现了身体大小与大脑大小之间的关系,展示了哺乳动物物种的多样性。图表中呈现的数据有助于突出这些动物独特的特征和进化适应。
接下来是非人类灵长类动物,它们的情况基本上也是如此。但之后就到了人科动物。据我所知,人科动物在进化上与人类关系密切,比如尼安德特人。
有很多种人科动物,比如直立人,可能还有其他很多,它们都出现在这里。有趣的是,它们的大脑与身体大小的比例关系的指数斜率不同。这很酷。这意味着存在一个先例,一个例子,表明生物学已经找到了某种不同的缩放方式,显然存在一些不同之处。所以我认为这很酷。顺便说一下,我想强调的是,这个横轴是对数刻度。你们看,这是 100,这是 1000,10000,100000,纵轴也是一样,1克,10克,100克,1000克。
所以,事物是有可能不同的。我们正在做的,我们一直在进行缩放的东西,实际上是我们第一个弄清楚如何缩放的东西。毫无疑问,这个领域的每个人都会弄清楚该怎么做。但我想在这里谈谈,我想花几分钟时间来推测一下更长远的未来。更长远的未来。我们所有人将走向何方?对吧?我们正在取得所有这些进步。这是惊人的进步。真的,我的意思是……
那些十年前就进入这个领域的人,还记得当时的一切是多么的无能为力,是的,你可以说,即使你稍微认为,当然,深度学习,但亲眼看到它仍然令人难以置信。它完全,我无法向你传达那种感受。
你知道,如果你是最近两年才加入这个领域的,那么你当然可以和计算机对话,它们会回应你,还会反驳你。这就是现在的计算机。但情况并非一直如此。
我想稍微谈谈超级智能,只是一点点。因为这显然是这个领域的发展方向。这显然是这里正在构建的东西。
关于超级智能,它在本质上会与我们现在拥有的不同。我接下来的目标是尝试给你一些关于它将如何不同的具体直觉,以便你能够自己对此进行推理。
所以现在我们有我们令人难以置信的语言模型,它们是令人难以置信的聊天机器人,它们甚至可以做事情,但它们也奇怪地不可靠,并且在评估中表现出惊人的超人性能,但又会感到困惑。所以真的不清楚如何调和这一点。但最终,迟早会实现以下目标。这些系统实际上将在现实中以真实的方式成为智能体,而现在,这些系统在任何有意义的意义上都不是智能体。好吧,可能太绝对了。它们非常、非常轻微地具有智能体性,仅仅是开始。
它实际上会推理。顺便说一句,我想提一下关于推理的事情。那就是一个进行推理的系统,它推理得越多,就变得越不可预测。它推理得越多,就变得越不可预测。我们一直习惯的深度学习非常可预测,因为我们一直在努力复制人类的直觉,本质上就像是直觉。
如果你回到0.1秒的反应时间,我们的大脑在做什么样的处理,好吧,那是我们的直觉。所以我们赋予了我们的人工智能一些直觉。但是推理,你们正在看到一些早期迹象,推理是不可预测的。看到这一点的其中一个原因是,国际象棋人工智能,那些真正优秀的,对于最优秀的人类棋手来说是不可预测的。
所以我们将不得不处理极其不可预测的人工智能系统。它们会从有限的数据中理解事物。它们不会感到困惑,所有这些都是很大的局限性。顺便说一句,我没有说怎么做,也没有说什么时候。我只是说它会发生。
当所有这些事情与自我意识结合在一起时,为什么不呢?自我意识是有用的。它一部分,你,我们自己,是我们自己世界模型的一部分。当所有这些事情结合在一起时,我们将拥有与今天存在的系统截然不同的性质和属性的系统。当然,它们将拥有令人难以置信的能力,但是像这样的系统出现的问题,我就留给大家自己去想象。
它与我们习惯的非常不同。我想说的是,预测未来也绝对是不可能的。真的,一切皆有可能。但在这个令人振奋的观点上,我将结束我的发言。非常感谢大家。
主持人: 谢谢。那么在2024年,是否有其他属于人类认知的生物结构,你认为值得以类似的方式探索,或者你对此感兴趣的?
Ilya Sutskever: 所以,我回答这个问题的方式是,如果你或者某人对以下情况有具体的见解,嘿,我们都非常愚蠢,因为很明显大脑在做某些事情,而我们没有做,而那件事是可以做的,他们应该去追求它。
好吧,这取决于你所看的抽象层面。也许我会这样回答。
一直以来都有很多人渴望创造受生物学启发的AI。你可以在某种程度上说,受生物学启发的AI非常成功,所有的深度学习都是受生物学启发的AI。
但另一方面,生物学上的灵感非常、非常、非常有限。就像,让我们使用神经元。这就是生物学灵感的全部:让我们使用神经元。
更详细的生物学灵感一直很难获得,但我不会排除它。我认为如果有人有特殊的见解,他们也许能看到一些有用的东西。
现场提问者: 我有一个关于自动纠错的问题想问你。问题是这样的。你提到推理是未来建模的核心方面之一,也许也是一个区分因素。
我们在一些海报展示中看到,今天模型的幻觉,我们分析的方式,我的意思是,也许你纠正我,你是这方面的专家,但我们今天分析模型是否出现幻觉的方式是通过统计分析。
我们知道模型无法进行推理的危险,我们正在使用一定数量的标准偏差或从均值偏差的量来评估这一点。
在未来,考虑到推理,模型难道不能够自我纠正吗,进行某种自我纠错?我想知道这是否会成为未来模型的核心特征,这样就不会出现那么多的幻觉。
这就引出了一个问题,模型是否能够识别出何时发生了幻觉。这个问题说得通吗?
Ilya Sutskever: 是的,答案也是肯定的。我认为你所描述的非常合理。我的意思是,你应该去验证一下。我的意思是,是的,我不会排除它可能已经发生在今天的一些早期推理模型上的可能性。我不知道,但是长期来看,为什么不呢?
现场提问者: 是的,我的意思是,它是像微软Word这样的软件的一部分,比如自动纠错,这是一个核心功能。
Ilya Sutskever: 是啊,我只是觉得,我的意思是,我认为称它为自动纠错真的太贬低它了。我觉得,当你提到自动纠错时,你会觉得它比自动纠错要宏大得多,但抛开这一点不谈,答案是肯定的。
现场提问者: 你好,Ilya。我喜欢这个结尾,神秘地留下了悬念,它们是取代我们还是比我们更优越?它们需要权利吗?这是一种新的人类智人物种。所以也许它们需要,我的意思是,我认为RL的人认为我们需要为这些东西争取权利。我有一个不相关的问题。你如何为人类创造正确的激励机制,让他们以一种给予它们我们作为智人所拥有的自由的方式来创造它?
Ilya Sutskever: 你知道,我觉得在某种程度上,这些是人们应该更多思考的问题。但是关于你提出的我们应该创造什么激励结构的问题,我觉得我不知道。我没有信心回答这样的问题,因为它就像你在谈论创建一个某种自上而下的结构政府机构。我不知道。它可能是一个加密货币。
现场提问者: 是的。我的意思是,有BitTensor,你知道,有一些东西。
Ilya Sutskever: 我觉得我不是评论加密货币的合适人选。但是,你知道,顺便说一句,你描述的情况是有可能发生的,我们确实会拥有。你知道,在某种意义上,这不是一个糟糕的结局。如果你有人工智能,而它们只想和我们共存,也只想拥有权利,也许这样就挺好。是这样。
但我不知道。我的意思是,我认为事情是如此难以预测。我不敢妄加评论,但我鼓励大家思考。
现场提问者: 谢谢。是的,感谢你的演讲,真的很棒。
现场提问者Shalev Lifshitz: 嗨,大家好。感谢精彩的演讲。我叫Shalev Lifshitz,来自多伦多大学,和Sheila一起工作。感谢你所做的一切工作。我想问一下,你认为大型语言模型(LLM)能否泛化超出分布的多跳推理?
Ilya Sutskever: 好的,这个问题假设答案是肯定或否定,但是这个问题不应该用肯定或否定来回答,因为什么叫超出分布的泛化?它意味着什么?什么叫分布内,什么叫超出分布?
因为这是一场回顾性的演讲,我会说,很久很久以前,在人们使用深度学习之前,他们使用的是字符串匹配和n-gram之类的东西。对于机器翻译,人们使用的是统计短语表。你能想象吗?它们有数以万计的代码复杂性,我的意思是,这真是难以想象的。
在那时,泛化意味着,它是否字面上与数据集中的措辞不一样?现在我们可能会说,好吧,我的模型在诸如数学竞赛之类的比赛中取得了很高的分数,但是也许数学,也许互联网上的某个论坛上的一些讨论是关于相同的想法,因此它记住了。好吧,你可以说也许它是在分布内的,也许是记忆,但我认为我们对泛化的标准已经大幅提高了,令人难以想象地提高了,如果你一直关注的话。
所以我认为答案是,在某种程度上,可能不如人类做得好。我认为人类的泛化能力确实好得多。但与此同时,它们肯定在某种程度上也能泛化到分布之外。我希望这是一个有用的,同义反复的答案。谢谢。
主持人: 很遗憾,我们今天的会议时间到了。我感觉我们可以再讨论六个小时。但是非常感谢Ilya的演讲。谢谢。太精彩了。
关注公众号后设🌟标,掌握第一手AI新动态