NeurIPS 2024 | Ilya重磅演讲：预训练将结束，接下来是超级智能「自我意识」

学术 2024-12-15 00:02 加拿大

转自：AI寒武纪

如涉版权请加编辑微信iwish89联系

哲学园鸣谢

Ilya燃爆NeurIPS 2024 ，最新演讲来了

我们现在如此依赖的强大人工智能，在未来的某一天会走向何方？我们是否已触及了数据时代的顶峰？Ilya 带我们回顾过去十年，并大胆预测 AI 的未来

Ilya核心观点：

LLM预训练将结束，数据是AI的化石燃料，超级智能是AI领域的未来，超级智能的演化步骤是：代理、推理、理解和自我意识，我们将来要处理的 AI 系统将是高度不可预测的

以下是Ilya 在 NeurIPS 2024 接受颁奖的主题演讲 Data is the fossil fuel of Al 全文

开场致谢

我首先要感谢组织者选择我们的论文给予支持，这真是太棒了。同时，我还要感谢我的杰出合作者 Oriol Vignales 和 Kwokli，他们刚才还站在你们面前。

回顾：十年前的演讲

现在你们看到的是一张截图，来自 10 年前，2014 年在蒙特利尔的 NeurIPS 会议上我做的类似演讲。那时我们还很天真。照片上是当时的我们（“之前”）

这是现在的我们（“之后”）。现在，我希望我看起来更成熟，更有经验

今天我想谈谈这项工作本身，并进行一个 10 年的回顾。因为这项工作中有很多观点是正确的，但也有一些不太正确。我们可以回顾一下，看看发生了什么，以及它是如何逐渐演变成今天的样子的

我们做了什么？

我们先来回顾一下我们当时做了什么。我会展示 10 年前那次演讲的幻灯片。总的来说，我们做了以下三件事：

• 构建了一个基于文本训练的自回归模型
• 使用了一个大型神经网络
• 使用了大型数据集

就这么简单。现在我们深入探讨一下细节

深度学习的假设

这是 10 年前的幻灯片，还不错吧？上面写着“深度学习的假设”。我们当时认为，如果有一个大型神经网络，它包含很多层，那么它就能在不到一秒的时间内完成人类可以完成的任何事情。为什么我们要强调人类在一秒内可以完成的事情？

这是因为，如果你相信深度学习的“教条”，认为人工神经元和生物神经元是相似的，或者至少没有太大的不同，并且你相信神经元是缓慢的，那么任何人类能够快速完成的事情，只要世界上有一个人能够在一秒内完成，那么一个 10 层的神经网络也能做到。逻辑是这样的：你只需要提取他们的连接方式，然后将其嵌入到你的人工神经网络中。

这就是动机。任何人类在一秒内可以完成的事情，一个大型 10 层神经网络都可以做到。我们当时关注 10 层神经网络，是因为那时我们只知道如何训练 10 层的网络。如果层数能更多，也许能做更多事情。但当时我们只能做到 10 层，所以我们强调的是人类在一秒内能完成的事情。

核心思想：自回归模型

这是当时演讲的另一张幻灯片，上面写着“我们的核心思想”。你可能认出来至少一个东西：这里正在发生自回归的过程。这张幻灯片到底在说什么？它在说，如果你有一个自回归模型，它能很好地预测下一个 token，那么它实际上会捕获、抓住下一个序列的正确分布

这在当时是一个相对较新的想法。这并不是第一个自回归神经网络。

但我认为，这是第一个我们真正相信，如果训练得足够好，就能得到任何想要的结果的自回归神经网络。在当时，我们的目标是（现在看来很平常，但当时非常大胆）机器翻译

LSTM：Transformer 之前的技术

接下来我要展示一些你们很多人可能从未见过的古老历史：LSTM。对于不熟悉的人来说，LSTM 是在 Transformer 出现之前，可怜的深度学习研究人员使用的东西。它基本上是一个旋转了 90 度的 ResNet。你可以看到它集成了残差连接（现在被称为残差流），但也有一些乘法运算。它比 ResNet 稍微复杂一点。这就是我们当时用的

并行计算：管道并行

另一个我想强调的特点是并行计算。我们使用了管道并行，每个 GPU 处理一层。使用管道并行明智吗？现在看来，管道并行并不明智。但我们当时没那么聪明。通过使用 8 个 GPU，我们获得了 3.5 倍的速度提升

结论：规模化假设

当时演讲的结论幻灯片

可以说是最重要的幻灯片，因为它阐述了规模化假设的开端：如果你有非常大的数据集，并且训练非常大的神经网络，那么成功就是必然的。如果你愿意往好的方面想，可以说，这确实就是之后发生的事情。

核心理念：连接主义

我还想提一个理念，我认为这个理念经受住了时间的考验。这就是连接主义。核心理念是：

如果你相信人工神经元有点像生物神经元，那么你就有信心相信大型神经网络（即使它们不完全像人类大脑那么大）可以被配置来完成我们人类所做的大部分事情。当然还是有差异，因为人类大脑会自我重构，而我们现在最好的学习算法需要大量的数据。人类在这方面仍然更胜一筹。

预训练时代

我认为所有这些都引领了预训练时代的到来。GPT-2 模型、GPT-3 模型、缩放法则，我要特别感谢我的前合作者：Alec Radford、Gerrit Kaplan 和 Daria Amodei，他们的工作至关重要。预训练是今天我们看到所有进步的驱动力。超大型神经网络，在海量数据集上训练

预训练的终结,但预训练终将结束。为什么？因为虽然算力在不断增长，但数据并没有无限增长，因为我们只有一个互联网。你甚至可以说，数据是人工智能的化石燃料。它被创造出来，我们使用它，并且已经达到了数据峰值，不会有更多的数据了。我们只能处理现有的数据。尽管我们还有很多路要走，但我们只有一个互联网。

下一步是什么？

接下来我将稍微推测一下未来会发生什么。当然，很多人都在推测。你可能听说过“智能体”（agents）这个词。人们觉得智能体是未来。更具体一点，但也有点模糊的是合成数据。如何生成有用的合成数据仍然是一个巨大的挑战。还有推理时的算力优化，以及最近在 o1 模型中看到的，这些都是人们在预训练之后尝试探索的方向。

生物学启示：不同物种的大脑缩放

我还想提一个生物学的例子，我觉得非常有趣。多年前，我也在这个会议上看到一个演讲，演讲者展示了一个图表，显示哺乳动物的身体大小和大脑大小之间的关系。演讲者说，在生物学中，一切都很混乱，但这里有一个特例，即动物的身体大小和大脑大小之间存在紧密的关系

我当时对这个图表产生了好奇，并开始在谷歌上搜索。其中一个图片结果是这样的：你可以看到各种哺乳动物，非人类灵长类动物也是如此。但接下来是人科动物，如尼安德特人，他们和人类的进化关系很近。有趣的是，人科动物的脑体缩放指数具有不同的斜率。

这意味着，生物学中存在一个例子，它展示了某种不同的缩放方式。这很酷。另外，我要强调一下，x 轴是对数刻度。所以，事物是有可能不同的。我们目前所做的事情，是我们第一个知道如何进行缩放的事情。毫无疑问，这个领域的所有人都会找到下一步的方向。

关于未来的推测

现在我想花几分钟推测一下更长远的未来，我们都将走向何方？我们正在取得进步，这真是太棒了。如果你是 10 年前就入行的，你会记得当时的技术有多么不成熟。即便你觉得深度学习是理所当然的，但亲眼看到它取得的进步还是令人难以置信。我无法向那些最近两年才加入这个领域的人传达这种感觉。但我要谈谈超级智能，因为这显然是这个领域的未来。

超级智能在性质上将与我们今天拥有的智能截然不同。我希望在接下来的几分钟里，给你一些具体的直觉，让你感受到这种不同。

现在我们拥有了强大的语言模型，它们是很棒的聊天机器人，它们甚至能做一些事情，但它们也常常不可靠，有时会感到困惑，同时在某些任务上又具有超人的表现。如何协调这种矛盾目前还不清楚。

但最终，以下情况将会发生：

这些系统将真正具有智能体的性质。而现在，它们在任何有意义的层面上都不是智能体，或者说只有非常微弱的智能体性质。它们会进行真正的推理

我还要强调一点，关于推理：

一个系统越能进行推理，就变得越不可预测。我们现在使用的模型都是可预测的，因为我们一直在努力复制人类的直觉。我们大脑在一秒钟内的反应，本质上就是直觉。所以我们用一些直觉训练了模型。但推理是不可预测的。原因之一是，好的国际象棋 AI 对人类国际象棋高手来说是不可预测的

所以，我们将来要处理的 AI 系统将是高度不可预测的。它们会理解有限的数据，它们不会感到困惑，这是它们目前存在的巨大局限。我不是说如何做到，也不是说何时做到，我只是说它将会发生。当所有这些能力都与自我意识相结合时（为什么不呢？自我意识是有用的），我们将拥有与今天截然不同的系统。它们将拥有令人难以置信的能力。但与这些系统相关的问题将与我们过去习惯的问题大相径庭

预测未来是不可能的，一切皆有可能。但最后，我还是要以乐观的态度结束我的演讲

问答环节

问题 1：生物结构与人类认知

• 问题： 在 2024 年，是否有其他生物结构在人类认知中发挥作用，您认为值得像您之前那样去探索？
• 回答： 如果有人对大脑的运作方式有独特的见解，并且认为我们目前的做法是愚蠢的，他们应该去探索它。我个人没有这样的想法。也许从更高的抽象层面来看，我们可以说，生物学启发的人工智能是非常成功的，因为所有的神经网络都是受生物启发的，尽管其灵感非常有限，比如我们只是使用了神经元。更详细的生物灵感很难找到。但如果有特别的见解，也许可以找到有用的方向。

问题 2：推理和自我纠正

• 问题： 您提到推理是未来模型的核心方面。我们看到现在模型中存在幻觉。我们使用统计分析来判断模型是否产生幻觉。未来，具有推理能力的模型能否自我纠正，减少幻觉？
• 回答： 我认为你描述的情况是极有可能发生的。事实上，有些早期的推理模型可能已经开始具备这种能力了。长期来看，为什么不能呢？这就像微软 Word 中的自动更正功能。当然，这种功能比自动更正要强大得多。但总的来说，答案是肯定的。

问题 3：超级智能的权利和激励机制

• 问题： 如果这些新诞生的智能体需要权利，我们应该如何为人类建立正确的激励机制，以确保它们能像人类一样获得自由？
• 回答： 这是一个值得人们思考的问题。但是我不觉得我有能力回答这个问题。因为这涉及到建立某种自上而下的结构，或者政府之类的东西。我不是这方面的专家。也许可以用加密货币之类的东西。如果 AI 只是想与我们共存，并且也想要获得权利，也许这样就挺好。但我认为未来太不可预测了，我不敢轻易评论。但我鼓励大家思考这个问题。

问题 4：LLM 的多跳推理泛化能力

• 问题： 您认为大型语言模型（LLM）是否能够进行多跳推理的跨分布泛化？
• 回答： 这个问题假设答案是肯定的或者否定的。但这个问题不应该用“是”或“否”来回答，因为“跨分布泛化”是什么意思？“分布内”又是什么意思？在深度学习之前，人们使用字符串匹配、n-gram 等技术进行机器翻译。当时，“泛化”意味着，是否使用完全不在数据集中的短语？现在，我们的标准已经大幅提高。我们可能会说，一个模型在数学竞赛中取得了高分，但也许它只是记住了互联网论坛上讨论过的相同想法。所以，也许它是在分布内，也许只是记忆。我认为人类的泛化能力要好得多，但现在的模型在某种程度上也能够做到。这是一个更合理的答案

哲学园

哲学是爱智慧，爱智慧乃是对心灵的驯化。这里是理念的在场、诗意的栖居地。关注哲学园，认识你自己。

最新文章

改革开放40年，中国做对了4件事

反精英者如何发动了革命，革命又如何吞噬了自己的儿女？

奎因：整齐的节俭性

红军早期如何筹款？这份真实的史料告诉你，总共分9步

李雪峰：我所知道的“文革”发动内幕

100年前中国大地上的古建、古迹，原来这么美！

【新书新译】意识：死胡同中的视角

【新书新译】心灵的曙光：物质如何变得有意识并获得生命（引言）

我不信中医，但这三本书可以让我去理解中医！

从统计物理到社会科学：如何从微观推导出宏观？

一个94岁高寿的史学大师，凭什么在1949年就预见了知识分子的悲惨命运？

列奥·施特劳斯和封闭社会

NeurIPS 2024 | Ilya重磅演讲：预训练将结束，接下来是超级智能「自我意识」

高观点物理 | 怎么由势能函数分析粒子的运动？ | David Tong 《Dynamics and Relativity》

哥德尔：康托的连续统问题是什么？（重磅长文）

51岁董卿逛街被偶遇，路人合照气质绝了：这才是女人的高级美

高观点物理 | 第1章牛顿力学 | David Tong《Dynamics and Relativity》

什么鬼！“夜间科学” 才是科学发现的惊人一跃！

绝版：台北故宫博物院典藏大系•绘画卷

纪念克里普克：涂纪亮｜《命名与必然性》中译本序

高岗自杀后，彭德怀林彪的表现令人感叹

终于不是删减版了！全程高能！外国人都痴迷的中国神作

与查尔莫斯对话：关于心灵与意识

某官媒对2025年的神预测，让人背脊发凉…

维特根斯坦直到去世前两天还在写的奇书，全新中文译本！

读维特根斯坦有一种十分美妙的体验，他其实是个很好玩的人

于江霞：芝诺思想渊源三题议

可能是蒙田最难读的文章：蒙田的申辩（《雷蒙·塞邦赞》）

鼻炎有救了！美国线下药店同款鼻通膏，一抹就舒服

破碎之地：十字路口上的叙利亚

影响中国人的两种“生意观”, 着实耐人寻味

香港易学专家推荐，巳火昇，运飞腾！2025乙巳蛇年吉运重磅来袭！

从微观到宏观，基于格兰杰因果量化涌现

物理学遇见机器学习：深度学习的下一个突破可能来自统计物理学

中国人为什么要读诗？这位百岁老人一语中的！

Joel Kotkin｜当代欧美社会的青年危机

Isaac Willour｜五大策略清除企业里的觉醒主义

“我研究欧洲，实际上心里想的是中国。”

分析哲学、实用主义与哈佛传统——美国哲学家盖瑞 ·艾伯思访谈

美国的“政治正确”，究竟是什么意思？

2025蛇年重头戏来了！蛇年生肖邮票正式发行！

两种核物理科学范式的对话

人一到群体中，智商就严重降低

米尔斯海默：特朗普当选，中美关系的底层逻辑

林允清｜维特根斯坦私人语言研究的“语法”性质

沈志华：苏联怎么腐败，你想都想不到！

《夹缝中的总督》 | 马勇：从曾国藩的研究重新认识晚清

哥德尔吉布斯篇：一些关于数学基础的基本定理及其意义（1951）

罗素《数学原则》全译本（3）：第2版序言

故宫又搞大事，十大书画，一次集齐，史无前例！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉