NeurIPS 2024 | Ilya重磅演讲：预训练将结束，接下来是超级智能「自我意识」

科技 2024-12-14 17:01 浙江

转自：AI寒武纪

Ilya燃爆NeurIPS 2024 ，最新演讲来了。

我们现在如此依赖的强大人工智能，在未来的某一天会走向何方？我们是否已触及了数据时代的顶峰？Ilya 带我们回顾过去十年，并大胆预测 AI 的未来

Ilya核心观点：

LLM预训练将结束，数据是AI的化石燃料，超级智能是AI领域的未来，超级智能的演化步骤是：代理、推理、理解和自我意识，我们将来要处理的 AI 系统将是高度不可预测的

以下是Ilya 在 NeurIPS 2024 接受颁奖的主题演讲 Data is the fossil fuel of Al 全文

开场致谢

我首先要感谢组织者选择我们的论文给予支持，这真是太棒了。同时，我还要感谢我的杰出合作者 Oriol Vignales 和 Kwokli，他们刚才还站在你们面前。

回顾：十年前的演讲

现在你们看到的是一张截图，来自 10 年前，2014 年在蒙特利尔的 NeurIPS 会议上我做的类似演讲。那时我们还很天真。照片上是当时的我们（“之前”）

这是现在的我们（“之后”）。现在，我希望我看起来更成熟，更有经验

今天我想谈谈这项工作本身，并进行一个 10 年的回顾。因为这项工作中有很多观点是正确的，但也有一些不太正确。我们可以回顾一下，看看发生了什么，以及它是如何逐渐演变成今天的样子的

我们做了什么？

我们先来回顾一下我们当时做了什么。我会展示 10 年前那次演讲的幻灯片。总的来说，我们做了以下三件事：

• 构建了一个基于文本训练的自回归模型
• 使用了一个大型神经网络
• 使用了大型数据集

就这么简单。现在我们深入探讨一下细节

深度学习的假设

这是 10 年前的幻灯片，还不错吧？上面写着“深度学习的假设”。我们当时认为，如果有一个大型神经网络，它包含很多层，那么它就能在不到一秒的时间内完成人类可以完成的任何事情。为什么我们要强调人类在一秒内可以完成的事情？

这是因为，如果你相信深度学习的“教条”，认为人工神经元和生物神经元是相似的，或者至少没有太大的不同，并且你相信神经元是缓慢的，那么任何人类能够快速完成的事情，只要世界上有一个人能够在一秒内完成，那么一个 10 层的神经网络也能做到。逻辑是这样的：你只需要提取他们的连接方式，然后将其嵌入到你的人工神经网络中。

这就是动机。任何人类在一秒内可以完成的事情，一个大型 10 层神经网络都可以做到。我们当时关注 10 层神经网络，是因为那时我们只知道如何训练 10 层的网络。如果层数能更多，也许能做更多事情。但当时我们只能做到 10 层，所以我们强调的是人类在一秒内能完成的事情。

核心思想：自回归模型

这是当时演讲的另一张幻灯片，上面写着“我们的核心思想”。你可能认出来至少一个东西：这里正在发生自回归的过程。这张幻灯片到底在说什么？它在说，如果你有一个自回归模型，它能很好地预测下一个 token，那么它实际上会捕获、抓住下一个序列的正确分布

这在当时是一个相对较新的想法。这并不是第一个自回归神经网络。

但我认为，这是第一个我们真正相信，如果训练得足够好，就能得到任何想要的结果的自回归神经网络。在当时，我们的目标是（现在看来很平常，但当时非常大胆）机器翻译

LSTM：Transformer 之前的技术

接下来我要展示一些你们很多人可能从未见过的古老历史：LSTM。对于不熟悉的人来说，LSTM 是在 Transformer 出现之前，可怜的深度学习研究人员使用的东西。它基本上是一个旋转了 90 度的 ResNet。你可以看到它集成了残差连接（现在被称为残差流），但也有一些乘法运算。它比 ResNet 稍微复杂一点。这就是我们当时用的

并行计算：管道并行

另一个我想强调的特点是并行计算。我们使用了管道并行，每个 GPU 处理一层。使用管道并行明智吗？现在看来，管道并行并不明智。但我们当时没那么聪明。通过使用 8 个 GPU，我们获得了 3.5 倍的速度提升

结论：规模化假设

当时演讲的结论幻灯片

可以说是最重要的幻灯片，因为它阐述了规模化假设的开端：如果你有非常大的数据集，并且训练非常大的神经网络，那么成功就是必然的。如果你愿意往好的方面想，可以说，这确实就是之后发生的事情。

核心理念：连接主义

我还想提一个理念，我认为这个理念经受住了时间的考验。这就是连接主义。核心理念是：

如果你相信人工神经元有点像生物神经元，那么你就有信心相信大型神经网络（即使它们不完全像人类大脑那么大）可以被配置来完成我们人类所做的大部分事情。当然还是有差异，因为人类大脑会自我重构，而我们现在最好的学习算法需要大量的数据。人类在这方面仍然更胜一筹。

预训练时代

我认为所有这些都引领了预训练时代的到来。GPT-2 模型、GPT-3 模型、缩放法则，我要特别感谢我的前合作者：Alec Radford、Gerrit Kaplan 和 Daria Amodei，他们的工作至关重要。预训练是今天我们看到所有进步的驱动力。超大型神经网络，在海量数据集上训练

预训练的终结,但预训练终将结束。为什么？因为虽然算力在不断增长，但数据并没有无限增长，因为我们只有一个互联网。你甚至可以说，数据是人工智能的化石燃料。它被创造出来，我们使用它，并且已经达到了数据峰值，不会有更多的数据了。我们只能处理现有的数据。尽管我们还有很多路要走，但我们只有一个互联网。

下一步是什么？

接下来我将稍微推测一下未来会发生什么。当然，很多人都在推测。你可能听说过“智能体”（agents）这个词。人们觉得智能体是未来。更具体一点，但也有点模糊的是合成数据。如何生成有用的合成数据仍然是一个巨大的挑战。还有推理时的算力优化，以及最近在 o1 模型中看到的，这些都是人们在预训练之后尝试探索的方向。

生物学启示：不同物种的大脑缩放

我还想提一个生物学的例子，我觉得非常有趣。多年前，我也在这个会议上看到一个演讲，演讲者展示了一个图表，显示哺乳动物的身体大小和大脑大小之间的关系。演讲者说，在生物学中，一切都很混乱，但这里有一个特例，即动物的身体大小和大脑大小之间存在紧密的关系

我当时对这个图表产生了好奇，并开始在谷歌上搜索。其中一个图片结果是这样的：你可以看到各种哺乳动物，非人类灵长类动物也是如此。但接下来是人科动物，如尼安德特人，他们和人类的进化关系很近。有趣的是，人科动物的脑体缩放指数具有不同的斜率。

这意味着，生物学中存在一个例子，它展示了某种不同的缩放方式。这很酷。另外，我要强调一下，x 轴是对数刻度。所以，事物是有可能不同的。我们目前所做的事情，是我们第一个知道如何进行缩放的事情。毫无疑问，这个领域的所有人都会找到下一步的方向。

关于未来的推测

现在我想花几分钟推测一下更长远的未来，我们都将走向何方？我们正在取得进步，这真是太棒了。如果你是 10 年前就入行的，你会记得当时的技术有多么不成熟。即便你觉得深度学习是理所当然的，但亲眼看到它取得的进步还是令人难以置信。我无法向那些最近两年才加入这个领域的人传达这种感觉。但我要谈谈超级智能，因为这显然是这个领域的未来。

超级智能在性质上将与我们今天拥有的智能截然不同。我希望在接下来的几分钟里，给你一些具体的直觉，让你感受到这种不同。

现在我们拥有了强大的语言模型，它们是很棒的聊天机器人，它们甚至能做一些事情，但它们也常常不可靠，有时会感到困惑，同时在某些任务上又具有超人的表现。如何协调这种矛盾目前还不清楚。

但最终，以下情况将会发生：

这些系统将真正具有智能体的性质。而现在，它们在任何有意义的层面上都不是智能体，或者说只有非常微弱的智能体性质。它们会进行真正的推理

我还要强调一点，关于推理：

一个系统越能进行推理，就变得越不可预测。我们现在使用的模型都是可预测的，因为我们一直在努力复制人类的直觉。我们大脑在一秒钟内的反应，本质上就是直觉。所以我们用一些直觉训练了模型。但推理是不可预测的。原因之一是，好的国际象棋 AI 对人类国际象棋高手来说是不可预测的

所以，我们将来要处理的 AI 系统将是高度不可预测的。它们会理解有限的数据，它们不会感到困惑，这是它们目前存在的巨大局限。我不是说如何做到，也不是说何时做到，我只是说它将会发生。当所有这些能力都与自我意识相结合时（为什么不呢？自我意识是有用的），我们将拥有与今天截然不同的系统。它们将拥有令人难以置信的能力。但与这些系统相关的问题将与我们过去习惯的问题大相径庭

预测未来是不可能的，一切皆有可能。但最后，我还是要以乐观的态度结束我的演讲

问答环节

问题 1：生物结构与人类认知

• 问题： 在 2024 年，是否有其他生物结构在人类认知中发挥作用，您认为值得像您之前那样去探索？
• 回答： 如果有人对大脑的运作方式有独特的见解，并且认为我们目前的做法是愚蠢的，他们应该去探索它。我个人没有这样的想法。也许从更高的抽象层面来看，我们可以说，生物学启发的人工智能是非常成功的，因为所有的神经网络都是受生物启发的，尽管其灵感非常有限，比如我们只是使用了神经元。更详细的生物灵感很难找到。但如果有特别的见解，也许可以找到有用的方向。

问题 2：推理和自我纠正

• 问题： 您提到推理是未来模型的核心方面。我们看到现在模型中存在幻觉。我们使用统计分析来判断模型是否产生幻觉。未来，具有推理能力的模型能否自我纠正，减少幻觉？
• 回答： 我认为你描述的情况是极有可能发生的。事实上，有些早期的推理模型可能已经开始具备这种能力了。长期来看，为什么不能呢？这就像微软 Word 中的自动更正功能。当然，这种功能比自动更正要强大得多。但总的来说，答案是肯定的。

问题 3：超级智能的权利和激励机制

• 问题： 如果这些新诞生的智能体需要权利，我们应该如何为人类建立正确的激励机制，以确保它们能像人类一样获得自由？
• 回答： 这是一个值得人们思考的问题。但是我不觉得我有能力回答这个问题。因为这涉及到建立某种自上而下的结构，或者政府之类的东西。我不是这方面的专家。也许可以用加密货币之类的东西。如果 AI 只是想与我们共存，并且也想要获得权利，也许这样就挺好。但我认为未来太不可预测了，我不敢轻易评论。但我鼓励大家思考这个问题。

问题 4：LLM 的多跳推理泛化能力

• 问题： 您认为大型语言模型（LLM）是否能够进行多跳推理的跨分布泛化？
• 回答： 这个问题假设答案是肯定的或者否定的。但这个问题不应该用“是”或“否”来回答，因为“跨分布泛化”是什么意思？“分布内”又是什么意思？在深度学习之前，人们使用字符串匹配、n-gram 等技术进行机器翻译。当时，“泛化”意味着，是否使用完全不在数据集中的短语？现在，我们的标准已经大幅提高。我们可能会说，一个模型在数学竞赛中取得了高分，但也许它只是记住了互联网论坛上讨论过的相同想法。所以，也许它是在分布内，也许只是记忆。我认为人类的泛化能力要好得多，但现在的模型在某种程度上也能够做到。这是一个更合理的答案。

深度学习图像分割，我准备了103篇SOTA论文合集

机器学习实验室

专注于机器学习和深度学习技术与实践。

最新文章

245个目标检测开源项目合集，建议收藏！

制作个人的第一个RAG demo！

谷歌版Sora发布：最大对手竟是「可灵」，OpenAI反而最拉胯

NeurIPS 2024 | Ilya重磅演讲：预训练将结束，接下来是超级智能「自我意识」

多模态融合，顶会超神了！

今夜凌晨，OpenAI Sora炸裂登场！网页版已经挤爆

LSTM卷土重来！xLSTM和Vision-LSTM共同引领文艺复兴

“让AI不再难学"，知名UP主梗直哥的《破解深度学习》来了！

全球五大巨头GPU总量曝光！谷歌第一微软第二！

245个目标检测开源项目合集，建议收藏！

《深度学习图像分割》第4章：基于编解码结构的分割网络

RAG还是微调，怎么选？

吴恩达：每个AI从业者都应该关注Agent！

Flux已成当下最火热的文生图模型？

计算机视觉顶尖期刊和会议有哪些？

被导师放养，后果可能很严重。。。

两张3090复现SearchGPT！

啥工作量？！60天就卷出一篇CCF-A顶会...

AlphaFold3重磅开源，诺奖级AI颠覆世界！GitHub斩获1.8k星，本地即可部署

《深度学习图像分割》第3章：图像分割关键技术组件

涨点神器！100个即插即用缝合模块【合集下载】

导师一个idea都没有，怎么发CCF-A？

《深度学习图像分割》第2章：传统图像分割算法

ChatGPT变身AI搜索引擎免费用！

大模型可解释性怎么搞？(附代码)

新扩散模型OmniGen一统图像生成！

国内首本大模型推荐系统著作来了！

只要敢捞“偏门”，篇篇都是顶会顶刊！

245个目标检测开源项目合集，建议收藏！

NeurIPS'24大模型LoRA超级变体！仅需参数0.4%达微调效率巅峰！

Windows用户也能使用桌面版ChatGPT了！

发论文别太老实，用对方法篇篇都是顶会顶刊！！！

OpenAI王炸来了！强化学习也有scaling law？

预告 | 《深度学习图像分割》将在GitHub逐步内容开源！

算法岗和开发岗有什么区别？

算法岗就业，Kaggle金牌和CCF-A一作哪个更有用？

82个即插即用的深度学习缝合模块！

Llama 3.2 来了！支持图像推理，还有可在手机上运行的版本

张俊林详细拆解o1：OpenAI o1完整训练过程逆向推演

对标Claude Artifacts！OpenAI canvas一夜封神！

首个Mamba+Transformer混合架构多模态大模型来了！

在深度学习中，是否应该打破正负样本1:1的迷信？

首个工业级异常检测的大模型AnomalyGPT！AAAI 2024已开源！

Claude工程师聊prompt：不要把模型当小孩子、不需要角色扮演、实话实说

张俊林：OpenAI o1的价值意义及强化学习的Scaling Law

ECCV'24最强多模态检测器！详解Grounding DINO：创新架构、训练代码！

Sora年内发布无望？视频生成还有戏吗？

KAN 2.0来了！会是AI+Science的答案吗？

基于YOLO v8融合CLIP！CVPR 2024多模态检测神器！

GPT-4结合SAM 2：免训练多模态分割的全新解决方案！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉