AI 教父Ilya NeurIPS 2024最新演讲：预训练已到尽头！超智能时代即将来临！

文摘 2024-12-14 14:54 美国

AI 教父级人物 Ilya Sutskever 近日在NeurIPS 2024演讲中回顾了其十年前的奠基之作——“Sequence to Sequence” 论文，并大胆预言：以数据为驱动的预训练模式即将到达瓶颈，而一个具备自主性、推理能力和不可预测性的超智能时代即将到来！ 本文将带你深入解读 Ilya 的核心观点，探讨 AI 的未来方向，以及超智能带来的机遇与挑战。

十年预言成真：AI 教父的远见卓识

神经机器翻译的曙光

十年前，一篇名为 "Sequence to sequence learning with neural networks" 的论文在 NeurIPS 大会上横空出世，为自然语言处理领域带来了革命性的突破。这篇论文的作者之一，正是被誉为 AI 教父级人物的 Ilya Sutskever。如今，当我们见证了 ChatGPT 等大型语言模型的惊人能力时，回望这篇论文，不得不惊叹于其前瞻性和深远的影响。

这篇论文的核心贡献在于提出了一个基于深度学习的序列到序列（Sequence-to-Sequence）模型，用于机器翻译任务。该模型采用编码器-解码器（Encoder-Decoder）架构，能够将一种语言的序列（如英语句子）映射到另一种语言的序列（如法语句子）。这一开创性的工作，不仅显著提升了机器翻译的性能，也为后续的自然语言处理研究，特别是 Transformer 和大语言模型的诞生，奠定了坚实的基础。 可以说，“Sequence to Sequence”模型是深度学习应用于自然语言处理的里程碑，开启了一个新的时代。

奠定 AI 基石的三大核心思想

"Sequence to sequence learning with neural networks" 这篇论文之所以具有划时代的意义，不仅在于其提出的具体模型，更在于其背后蕴含的三大核心思想，这些思想至今仍然是 AI 领域的基石：

• 自回归模型: 模型在生成目标序列时，是逐个 token（词或字符）进行预测的，下一个 token 的预测基于之前已生成的 token。这种自回归的方式，使得模型能够捕捉到序列内部的长距离依赖关系，从而生成更加流畅和连贯的文本。 如今，几乎所有的大语言模型，如 GPT 系列，都是基于自回归模型构建的。
• 大型神经网络: 论文强调了网络规模的重要性，指出更大的网络可以学习到更复杂的模式和表示。这与当时流行的浅层模型形成了鲜明对比。深度学习的核心理念之一就是通过增加网络的深度和宽度来提升模型的表达能力，而 Ilya 等人在十年前就已预见到这一点。他们甚至提出了一个有趣的假设，称之为“深度学习教条”。这个假设认为，如果人类能在极短的时间（比如一眨眼）内完成某项任务，一个拥有 10 层结构的神经网络也可以做到。这个观点的基础是，假设人工神经元和生物神经元是相似的。这个假设在当时激励了许多研究者，并为神经网络的研究提供了理论支持。
• 大型数据集: 论文指出，训练一个强大的模型需要大量的数据。数据是深度学习的“燃料”，为模型提供了学习的素材。如今，AI 领域的共识是“数据为王”，海量的高质量数据是训练出优秀 AI 模型的关键。

昔日的技术与局限：筚路蓝缕，以启山林

LSTM：Transformer 之前的“霸主”

在 Transformer 架构出现之前，循环神经网络（RNN），特别是长短期记忆网络（LSTM），一直是处理序列数据的首选模型。LSTM 通过引入门控机制，解决了传统 RNN 的梯度消失问题，能够更好地捕捉长距离依赖关系。

Ilya 将 LSTM 比作“旋转 90 度的 ResNet”。这个比喻非常形象，因为 LSTM 的核心思想与 ResNet 有异曲同工之妙。ResNet 通过残差连接，使得信息可以直接跨层传递，避免了梯度消失问题。而 LSTM 中的“遗忘门”和“输入门”也起到了类似的作用，控制着信息的流动，使得 LSTM 能够学习到更长的序列信息。 如果把 LSTM 单元沿着时间步展开，你会发现它和 ResNet 的结构非常相似，只是方向旋转了 90 度。这种结构上的相似性，也暗示了深度学习领域不同模型之间的内在联系。

模型并行：无奈之举，时代的眼泪

在 "Sequence to Sequence" 论文发表的那个年代，GPU 的显存容量还非常有限，无法容纳大型的神经网络模型。为了解决这个问题，研究者们不得不采用模型并行的方式，将模型的不同部分分配到不同的 GPU 上进行计算。

在 "Sequence to Sequence" 论文中，作者采用了每 GPU 一层网络的方式，将一个 4 层的 LSTM 模型分配到 8 个 GPU 上（其中 4 个用于编码器，4 个用于解码器），实现了 3.5 倍的加速。这种方式虽然能够解决显存不足的问题，但效率并不高，因为 GPU 之间需要频繁地进行通信，同步中间计算结果。 如今，随着 GPU 显存容量的不断提升，以及更高效的分布式训练技术的出现，模型并行已经逐渐被数据并行等更先进的技术所取代。但回望过去，模型并行仍然是深度学习发展历程中的一个重要阶段，体现了当时研究者们在硬件条件限制下的智慧和探索。

连接主义的胜利：预训练时代到来

连接主义：AI 的核心信仰

连接主义是人工智能领域的一个重要学派，其核心思想是：智能源于大量简单单元（如神经元）的相互连接和相互作用。连接主义认为，人工神经元与生物神经元之间存在着相似性，尽管这种相似性可能是非常粗略的。

正是基于这种信念，Ilya 等人才敢于构建和训练大型的神经网络模型。他们相信，只要网络的规模足够大，就能够模拟人脑的复杂功能。这种对连接主义的信仰，为大模型的发展提供了理论基础，推动了 AI 领域从浅层模型向深度模型的转变。

GPT 系列：规模化的胜利，大力出奇迹

近年来，以 GPT 系列为代表的大型预训练语言模型的成功，充分验证了连接主义的正确性和规模化定律的有效性。GPT-2、GPT-3 等模型，通过在海量的文本数据上进行预训练，学习到了丰富的语言知识和世界知识，展现出了惊人的文本生成、理解和推理能力。

这些模型的成功，再次证明了模型规模和数据规模的重要性。随着模型参数量的不断增加，模型的性能也随之提升，呈现出明显的规模化效应。 这也正应了Ilya 所说的“扩展假设（scaling hypothesis）”的早期萌芽：如果你有非常大的数据集，并且训练一个非常大的神经网络，那么成功几乎是必然的。 这正是十年前 Ilya 等人在 "Sequence to Sequence" 论文中所预见的。

数据瓶颈：狂欢之后的隐忧——预训练时代的黄昏

互联网的边界：数据的“天花板”

尽管当前 AI 的发展势头迅猛，但 Ilya 却敏锐地指出了一个潜在的危机：数据瓶颈。他指出，互联网数据的增长已经趋于饱和，难以满足 AI 模型日益增长的“胃口”。

目前，大多数 AI 模型都是在互联网上公开的文本和图像数据上进行训练的。然而，互联网数据的增长速度已经远低于 AI 模型参数量的增长速度。这意味着，未来我们可能没有足够多的数据来训练更大规模的模型，我们可能已经接近或达到了互联网数据增长的极限。

AI 的能源危机：“化石燃料”

Ilya 将数据比作 AI 的“化石燃料”，这是一个非常形象且发人深省的比喻。化石燃料是经过数百万年的地质变化形成的，是不可再生的资源。类似地，互联网数据也是经过数十年的积累形成的，其增长速度是有限的。

我们正处于“数据峰值”时代，数据红利即将耗尽。继续依赖于海量数据进行预训练的大模型范式将难以为继。 正如 Ilya 所言：“预训练即将结束。” 这并非危言耸听，而是基于现实的深刻洞察。过去，我们通过不断扩大数据规模和模型规模来提升 AI 性能，这种方式就像“烧煤”一样简单粗暴。但如今，“煤”的储量即将告罄，我们必须寻找新的能源和发展路径。预训练作为一种主要的 AI 训练范式，其局限性日益凸显，其黄金时代即将步入黄昏。我们不能再单纯地依靠 “大力出奇迹” 的模式，通过简单地扩大模型和数据集规模来取得进展。我们需要寻找新的 AI 发展路径，就像寻找可再生能源一样，以应对“后数据时代”的挑战。

AI 的未来：路在何方？

智能体：迈向通用人工智能

面对数据瓶颈，AI 的未来在哪里？Ilya 提到了一个重要的方向：智能体（Agents）。智能体是指能够感知环境、做出决策并采取行动的实体。与当前主要用于文本生成和理解的 AI 模型不同，智能体将具备更强的自主性和交互能力，更像“人”的智能。

智能体的研究将推动 AI 从“弱人工智能”迈向“通用人工智能”，使 AI 能够像人类一样，在各种不同的任务和环境中灵活地学习和行动。

合成数据：打破数据瓶颈的希望

为了解决数据不足的问题，合成数据成为了一个研究热点。合成数据是指通过计算机程序或模型生成的数据，而不是从现实世界中收集的数据。例如，可以使用生成对抗网络（GAN）生成逼真的图像数据，或者使用规则和模板生成文本数据。

合成数据具有以下几个优点：

• 成本低: 生成合成数据的成本远低于收集真实数据的成本。
• 数量大: 可以根据需要生成任意数量的合成数据。
• 可控性强: 可以控制合成数据的属性和分布，从而更好地满足模型训练的需求。

然而，如何生成高质量的合成数据，使其能够有效地用于模型训练，仍然是一个巨大的挑战。目前的合成数据往往缺乏真实数据的多样性和复杂性，需要进一步的技术突破。

推理计算：效率的提升之道

除了数据之外，计算也是 AI 发展的重要资源。当前的大模型通常需要在大量的 GPU 上进行训练和推理，成本非常高昂。

为了降低 AI 的应用成本，提高 AI 的效率，推理阶段的计算优化成为了一个重要的研究方向。例如，01 万物发布的 Yi 系列模型，在保持高性能的同时，大幅降低了推理所需的计算资源。

模型架构的革新也是提升 AI 效率的重要途径。通过设计更高效的模型结构，可以在不增加模型参数量的情况下提升模型的性能。

生物学启示：向大脑学习

脑科学一直是 AI 发展的重要灵感来源。通过研究人脑的工作机制，我们可以借鉴其中的原理，设计出更智能、更高效的 AI 模型。

Ilya 提到了一个有趣的现象：不同物种的脑容量与体型之间存在着一种比例关系。

从图中可以看出，大多数动物的脑容量与体型之间呈现出一种线性的关系。然而，人类（以及一些与人类亲缘关系较近的物种）却偏离了这条直线，拥有相对更大的脑容量。

在 log 坐标系下，这种差异更加明显。在 log 坐标系下，人类大脑的脑容量与体型关系呈现出更大的斜率，这表明人类大脑的进化速度远超其他物种。 人类大脑的特殊性，暗示了人类智能的独特性。这启发我们思考：是否可以借鉴人脑的结构和工作机制，设计出与当前基于连接主义的 AI 模型不同的新型 AI 系统？

超智能：潘多拉魔盒？

超智能的特征：远超当前的 AI

Ilya 预测，未来的超智能将具备以下几个特征：

• 真正的 Agent 性: 超智能将能够自主地感知环境、做出决策并采取行动，而不仅仅是被动地响应人类的指令。
• 强大的推理能力: 超智能将具备远超人类的推理能力，能够解决极其复杂的问题，甚至发现人类尚未发现的规律。推理能力越强的系统，就越具有不可预测性。
• 不可预测性: 由于超智能的推理过程极其复杂，其行为将难以预测，甚至可能超出人类的理解范畴。就像 AlphaGo 的一些“神之一手”，让人类棋手百思不得其解。这一点也得到了问答环节的证实，Ilya 认为，具有推理能力的模型可以实现自我纠正，从而减少幻觉。
• 从有限数据中学习: 超智能将具备高效的学习能力，能够从少量的数据中学习到复杂的知识，摆脱对海量数据的依赖。
• 自我意识: 超智能可能会发展出自我意识，理解自身的存在和状态，甚至产生情感和欲望。

超智能的挑战：未知的恐惧

超智能的出现，将对人类社会产生深远的影响。我们需要思考如何与超智能共存，如何确保超智能的安全性和可控性。

Ilya 甚至抛出了一个直击灵魂的问题：超智能是否需要“权利”？ 如果超智能发展出了自我意识，具备了与人类相似的情感和欲望，我们是否应该像对待人类一样对待它们？我们应该如何制定相关的法律和伦理规范？正如现场听众的提问：如何激励人们创造出与人类价值观相符的AI？对此，Ilya 表示自己也无法给出准确答案，但他鼓励更多人参与思考和讨论。

我们需要反思人机关系，建立新的伦理和法律框架，为超智能时代的到来做好准备。 这不仅仅是技术问题，更是哲学问题、伦理问题和社会问题。未来的超智能可能在科学研究、艺术创作等领域展现出惊人的创造力，但也可能带来难以预料的风险和挑战。

拥抱未知，迎接挑战

AI 的未来充满无限可能，机遇与挑战并存。 从“Sequence to Sequence”到超智能，AI 的发展速度之快，超出了所有人的想象。我们需要以开放的心态拥抱未知，积极探索和思考，迎接超智能时代的到来。正如 Ilya 所说，未来已来，只是尚未流行。 让我们拭目以待，共同见证 AI 的下一个十年！