转自:AI寒武纪
如涉版权请加编辑微信iwish89联系
哲学园鸣谢
Ilya燃爆NeurIPS 2024 ,最新演讲来了
回顾:十年前的演讲
我们做了什么?
• 构建了一个基于文本训练的自回归模型 • 使用了一个大型神经网络 • 使用了大型数据集
但我认为,这是第一个我们真正相信,如果训练得足够好,就能得到任何想要的结果的自回归神经网络。在当时,我们的目标是(现在看来很平常,但当时非常大胆)机器翻译
可以说是最重要的幻灯片,因为它阐述了规模化假设的开端:如果你有非常大的数据集,并且训练非常大的神经网络,那么成功就是必然的。如果你愿意往好的方面想,可以说,这确实就是之后发生的事情。
如果你相信人工神经元有点像生物神经元,那么你就有信心相信大型神经网络(即使它们不完全像人类大脑那么大)可以被配置来完成我们人类所做的大部分事情。当然还是有差异,因为人类大脑会自我重构,而我们现在最好的学习算法需要大量的数据。人类在这方面仍然更胜一筹。
预训练的终结,但预训练终将结束。为什么?因为虽然算力在不断增长,但数据并没有无限增长,因为我们只有一个互联网。你甚至可以说,数据是人工智能的化石燃料。它被创造出来,我们使用它,并且已经达到了数据峰值,不会有更多的数据了。我们只能处理现有的数据。尽管我们还有很多路要走,但我们只有一个互联网。
生物学启示:不同物种的大脑缩放
关于未来的推测
这些系统将真正具有智能体的性质。而现在,它们在任何有意义的层面上都不是智能体,或者说只有非常微弱的智能体性质。它们会进行真正的推理
一个系统越能进行推理,就变得越不可预测。我们现在使用的模型都是可预测的,因为我们一直在努力复制人类的直觉。我们大脑在一秒钟内的反应,本质上就是直觉。所以我们用一些直觉训练了模型。但推理是不可预测的。原因之一是,好的国际象棋 AI 对人类国际象棋高手来说是不可预测的
问答环节
• 问题: 在 2024 年,是否有其他生物结构在人类认知中发挥作用,您认为值得像您之前那样去探索? • 回答: 如果有人对大脑的运作方式有独特的见解,并且认为我们目前的做法是愚蠢的,他们应该去探索它。我个人没有这样的想法。也许从更高的抽象层面来看,我们可以说,生物学启发的人工智能是非常成功的,因为所有的神经网络都是受生物启发的,尽管其灵感非常有限,比如我们只是使用了神经元。更详细的生物灵感很难找到。但如果有特别的见解,也许可以找到有用的方向。
• 问题: 您提到推理是未来模型的核心方面。我们看到现在模型中存在幻觉。我们使用统计分析来判断模型是否产生幻觉。未来,具有推理能力的模型能否自我纠正,减少幻觉? • 回答: 我认为你描述的情况是极有可能发生的。事实上,有些早期的推理模型可能已经开始具备这种能力了。长期来看,为什么不能呢?这就像微软 Word 中的自动更正功能。当然,这种功能比自动更正要强大得多。但总的来说,答案是肯定的。
• 问题: 如果这些新诞生的智能体需要权利,我们应该如何为人类建立正确的激励机制,以确保它们能像人类一样获得自由? • 回答: 这是一个值得人们思考的问题。但是我不觉得我有能力回答这个问题。因为这涉及到建立某种自上而下的结构,或者政府之类的东西。我不是这方面的专家。也许可以用加密货币之类的东西。如果 AI 只是想与我们共存,并且也想要获得权利,也许这样就挺好。但我认为未来太不可预测了,我不敢轻易评论。但我鼓励大家思考这个问题。
• 问题: 您认为大型语言模型(LLM)是否能够进行多跳推理的跨分布泛化? • 回答: 这个问题假设答案是肯定的或者否定的。但这个问题不应该用“是”或“否”来回答,因为“跨分布泛化”是什么意思?“分布内”又是什么意思?在深度学习之前,人们使用字符串匹配、n-gram 等技术进行机器翻译。当时,“泛化”意味着,是否使用完全不在数据集中的短语?现在,我们的标准已经大幅提高。我们可能会说,一个模型在数学竞赛中取得了高分,但也许它只是记住了互联网论坛上讨论过的相同想法。所以,也许它是在分布内,也许只是记忆。我认为人类的泛化能力要好得多,但现在的模型在某种程度上也能够做到。这是一个更合理的答案