“我们基本上不做大语言模型了,转向人类级别的 AI” | Yann LeCun的思考

文摘   2024-10-16 10:54   美国  

点击⬇️图标关注   抓住你的灵感💡瞬间



目前的人工智能系统不具备人类智能的四个基本特征:推理、规划、持久记忆和理解物理世界。一旦我们拥有了具有这种能力的系统,我们仍然需要一段时间才能使它们达到人类水平。

本文根据Yann LeCun在Hudson Forum 2024主题演讲中的讲话视频(公平发表于10月13日,文末附链接)整理而成,探讨了通往人类级别人工智能的路径和挑战。Yann LeCun是Facebook AI研究院(FAIR,现更名为Fundamental AI Research)的首席AI科学家、纽约大学教授,以及2018年ACM图灵奖的获得者。(更多人知道他,可能是在推特上跟马斯克、OPenAI研究员互怼。)

人类级别AI的必要性

LeCun首先指出,我们需要人类级别的AI。未来,智能眼镜等设备将成为主流,我们将与之对话,它们将承载众多虚拟助手,如同我们每个人的智能化“员工”。这需要AI系统能够理解世界、拥有记忆和直觉、具备常识、能够推理和计划,达到人类水平。然而,目前的AI系统远未达到这些能力。我们需要能够建立世界模型、具备持久记忆、能够规划复杂动作序列、可控且安全的系统。LeCun提出了一种名为“目标驱动AI”的架构,并在FAIR团队致力于实现这一计划。FAIR目前专注于下一代长期AI系统的研究,而非大型语言模型(LLM)。

                         

自监督学习及其局限性

近年来AI的成功,包括LLM,很大程度上依赖于自监督学习。自监督学习的目标并非针对特定任务,而是以良好的方式表示输入。一种方法是通过“重建自损坏”将输入(如文本、DNA序列、图像等)进行破坏(如移除或更改单词),然后训练大型神经网络重建完整的、未损坏的输入。这是一个生成模型,因为它试图重建原始信号。

“这个过程(指重建自损坏)的目标是用红色方框表示的成本函数,它计算输入Y和重建后的Y'之间的距离,学习过程就是最小化这个距离。”

在此过程中,系统学习到输入的内部表示,可用于各种后续任务,例如预测文本中的下一个词,这正是自监督学习在LLM中的应用。LLM是一种特殊情况,其架构设计使得在预测一个词时只能参考之前的词,而不能参考之后的词。这种自回归预测并非新概念,可以追溯到上世纪50年代的香农,但如今我们拥有了能够在海量数据上训练的巨型神经网络架构,从而涌现出一些新的特性。然而,自回归预测存在局限性,缺乏真正意义上的推理能力,并且只适用于离散数据(如符号、词语等)。

                         

通往人类级别AI的挑战

LeCun认为,要达到人类级别的智能,我们还缺少一些关键要素。即使是猫狗也能完成一些对当前AI系统来说非常困难的任务,例如:

“一个十岁的孩子可以很快学会收拾餐桌和装满洗碗机,一个十七岁的孩子可以在大约20小时的练习后学会开车,而我们还没有五级自动驾驶汽车,也没有能够收拾餐桌和装满洗碗机的家用机器人。”

                         

这体现了莫拉维克悖论:对人类来说轻而易举的事情,对机器来说却异常困难。

LeCun分析了数据量的影响。最大的LLM训练数据量级与一个四岁孩子四年内接收的视觉数据量级相当。这表明,仅仅依靠文本训练无法达到人类级别的智能。视觉信息虽然存在冗余,但冗余是自监督学习的必要条件。我们需要训练系统通过观看视频或在现实世界中学习常识和物理直觉。

目标驱动AI架构

LeCun提出的目标驱动AI架构与LLM或前馈神经网络不同,其推理过程并非简单地通过神经网络的各层,而是运行一个优化算法

“前馈过程是指观察输入,例如通过感知系统(可能包含多层神经网络),然后产生输出。每个输入只能对应一个输出。但在很多情况下,一个感知可能对应多个可能的输出或解释。我们希望这个过程不只是计算一个函数,而是计算一个映射,它可能对一个输入产生多个输出。实现这种映射的唯一方法是通过隐式函数,例如右侧红色方框中的目标函数,它衡量输入和建议输出之间的兼容性,然后通过找到与输入最兼容的输出来计算输出。”

                         

它通过最小化目标函数来计算输出,允许单个输入对应多个可能的输出或解释。这种通过优化进行推理的思想在最优控制理论中被称为“模型预测控制”已有60多年的历史。不同之处在于,我们将学习世界模型和感知系统

该架构包含多个组件:世界模型、根据任务配置的成本函数、优化动作序列的执行器、短期记忆和感知系统等。世界模型可以预测动作序列对世界的的影响。推理过程即找到最小化目标函数的动作序列。这种方法的优势在于无需学习即可完成新任务,类似于人类的规划能力。

                         

“这种使用世界模型进行推理的优势在于,你基本上可以在不需要任何学习的情况下完成新的任务。我们一直在这样做,当我们面对一个新的情况时,我们会思考,我们会想象我们行动的后果,然后我们会采取一系列行动来实现我们的目标,无论它是什么。我们不需要学习来完成这项任务,我们可以计划,所以这基本上就是计划。你也可以把大多数形式的推理简化为优化,所以这种通过优化进行推理的过程本质上比仅仅通过神经网络中的几层更强大。”

LeCun还提到了分层规划的重要性,例如,规划一次旅行时,我们不会以低级别的肌肉控制动作来规划整个过程,而是采用分层的方式。然而,如何在AI系统中实现分层规划仍然是一个未解之谜。

什么是世界模型?世界模型是你对世界如何运作的心理模型。所以你可以想象一系列你可能采取的行动,你的世界模型将允许你预测这系列行动对世界的影响会是什么。

世界模型的训练

婴儿学习世界基本概念的方式与自监督学习类似。通过观察和预测视频中的事件,系统可能能够学习常识。然而,通过预测视频像素来学习世界模型的尝试已经失败。原因在于未来具有多种可能性,而我们缺乏有效的方法来表示视频帧的概率分布。

                         

“坏消息是,我们已经尝试了10年,但完全失败了。我们从来没有能够接近任何能够通过预测视频中的像素来真正学习任何关于世界的一般知识的系统。你可以训练一个系统来预测看起来不错的视频,现在有很多视频生成系统的例子,但在内部,它们并不是物理世界的好模型,它们不能用于此。”

LeCun提出了联合嵌入预测架构(JEPA)作为解决方案。JEPA放弃了对像素的预测,转而学习世界抽象表示,并在该表示空间中进行预测。这种方法类似于科学的本质:找到良好的表示以便进行预测。

                         

“如果你仔细想想,这确实是我们在处理智能时所做的:找到事物或现象的良好表示,以便你可以做出预测,这确实是科学的本质。例如,如果你想预测行星的轨迹,行星是一个非常复杂的对象,它非常巨大,它有天气、温度、密度等等,你可以测量行星的各种东西,它是一个非常复杂的对象,但要预测行星的轨迹,你只需要知道六个数字:三个位置和三个速度,仅此而已,你不需要知道其他任何东西。”

LeCun强调了JEPA相对于生成模型和概率模型的优势,并建议放弃对比方法和强化学习。

“所以我要告诉你的事情是:放弃生成模型,转而使用这些JEPA架构;放弃概率模型,转而使用这些基于能量的模型;放弃对比方法(我稍后会谈到),以及强化学习(我已经说了10年了)。这些都是当今机器学习最流行的四大支柱,所以我现在不是很受欢迎。”

训练JEPA

训练JEPA的关键在于防止系统崩溃,例如,通过最大化表示的信息内容或最小化负信息。可以使用多种方法来估计信息内容,例如,通过确保编码器输出变量的非零标准差,以及最小化这些变量的协方差矩阵的非对角项。

“所以一个想法是防止系统崩溃并产生常数,对吧?所以取编码器输出的变量,并确保这些变量具有非零标准差。你可以将其放入一批样本的成本函数中,确保权重使得变量不会崩溃并变成常数,这很容易。现在的问题是系统可以作弊,并使所有变量相等或高度依赖或相关,所以你必须做的是添加另一个术语,表示‘我想最小化这些变量的协方差矩阵的非对角项’,以确保它们不相关。当然,这还不够,因为变量仍然可以依赖,你知道,依赖但
不相关。所以我们使用了另一个技巧,那就是将Sx的维度扩展到一个更高维的空间Vx,然后在该空间中应用这种方差-协方差正则化,这似乎就足够了。”

此外,还有一些蒸馏式方法,例如只更新架构的一半,并且以特定方式共享权重。

                         

“有一种我称之为蒸馏式方法,这种方法以一种神秘的方式起作用。如果你真的想要一个关于它为什么起作用的清晰解释,你应该问坐在那里的S.Gelly,他有一篇关于这个的论文。就我个人而言,我并不完全理解它,但它确实有效。它包括只更新此架构的一半,而不是在另一半上传播梯度,然后以一种有趣的方式共享权重。”

开放的AI生态系统

LeCun认为,如果我们成功地构建了能够推理、规划和理解物理世界的系统,那么这些系统将成为我们与数字世界交互的中介。它们将能够回答我们的问题,成为所有人类知识的存储库,类似于互联网的基础设施。

“这感觉像是一种基础设施,就像互联网一样,对吧?它不像一个产品,更像是一种基础设施。这些AI平台必须是开源的,我不需要说服IBM的任何人,因为IBM和Meta都是一个名为AI联盟的组织的成员,该组织致力于推动开源AI平台。”

LeCun强调,这些AI平台必须开源,以确保AI助手的多样性,使其能够理解世界上的所有语言、文化和价值体系。这需要全世界的贡献,而开源AI模型可以促进AI初创企业的生态系统发展。

                         

通往人类级别AI的展望

LeCun认为,达到人类级别AI可能需要数年甚至数十年,并且比我们想象的更难。这将是一个渐进式的演变过程,而不是一蹴而就。机器最终将超越人类智能,但它们将处于控制之下,因为它们是目标驱动的。

“机器将超越人类的智慧,但它们将处于控制之中,因为它们将是目标驱动的。我们给它们目标,它们就会实现这些目标。就像我们这里的许多人都是行业或学术界或其他领域的领导者一样,我们与比我们聪明的人一起工作,我当然也是如此。有很多与我一起工作的人比我聪明,但这并不意味着他们想要支配或接管,对吧?”

Hudson Forum 2024官方报道

参考:https://youtu.be/4DsCtgtQlZU


编辑精选


【BOS万字专访】AI眼镜要替代手机?别让科技把你玩成傻子!—Meta CTO解惑+祛魅,畅谈AI、AR、脑机接口

从万年灰T恤到多元风格:扎克伯格的“换装”与 Meta AI 进击之路 | 最新 Acquired访谈


以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章,我们,下次再见。



 点击关注转发公众号     保持你对AI优质内容的敏感


AI趋势全天候
以AI之名,探索未知。 🧠观察行业,关照本心,时常好奇,时常喜欢猫。随缘私信交流
 最新文章