👇关注公众号后设🌟标,掌握第一手AI新动态
本文访谈内容整理自AI教父杨立昆接受Nikhil Kamath Youtube频道专访,公开发表于2024年11月27日。原始内容参考:https://www.youtube.com/watch?v=JAgHUDhaTU0
杨立昆接受Nikhil Kamath专访
★内容导读:
本文围绕着Yann LeCun对人工智能的理解、发展历程、未来趋势以及对印度年轻人的建议展开。主要观点如下:
人工智能并非单一概念,而是对智能的多种方面的探索。 LeCun用“盲人摸象”比喻人工智能的发展历程,早期分别侧重于逻辑推理(GOFAI)、学习能力(神经网络)两个方面,忽略了感知等其他方面。 机器学习是AI的重要方法,深度学习是其核心。 深度学习通过多层神经网络和反向传播算法,克服了早期神经网络的局限性,在图像识别、语音识别等领域取得了突破。 神经网络的架构不断演进。 从感知器到卷积神经网络(CNN),再到Transformer,架构的改进提升了处理不同类型数据(图像、音频、文本)的能力。CNN擅长处理具有局部结构的数据,Transformer擅长处理序列数据,其中顺序相对不重要。 自监督学习是当前AI的关键进展。 它通过让模型预测输入数据的一部分(如文本中的缺失单词或图像的损坏部分)来学习数据内在结构,避免了对大量人工标注数据的依赖,是大型语言模型成功的关键。 大型语言模型(LLM)的局限性在于其对离散数据的依赖和缺乏对物理世界的理解。 LLM擅长处理文本,但难以处理连续的高维数据(如视频),且缺乏常识和对物理世界的理解能力,远不如家猫聪明。 人工智能的未来在于构建能够理解物理世界并拥有持久记忆的系统。 LeCun提出了联合嵌入预测架构(JEPA)作为一种新的学习框架,能够从视频中学习并进行预测。 这将实现目标驱动的AI(System 2),而非仅仅是反应式的AI(System 1)。关于人工智能的未来和建议: 开源平台将主导未来AI发展。 类似于Linux操作系统,开源AI平台将因其可移植性、灵活性和低成本而占据主导地位。 人工智能将改变人类的智力方向。 人类将不再需要专注于重复性的任务,而是将更多精力投入到更抽象的思考、决策和创造性工作中。 对印度年轻人的建议: 鼓励年轻人攻读博士学位或硕士学位,深入学习人工智能技术,并专注于特定垂直领域(如法律、金融、医疗、教育)的应用开发。
杨立昆简介
杨立昆(Yann LeCun)是深度学习领域的三位奠基人之一,与杰弗里·辛顿和约书亚·本吉奥共同获得了2018年图灵奖。他被誉为卷积神经网络(CNN)之父,其开创性的工作对现代人工智能的进步做出了巨大贡献。
杨立昆的研究主要集中在机器学习、计算机视觉和人工智能等领域。他最知名的贡献是开发了卷积神经网络,这是一种能够高效处理图像数据的深度学习模型。这种网络架构启发了如今广泛应用于图像识别、目标检测、自然语言处理等领域的众多算法。 例如,他设计的LeNet-5卷积神经网络是第一个成功应用于手写数字识别的深度学习模型,为之后深度学习的发展奠定了基础。
除了卷积神经网络,杨立昆还在其他领域做出了重要贡献,包括自主学习、强化学习以及稀疏编码等。目前,他是纽约大学的教授,同时也是Meta首席人工智能科学家。他致力于推动人工智能技术的发展,并积极关注人工智能的伦理和社会影响。 杨立昆对未来人工智能方向的思考和展望,也持续影响着全球人工智能研究的发展方向。
访谈完整记录
主持人: 你好,Yann。早上好。我们首先想多了解你一些。你是如何走到今天的?你能告诉我们一些关于你的出生、成长以及到今天的经历吗?
杨立昆: 我在巴黎郊区长大。我父亲是一位工程师,我几乎从他那里学到了所有东西。从小我就对科学和技术很感兴趣。我一直认为自己将来可能会成为一名工程师。我当时不知道科学家是怎么培养出来的,但后来我对这个领域产生了兴趣。
主持人: 工程师和科学家有什么区别?
杨立昆: 这很难定义,很多时候你需要兼具两者的一些特质。但是,科学家试图理解世界,而工程师试图创造新事物。通常,如果你想理解世界,你需要创造新事物。科学的进步与技术的进步密切相关,技术进步使我们能够收集数据。
你知道,望远镜的发明使得人们发现了行星,向我们展示了行星围绕太阳旋转等等,对吧?显微镜为各种各样的发现打开了大门。因此,技术促进了科学发展,而长期以来一直困扰我的问题是发现和揭开智力的奥秘。
作为一个工程师,我认为做到这一点的唯一方法是制造一台智能机器。这既有从理论层面理解智力的科学方面,也有更实际的方面。当然,建造智能机器的后果对人类来说可能非常重要。
主持人: 你在巴黎上的学,学的是什么专业?
杨立昆: 我学习的是电气工程,但在学习过程中,我越来越对数学、物理和人工智能中更基本的问题感兴趣。我没有学习计算机科学。当然,当你学习电气工程时,总会有电脑参与其中,即使是在20世纪80年代和70年代末,我开始学习的时候也是如此。但我与数学教授一起做了一些关于人工智能问题的独立项目,并且真正迷上了研究。我最喜欢的活动是创造新事物,发明新事物,然后以一种新的方式理解新事物。
主持人: 当有人称你为“人工智能教父”时,你感觉如何?你怎么看待这个称号?
杨立昆: 我不太喜欢这个说法。你知道,我住在新泽西州。在新泽西州,“教父”意味着你属于黑手党。
我的意思是,科学从来都不是一种个人的追求。你通过多种人的思想碰撞来取得进步。你会提出假设,然后你试图通过论证你的想法——你对应该如何运作的心智模型——是正确的,通过证明它是有效的或进行一些理论研究来证明你的假设是正确的。
这并不是一项孤立的活动。所以总是有很多人为进步做出了贡献。但是由于世界运作方式的性质,我们只记得少数人。我认为很多功劳应该归于更多的人。只是我们记不住要把功劳归于很多人。
主持人: 那么,Yann,今天当老师是什么感觉?你在纽约大学的时候,你是纽约大学的名人吗?
杨立昆: 这么说吧,在过去的几年里,学生们会在课后来找我,想和我自拍。是的。所以有点像这样。我认为如果你和某人同在一个房间里,让课堂互动起来很重要,否则你就可以去看视频了。这就是我努力做的,真正地与学生们互动。
主持人: 你认为在学术界、研究领域成为英雄,与在体育界或创业领域成为英雄相比,哪个更难?
杨立昆: 好吧,有一件事我很高兴。那就是科学领域可以有英雄,你知道的……
主持人: 有人可能会说牛顿和爱因斯坦以及所有这些人都是英雄。
杨立昆: 嗯,牛顿并不是一个真正的公众人物,我认为。爱因斯坦是。但是爱因斯坦当然是,是的。在某种程度上,其他一些科学家也都是小有名气的。所以,我的意思是,我认为其中一些来自科学成果。
但坦率地说,还有很多人做出了完全不为人知的科学贡献,这让我有点难过。我认为许多在科学和技术领域成名的人,不仅仅是因为他们做出的科学贡献,还因为他们的公众立场。
也许让我与其他较为低调的科学家有所不同的一点是,我在社交网络上非常活跃。我做公开演讲,对技术问题以及在某种程度上对政策问题都有强烈的意见。所以我认为这会放大一点受欢迎程度或不受欢迎程度。
在某些圈子里,我被认为是个十足的傻瓜。
主持人: 我在过去的两周,实际上是过去的一个月里看了你很多采访。如果让你从Yann的角度陈述三个世界性问题,你会选择哪些?
杨立昆: 作为一个科学家,你会尝试建立世界的因果模型,对吧?我们看到了影响,问题是,是什么导致了这些影响?我们遇到的几乎所有问题都可以追溯到人类知识或智力的匮乏。我们之所以犯错,是因为我们不够聪明,无法意识到我们有一个问题,并且因为我们不够聪明,无法找到解决方案。此外,我们常常缺乏将这些解决方案付诸实施所需的组织能力。
例如,气候变化就是一个巨大的问题。它伴随有政治挑战,包括如何组织政府和全球努力的问题。然而,也有一些技术解决方案可以帮助解决气候变化问题。我真的很希望我们更聪明一些,以便能够更快地找到并实施解决方案。
主持人: 所以你是说人类不知道我们为什么这样做,这就是问题所在?
杨立昆: 不,我认为我们犯的错误是因为如果我们聪明一点,如果我们对世界运作方式有更好的心智模型——这也是人工智能中的一个核心问题——我认为我们可以更好地解决我们的问题。我们会做出更理性的决定。
我今天在世界上看到的最大问题是,人们对寻找事实不感兴趣,也不感兴趣自我教育。或者也许他们感兴趣,但他们没有办法做到这一点。他们无法获得信息和知识。
所以我认为我们能做的最好的事情,也许这就是我成为教授的原因,就是让人们更聪明。在某种程度上,这也是从事人工智能研究的最佳理由,因为人工智能将增强人类的智能——如果你愿意的话,就是增强整个人类的整体智能。
所以我认为这是解决我们面临的许多问题的关键。
主持人: 首先声明一下,我对人工智能和科技方面一窍不通。虽然最近我尝试学习了一些,也对此充满好奇,但我的知识储备仍然不足。今天观看直播的很多人都是来自印度的准企业家。我们很多人听说过
关于人工智能的各种猜测,也了解到一些极端案例,包括正面和负面两种情况。我想我们可以利用今天的时间,共同探讨以下三个问题:首先,什么是人工智能?其次,人工智能是如何发展到今天的?最后,人工智能的未来发展方向是什么?我们不妨从“什么是人工智能”开始。
杨立昆: 好的,这是一个很好的问题。甚至,什么是智能本身呢?我认为,在人工智能的历史上,“什么是人工智能”这个问题有点像盲人摸象的故事——智能有很多不同的方面。在人工智能发展的历史上,人们关注智能的某一方面,却基本上忽略了其他所有方面。
在20世纪50年代,人们关注的智能的一个早期方面是推理。我们如何进行逻辑推理?我们如何寻找新问题的解决方案?在50年代,人们发现,例如,我们有一个现在已经成为人工智能或计算机科学入门问题的问题。假设我给你一堆城市,并要求你确定遍历每个城市的最佳路径。这就是所谓的旅行商问题。
他们认为,每一个推理问题都可以用寻找解决方案来表达。存在一个可能的解决方案空间,并且有一些东西可以告诉你是否找到了一个好的解决方案——例如一个数字,表示路径的长度。你只需要搜索最短路径即可。在某种程度上,你可以将每一个推理问题简化为这种类型的问题。在数学中,我们称之为优化。你有一个问题,你可以用一个数字来评估你的问题是否得到解决,如果你的路径长度较短,则表示较低,如果较长,则表示较高。然后,你搜索一个最小化该值的解决方案。
主持人: 所以它是寻找与智能相关的解决方案。如果你问我什么是智能,我将难以用一句话来定义它。
杨立昆: 是的。我的意思是,这又回到了盲人摸象的比喻。你能解释一下盲人摸象的比喻吗?你知道的,盲人和大象,对吧?所以第一个走到大象旁边的盲人说,这看起来像一堵墙,然后另一个摸到腿,这看起来像一棵树。另一个摸到象鼻,那是一根管子。没有人对大象是什么有完整的了解,对吧?你从不同的角度看待它。
因此,将智能视为寻找特定问题解决方案的这一方面只是大象的一小部分。它是智能的一个方面,但并非全部。在50年代,人工智能的一个分支基本上只关注这一点。这个分支在20世纪90年代之前一直占据主导地位。这种人工智能包括搜索解决方案和计划。如果你想把一堆物体堆叠在一起,而有些物体比其他的物体更大,你必须安排堆叠物体的顺序。你搜索一系列动作以达到目标;这叫做规划。
或者,假设你有一个机器人手臂,你需要抓住一个物体,但前面有障碍物。你必须为手臂规划一条轨迹来抓住物体。所以所有这些都是规划,这是寻找问题解决方案的一部分。然而,这部分人工智能,同样始于50年代,并在90年代之前占据主导地位,完全忽略了感知方面。它没有解决我们如何理解世界,如何识别物体,或者如何将物体与其背景分离以便我们能够识别它。
此外,它忽略了我们思考的方式,不是从逻辑或类似的角度,而是从更抽象的角度。所以这基本上被忽略了。但是人工智能的另一个分支,同样始于50年代,它说,好吧,让我们尝试重现我们在动物和人类身上看到的智能机制。动物和人类都有大脑。大脑基本上是自我组织的。它们会学习,对吧?它们并非天生就聪明。
智能是大量非常简单的元素网络的一种涌现现象,这些元素彼此连接。所以在50年代、40年代,人们开始发现,智能和记忆来自于神经元之间连接强度的一种简化方式。大脑学习的方式是通过改变神经元之间连接的强度。所以一些人提出了某种理论模型,实际上是重现了这一点的电子电路。
主持人: 你知道,我们可以开展一项全球性的合作吗?你说智能在很大程度上是解决特定问题的能力。
杨立昆: 所以这是第一种观点,对吧,解决给定的特定问题。第二种是学习的能力。对吧?好?这就产生了人工智能的这两个分支。对。所以从学习能力开始的那个,在50年代后期、60年代初期取得了一些成功,并在60年代后期衰落了。因为人们在60年代为那些神经网络设计的学习程序被证明是极其有限的。你无法用它来制造真正智能的机器。但它对工程的各个领域产生了很大的影响。一个叫做模式识别的工程领域。
主持人: 所以你现在的意思是,智能也是系统学习的能力?
杨立昆: 而你需要机器学习的最简单的情况是感知,解释图像,解释声音,
主持人: 那么计算机是如何做到这一点的呢?
杨立昆: 所以,这基本上导致了我们可以称之为经典计算机科学的出现。你编写一个程序,该程序内部搜索解决方案,并具有一些方法来检查它提出的解决方案是否良好。人们在60年代为此命名。他们称之为启发式编程,因为你永远不可能穷尽搜索所有解决方案以找到一个好的解决方案。
你无法穷尽搜索所有解决方案的原因是解决方案的数量非常庞大。例如,在国际象棋中,你可以走一定数量的步数,但是对于你走的每一步,你的对手都可以做出一定数量的回应。对于每一个回应,你可以走一定数量的步数。
这导致了可能轨迹或移动序列数量的指数爆炸。因此,你不可能探索所有这些直到游戏结束才能确定第一步要走哪一步。因此,你必须使用启发式方法来避免搜索整个可能性图或树。
主持人: 所以我们会展示一张图来解释这一点,但你在说启发式人工智能中,你会有一个用户输入。会有一堆规则,你会使用树搜索或专家人工智能,它将运行一个函数,例如如果这样,那么那样,如果不是,那么这样,以尝试达到最终状态。
杨立昆: 是的,所以有些系统会事先被定义好,程序完全由人工编写。好系统和坏系统的区别在于,系统在寻找良好解决方案时,能否在不进行穷举搜索的情况下展现出更高的智能。好的,这就是启发式方法的部分内容。
另一种略有不同的方法是基于逻辑的方法,对吧?你拥有规则和事实。从现有的事实和规则(这些规则可以是逻辑公式等等)中,你可以推导出哪些其他的事实?这在20世纪80年代非常盛行,并催生了人工智能领域的一个分支,称为专家系统或基于规则的系统。在某种程度上,它与搜索的概念密切相关。
然后,与之并行的是自下而上的方法。让我们尝试在某种程度上复制并从生物智能的基本机制中获得灵感。这涉及到允许机器学习并基本上自我组织。
主持人: 你将如何做到这一点?
杨立昆: 这基于神经科学家对大脑运作机制的理解,即大脑中的学习机制是通过修改神经元之间连接的强度来实现的。人们设想这种类型的学习实际上可以在机器中复制。
首先,人们认为神经元是简单的计算单元。早在20世纪40年代,麦卡洛克、皮茨等数学家就提出了类似的想法。在50年代和60年代初,人们提出了一种非常简单的算法来改变神经元之间连接的强度,以便它们能够学习一项任务。
第一台这种类型的机器被称为感知器,于1957年提出。这是一个非常简单的概念,易于理解。假设你想训练一个系统来识别简单的形状或图像。对于计算机或人工系统来说,图像是什么?它是一个数字数组。我们今天理解这一点,因为我们熟悉数码相机和像素,对吧?所以让我们以黑白相机为例,考虑一个像素。
如果像素是黑色的,它是0。如果它是白色的,它是1。好的?所以它只能取两个值,黑色或白色。如果你想用20世纪50年代的技术来构建它,你会放置一个光电传感器(光电池)阵列,前面有一个镜头,然后你会显示一个图像,分辨率非常低,也许是20×20像素或更低。所以现在这给了你一个可以输入到计算机的数字数组。
但在20世纪50年代,计算机极其昂贵,所以他们实际上构建了电子电路。因此,像素是来自光电传感器的电压。然后,你想训练一个系统来识别简单的形状。让我们假设区分在这个阵列上绘制的C形和D形。
所以你展示一个C形的例子,然后让系统产生输出。这个输出也将是一个电压。输出的计算方式是输入像素值(1或0)的加权和。权重是与模拟神经元的连接,这只是一个计算1或0的电子电路,我会将这个1或0乘以一个权重(就像一个可以改变其值的电阻)。
然后,所有像素及其权重将被加起来。如果加权和大于阈值,则为C。如果小于阈值,则为D。
主持人: 这是哪个年代?你刚才说是哪一年?
杨立昆: 1957年。那么现在如何训练它呢?训练包括改变这些权重的值。你可以有正权重或负权重。你所做的是展示一个C,系统计算加权和。对于C,你希望加权和很大,例如大于0。但假设它小于0,所以系统犯了一个错误。所以你告诉它,不,它应该更大。你基本上按下按钮,并告诉它,我真的很希望输出更大。因此,系统所做的是改变所有得到1的权重,稍微增加它们。如果你增加了所有得到1的权重,加权和就会增加,对吧?如果你继续这样做,每次只稍微改变一下权重,最终加权和将会超过0,然后系统就会将其识别为0。
主持人: 在50年代和60年代,我们用它来做什么?
杨立昆: 除了识别简单的形状外,没有什么真正非常实用的应用。你重复展示C和D,对于C,你说增加加权和,对于D,你说减少加权和,所以减少具有1的权重,增加具有0的权重。然后系统最终会确定权重的配置,这样当你显示C时,它高于阈值,当你显示D时,它低于阈值,因此它可以区分两者。它将做什么,你知道的,赋予只出现在C中的像素正权重,赋予只出现在D中的像素负权重,这将对两者进行区分。
主持人: 所以在50年代,我们有启发式AI、专家AI,以及试图模仿生物学的AI。
杨立昆: 是的,从50年代开始。然后基本上出现了两个不同的分支,互相竞争。人工智能早期的一位杰出人物,先驱人物是马文·明斯基。他是麻省理工学院的教授。
主持人: 我记得读到过关于他的事,有一个明斯基条款或辩论之类的,对吧?
杨立昆: 嗯,他对事情有相当强烈的意见,所以有很多讨论。他很有趣,因为他从50年代开始他的博士学位研究是试图构建神经网络,然后完全改变了他的想法,基本上成为另一种方法——更基于逻辑和搜索的方法——的坚定支持者。在60年代后期或60年代中期,他与麻省理工学院的数学家西摩尔·派普特合著了一本书,书名是《感知器》。整本书都是关于感知器的理论,并论证了感知器的能力是有限的。当时从事神经网络研究的人继续进行神经网络的研究,但他们改变了他们所做工作的名称。他们称之为统计模式识别,听起来更严肃,或者自适应滤波理论,也听起来很严肃。这些都有巨大的应用。
主持人: 在现实世界中。在我的世界里,我一直都在金融行业工作,对冲基金和基金经理总是试图将大量数据输入神经网络以识别模式。对。这是我们正在讨论的相同内容吗,从50年代开始的演变?
杨立昆: 是的,绝对是这样。我的意思是,我描述的改变系数的过程,向上或向下以获得你想要的输出,你可以将其视为一个迭代过程,与线性回归非常相似,如果你在金融领域工作,你可能知道这一点。
主持人: 但是我意识到,Yann,即使在今天,也很容易修改你追溯收集的数据,使其看起来有意义。但金融活动往往是如此随机,我不知道你是否可以基于此构建模型。
杨立昆: 对,所以这涉及到一个更大的问题。当你这样训练一个系统时,对吧?通用的原理,称为监督学习,就是你给系统一个输入,它产生一个输出。如果输出不是你想要的,你就调整系数,使输出更接近你想要的。
有一些有效的方法可以找出如何调整参数,使输出更接近你想要的。如果你对成百上千、数百万、数十亿个例子重复这样做,最终,如果系统足够强大,它就能弄清楚。
现在,感知器的的问题在于,感知器可以访问的输入-输出函数类型非常有限。因此,你无法采用自然图像,比如照片,并训练系统来告诉你其中是否有狗、猫或桌子。
系统既无法做到这一点,也没有足够的强大能力来真正计算这种复杂的函数。这就是神经网络和深度学习在20世纪80年代所改变的。
主持人: 在你开始讲解神经网络之前,如果我想完整地描绘这幅图景,你会说人工智能位于顶层,机器学习位于其下,而神经网络是机器学习的一部分吗?
杨立昆: 是的,就领域和子领域而言,AI更像是一个问题,而不是一个解决方案。它是一个研究领域。然后你可以使用不同的技术来解决它,对吧?所以有一些东西开玩笑地被称为“老式人工智能”(GOFAI),它使用逻辑、搜索和启发式编程等等,这正是在标准人工智能教科书中会找到的内容。然后是机器学习。所以这里的想法是你不会完全编程一台机器去做某事。你从数据中训练它。这意味着你需要数据。
★“老式人工智能”(GOFAI),全称是 Good Old-Fashioned AI,指的是在上世纪 50 年代到 80 年代之间占据主导地位的人工智能方法。它主要基于符号主义和逻辑推理,试图通过构建明确的规则和知识库来模拟人类智能。
GOFAI 的主要特点包括:
符号表示: 使用符号来表示知识和概念,例如用 "猫" 表示猫这种动物。 逻辑推理: 使用逻辑规则进行推理,例如“所有猫都是动物,咪咪是一只猫,因此咪咪是动物”。 知识库: 将知识存储在一个明确定义的知识库中,以便系统可以访问和使用这些知识。 专家系统: GOFAI 的一个主要应用是专家系统,它能够模拟人类专家的决策过程,例如医疗诊断系统。 清晰的规则: GOFAI 系统通常依赖于清晰、明确和易于理解的规则。
在这个领域中,有一个子类别叫做深度学习。这就是为什么我们在过去十几年里听到如此多关于人工智能的原因,因为深度学习。而神经网络实际上是深度学习的祖先。深度学习,如果你愿意的话,可以看作是它的一个新名称。然后是应用领域。在其之下。在其之下。它们可以使用这些技术的组合,对吧?所以大型应用包括计算机视觉、图像解释、语音识别、自然语言理解,也许语音合成也可以看作是其中一部分,尽管它与信号处理联系更紧密。然后,你知道,各种其他应用,比如在时间序列预测或金融建模等方面,都可以看作是这方面的一部分。
主持人: 那么,如果必须的话,我把它分解一下。AI之下有GOFAI,正如你解释的那样,它是传统性质的,然后是机器学习。你能用一句话简单地定义GOFAI吗?
杨立昆: 所以GOFAI是我之前描述的搜索解决方案的继承者,对吧?这个想法是它都是关于推理的。推理完全是关于搜索,寻找问题的解决方案,并有一种方法来描述你是否……
主持人: 你是说基于规则的东西,基于适用的规则的输入和输出,像那样?
杨立昆: 是的,我的意思是,任何基于规则的系统,任何使用逻辑推理、从规则和先前事实推断事实、搜索解决方案(比如在图中找到最短路径)的东西,都属于老式人工智能。
主持人: 在机器学习下,有哪些不同类型的ML?
杨立昆: 所以有所谓的传统机器学习。我不确定这是否值得这个术语。这基本上源于统计估计。所以像线性回归就是其中一部分。然后还有一些更复杂的方法,提升分类树、支持向量机、核方法。我的意思是,有很多这种类型的贝叶斯推理方法是机器学习的一部分,因为它们遵循这种模型:你构建一个程序,但是程序实际上没有完成。它有一堆可调参数,输入-输出函数由这些参数的值决定。因此,你使用我之前描述的迭代调整技术从数据中训练系统,展示示例。如果答案不正确,则调整参数,使其更接近你想要的答案。
主持人: 所以机器学习在某种程度上是监督学习的
杨立昆: 这就是监督学习,好吗?你告诉系统这是一个输出,这是期望的输出。但是还有其他形式的学习。一种不同的形式是强化学习。在强化学习中,你不会告诉系统正确的答案,你只会告诉它它产生的答案是好是坏。你给它一个数字,告诉它你的答案是好还是坏。
主持人: 接下来会发生什么?假设我是一个强化学习引擎,你告诉我一个答案是好是坏。我接下来该做什么?
杨立昆: 如果你的答案很好,你就不会做太多事情。如果你的答案很糟糕,那么你必须找出所有可能的答案中,哪个答案会更好。所以也许你尝试另一个答案,然后你说,这个怎么样?它更好还是更坏?如果环境告诉你它更好,那么你就会稍微弱化第一个答案,并通过调整神经网络内部的参数或其他一些学习机器来强调这个答案。那么什么是自监督学习呢?好的,自监督学习在过去五六年中变得非常突出,并且确实是像聊天机器人和自然语言理解系统成功的主要组成部分或主要贡献。
主持人: 它们不属于强化学习。
杨立昆: 不,它更类似于监督学习,但不同之处在于,它没有明确的输入和输出,以及训练系统从输入中产生输出,你基本上只有可以作为输入或输出的东西。让我举个例子。你取一段文字,并以某种方式破坏这段文字,例如删除一些单词,对吧?
所以现在你有一段部分被掩盖的文本,其中一些单词缺失。你训练一台机器来预测缺失的单词。你会为此使用监督学习技术,因为你告诉系统,这是你应该在该位置预测的正确单词。系统可以使用它能看到的所有单词来预测它看不到的单词。
这是一个监督学习的例子?自监督学习。它是自监督的,因为输入和输出之间没有区别。这实际上是同一回事。
如果输入例如是一张图像,你训练自监督学习系统的方法是,你会以某种方式破坏或转换图像。然后你将训练系统从其损坏或转换的版本中恢复原始图像。
所以没有监督。你不需要有人浏览数百万张图像并将它们标记为猫、狗、桌子或椅子。这是一项通过能够填补空白来理解输入、输入内部结构的任务。
主持人: 对不起,可能要问一个非常愚蠢的问题。我正努力想象一下。假设我有X数量的数据,有10行文字,例如“猫是黑色的,狗是白色的”,等等,一共10行。我删除其中一部分,然后让模型填补它。是的,你是说在那时,我也要告诉模型答案,说这应该是答案吗?
杨立昆: 是的,你告诉它:“这是我删除的答案。你能预测这个缺失的部分吗?”
主持人: 你能得到我删除的答案,而我告诉你这就是答案吗?
杨立昆: 没错。但是你只能使用你能看到的东西。所以在输入中你看不到答案;你必须预测它。但在训练过程中,我会告诉你答案是什么。因此,系统可以以监督的方式调整其参数。区别不在于算法本身;它基本上是监督学习,但区别在于系统的结构以及数据的使用和生成方式。
你不需要有人去浏览数百万张图像,并告诉你桌子上的是猫还是狗。你只需展示一张狗、猫或桌子的图片,然后通过部分更改、改变颜色或进行其他修改来损坏它。然后你要求系统从损坏的图像中恢复原始图像。这就是一种特殊的自监督学习形式。
这种方法在自然语言理解方面取得了令人难以置信的成功。例如,聊天机器人或大型语言模型 (LLM) 就是这种情况的特例,你训练系统预测一个单词。但是,你只允许它查看其之前的单词,也就是它左边的单词。这需要以特定的方式构建神经网络,以便预测一个单词的连接只考虑其之前的单词。
在这个框架中,你不需要破坏输入。你只需显示一个输入,通过系统的结构,模型就可以根据之前的上下文来预测下一个单词。
主持人: 这些都是神经网络的例子吗?
杨立昆: 这些都是连接神经网络神经元(模拟神经元,对吧?)的特定方式,或者计算非常简单的数学函数(例如加权和)的简单元素,其中可调整的是权重。对于目前非常流行的Transformer架构来说,它基本上包括将每个输入与其他输入进行比较并生成权重。我可以解释一下,这有点复杂,但什么是Transformer层呢?
你可以用几种架构组件来构建神经网络。让我从一个非常简单的想法开始。假设你想要构建一个能够识别图像的神经网络。图像是一组数字,表示每个像素的亮度。你可以构建一个只有一层的神经网络。假设你想要区分十个类别:猫、狗、桌子、椅子和汽车,或者更简单一些,比如识别从零到九的十个数字。有人在16x16像素的区域内绘制一个数字,所以你有256个输入和10个输出。
你可以使用所谓的单层神经网络,其中每个输出都是像素的加权和。你尝试训练这些权重,以便当你显示一个零时,零的输出是最活跃的,而其他输出则不那么活跃,这适用于所有类别。这可能适用于像打印数字这样简单的形状,但它不适用于手写体,因为字符存在很大的差异;你不能将分类简化为简单的加权和。
20世纪80年代取得的突破是堆叠多层神经元。每个神经元计算一个加权和,然后将这个加权和通过一个本质上的阈值函数。如果加权和低于阈值,则神经元保持非活动状态,产生零输出。如果高于阈值,则变得活跃。有多种方法可以实现这一点,但非线性非常重要。
通过堆叠两层,中间层可以被认为是检测输入中的基本图案,而第二层则整合这些图案来确定,例如,给定的形状是“C”,因为它有两个端点。系统通过一种称为反向传播的算法端到端地学习这样做。反向传播算法所做的是,当你显示“C”的图像并指示系统激活该输出神经元而不激活其他神经元时,调整参数。
该算法反向传播信号以确定每个输出对每个权重的敏感性,从而允许以这样一种方式改变权重:好的输出增加,坏的输出减少。反向传播算法出现在20世纪80年代。从概念上讲,它在此之前就存在了,但人们并没有意识到它可以用于机器学习。这导致从80年代中期开始对神经网络的兴趣激增,持续了大约10到15年,因为人们试图利用多层网络的思想。
这至关重要,因为它消除了明斯基和帕珀特在20世纪60年代关于感知器的某些限制。然而,人们很快意识到训练这些神经网络需要大量数据,而互联网之前数据稀缺,高速计算机也不普及。结果,人们对神经网络的兴趣有所减弱。
尽管如此,我在80年代后期和90年代初期从事的一个领域涉及设计一个系统,该系统可以通过连接神经元来识别图像,从而使系统能够“关注”局部图案。我从生物学和20世纪60年代的神经科学经典著作中汲取灵感,将神经元组织成各层,这些层偏向于寻找图像识别的良好解决方案。这项创新导致了卷积神经网络(或卷积网络)的开发。
主持人: 所以回到刚才那个问题,你将机器学习分解了。对不起,我一直在回顾。好的。或者我会感到困惑。是的。所以在机器学习下,目前非常流行的途径,比如自监督学习,它催生了ChatGPT和其他许多东西。强化学习领域正在发生什么?
杨立昆: 现在没那么多进展了。大约十年前,人们对强化学习的兴趣曾一度高涨。像DeepMind这样的公司认为强化学习将成为构建真正智能机器的关键因素。
主持人: 你能再次用一句话定义强化学习吗?
杨立昆: 强化学习是一种情况,你不会告诉系统正确的答案是什么。你只是告诉它它产生的答案是好是坏。对。好的。所以有很多可能的答案。它非常低效,因为系统必须尝试很多东西才能得到正确的答案。所以它非常低效。它需要大量的试验。所以它非常适合游戏。它非常有效。如果你想训练一个系统来下国际象棋、围棋或类似的东西,比如扑克,强化学习就非常棒。因为你可以让系统与自身或自身的副本进行数百万场游戏。它可以调整,你知道,它赢或输了一局游戏,所以它知道哪个策略,哪个神经网络的变体赢得了比赛,并强化它,并弱化输掉比赛的那个。因此,系统基本上可以自我训练。
主持人: 你刚才说转换器是什么?
杨立昆: 好的,我从卷积神经网络的角度来解释。这是一种将模拟神经元相互连接的特定方式,使其偏向于对某些类型的数据执行良好的工作。卷积网络非常擅长处理来自自然界的数据,无论是图像还是音频信号,这些数据都是出现在图像或音频信号中数字数组中相邻值的。相邻值通常彼此非常相似。
例如,如果你拍摄一张照片,任何自然图像,并且你取两个相邻像素,它们很可能具有相同的颜色或相同的强度。我说的是这样一个事实:自然数据,如图像和音频,几乎任何自然信号,都具有一定的底层结构。如果你以特定方式构建一个神经网络,可以利用这种结构,它将学习得更快,并且需要的样本更少。
我们从80年代后期开始对此进行实验,并构建了这些卷积网络。它们实际上受到了视觉皮层结构的启发,并且有一些数学上的理由。基本思想是,卷积网络中的每个神经元只查看图像的一小部分区域。多个神经元查看图像的多个区域,并且它们都做同样的事情;它们都具有相同的权重。
这是一个与称为卷积的数学概念相关的基本概念,这就是为什么这些东西被称为卷积网络。这就是所谓的架构组件。一个模块,一个卷积,具有一个有趣的特性:如果你向它显示一个输入,它将产生一个特定的输出。如果你移动输入,输出将被移动,但其他方面保持不变。对于音频信号、图像和各种其他自然信号,这是一个非常有趣的特性。
现在,转换器是一种不同的神经元排列方式,你可以将其理解为,输入是许多不同的项目。我们称它们为标记;它们实际上是向量,这意味着数字列表。转换器层或块的特性是,如果你置换输入,输出将被类似地置换,但其他方面保持不变。
主持人: 你说“其他方面保持不变”,是什么意思?
杨立昆: 我的意思是,如果你给出一堆标记,运行转换器,你将得到一堆输出标记,通常与输入标记的数量相同。会有不同的向量。如果你现在取输入标记序列的前半部分和后半部分并将它们翻转,你将得到与之前相同的结果,但它将以完全相同的方式翻转。
好的,所以输入-输出函数在技术上我们称之为对置换等变的。它基本上将输入视为一个集合,其中对象的顺序无关紧要。
卷积网络,另一方面,将输入视为一个对象可以出现在输入任何位置的东西,它不应该对输出产生任何影响。或者输出应该改变,但除此之外,它应该移动,但除此之外保持不变。这就是对平移的等变性。
现在,当你构建一个神经网络时,你基本上会组合这种类型的组件,以便从整个神经网络中获得你想要的特性。
主持人: 什么是卷积?对不起,我每次都要请你简化一下。
杨立昆: 哦,当然。卷积是卷积神经网络的一个组件。它的想法是,你有一个神经元查看输入的一部分,然后你还有另一个神经元查看输入的另一部分,但它计算的函数与第一个神经元相同。然后你将相同的神经元复制到输入的每个位置,这样你就可以将这些神经元中的每一个视为检测输入一部分上的特定主题,所有神经元都在输入的不同部分检测相同的主题。这样,如果你取一个输入并将其移动,你将得到相同移动的输出,因为你将有相同的神经元在不同位置检测相同的主题。这就是赋予你这种平移等变性的原因。这就是卷积。在数学上,有一种叫做卷积的东西,数学家很久以前就发明了,这基本上就是它所做的。
主持人: 当你提到所有这些中的“神经元”时,你能解释一下这个术语的基础吗?它是什么?
杨立昆: 我们使用这个术语,这是一种语言滥用,因为这些神经元并不真正像大脑中的神经元。它们与真实神经元的相似性就像飞机机翼与鸟类翅膀的相似性。所以它具有相同的概念。神经网络中的神经元所做的是计算其输入的加权和,然后将该加权和与阈值进行比较,如果高于阈值则激活输出,如果低于阈值则产生零。这就是基本的神经元。现在也有各种变化。在转换器中,它是一种稍微不同的数学方法。你是在将向量相互比较等等。但这基本上是神经元的核心功能。它是一个线性运算的组合,其中你有一些系数,可以通过训练来改变它们的值。然后是一个非线性函数,一个阈值或类似的东西,它检测某些东西或不检测某些东西。
主持人: 好的。我们在网上查找资料时,找不到对神经网络语言模型及其工作原理的简单定义。
杨立昆: 好的,语言模型的概念可以追溯到20世纪40年代。一位名叫克劳德·香农的先生,他是一位非常著名的数学家,曾经在贝尔实验室工作,虽然在我加入的时候他已经不在了。他提出了信息论,然后对这样一个想法着迷:你可以发现数据中的结构,对吧?所以他发明了一些东西,你用它来取一段文字,然后你说,我给你一个字母序列,我问你,接下来是什么字母?所以让我们取一个英语单词或某种,比如说,罗曼语系的单词。
如果你有一系列字母,最后一个是Q,那么下一个字母很可能是U。你几乎不会在没有U的情况下出现Q,除非它是一个阿拉伯语单词或已被翻译的单词。对吧。所以对于你观察到的每一个字母,你可以建立一个概率表,下一个字母可能是A、B、C……
主持人: 这就是“生成”这个词的来源吗?
杨立昆: 是的,它是这样生成的:如果你有一个我们称之为条件概率的表,对吧,给定前一个字母,下一个字母的概率是多少,你可以用它来生成文本。你从一个字母开始,比如 Q,然后你查阅概率表,看看下一个字母最可能是哪个。你可以直接选择那个字母,或者根据它的概率选择下一个字母,就像抛硬币或在计算机中生成随机数一样。然后你根据你在真实文本中测量的概率生成下一个字母。你不断这样做,系统就会生成字母。它看起来不像单词,可能甚至无法发音。
但是,如果你不使用一个字母的上下文,而是使用两个字母的上下文,它就会变得更容易阅读一些。它仍然不是单词,对吧?如果你使用三个字母的上下文,它就会变得更好。随着你增加决定下一个字母概率的上下文的大小,它就变得越来越容易阅读。然而,你会遇到一个问题,那就是你需要的数据表大小会显著增加。如果你查看第一个字母并计算出下一个字母的概率,你需要一个 26 行 26 列的表。对于每个第一个字母,你需要每个可能的第二个字母的概率,这就形成了一个 26x26 的表。
现在,如果上下文有两个字母,你表格的行数就变成了 26 的平方,因为有 26 的平方种可能的两个字母序列。对于每一种序列,你需要 26 个概率,这导致表格大小为 26 的立方。当你添加字符时,表格大小会增加到 26 的 n 次方,其中 n 是序列的长度。这被称为 n 元语法模型,本质上是一个语言模型。你可以在字符级别实现它,但在词级别实现它就更难了,因为你可能有 10 万个可能的单词,这会导致一个巨大的表格。
你可以通过使用大量的文本语料库进行训练来填充这个概率表,从而训练一个词模型或语言模型。然而,在一定的上下文长度以上,它就变得不切实际了。
主持人: 因为计算量和工作量太大。
杨立昆: 还要存储所有这些表格的内存,以及这些表格将非常稀疏的事实,因为你可能有数十亿个单词的文本。大多数单词组合都不会出现。有些单词极其罕见,因此你无法正确估计其概率。
主持人: 这是自监督学习的一部分吗?
杨立昆: 你可以认为这是自监督学习的一个例子,因为你只需要符号序列,而它们来自哪里并不重要。如果它们不是文本,它们不一定要来自人工生成。例如,它可以是一段视频的帧序列,对吧?你必须把它转换成离散的对象,这当然很困难,但它是你获得的任何数据。
在 90 年代后期,一些人,特别是 Yoshua Bengio,想到了可以使用神经网络进行这种预测。与其用从文本中测量的条件概率填充表格,不如训练一个神经网络根据单词上下文来预测下一个单词。目标是训练网络生成下一个单词的概率分布。Bengio 使用当时很大的神经网络进行了实验,但按今天的标准来看,它们很小。
面临的一个困难是,你无法准确预测下一个单词是什么,所以你必须对所有单词生成一个概率。一种典型的语言中可能有大约 10 万个单词,这意味着你需要输出 10 万个分数,每个分数对应一个单词,表示该单词紧跟在之前的单词序列之后的概率。他证明了这种方法是有效的,即使在当时的计算机上,这也是一项相当具有挑战性的任务。
随着 Transformer 架构的引入,这个想法最近又重新兴起,我没有解释过。这些系统基本上是在互联网上所有公开可用的文本上进行训练的。通过构建这些系统的架构来处理大量的单词上下文并预测下一个单词,它们显示出了显著的改进。当上下文可能非常大,从几千到几万甚至一百万个单词不等时,生成的系统似乎表现出涌现特性,例如回答问题的能力。
这些模型的规模令人印象深刻,有些模型拥有数百亿甚至数千亿个参数。如此大量的可调整参数为它们提供了巨大的内存容量,使它们能够存储大量关于它们所训练数据的知识。当在文本上进行训练时,这些模型可以复述谜题的解决方案并回答各种问题。然而,这主要是一个检索问题,只涉及非常少量的推理,这是一个重要的局限性。
尽管如此,这些系统的工作效果仍然令人惊讶。人们对它们令人印象深刻的语言处理能力尤其感到震惊。虽然人类在语言处理方面存在局限性,但这些系统似乎在这方面表现出色。它们能够捕捉语法、句法,甚至能够非常有效地处理多种语言,这真是太令人惊叹了。
主持人: 就像回顾并绘制一棵树。假设 AI 在顶部,机器学习在其下方。我说的是今天占据新闻头条,并且每个人都为此兴奋不已的东西。机器学习包含不同的东西,不同的神经网络在其之下。有一个强化学习,比如 DeepMind。有一个自监督的、生成式的,ChatGPT,大型语言模型 (LLM)。
杨立昆: 更准确地说,是**自回归大型语言模型 (Autoregressive LLM)**。是的,我认为正确的组织方式是,AI 位于顶部。机器学习是一种特定方法,用于解决 AI 问题。其中一种是深度学习,它实际上是当今几乎所有 AI 的基础。
所以基本上是具有多层的神经网络,对吧?这个想法可以追溯到 20 世纪 80 年代的反向传播算法。这仍然是我们所做的一切的基本基础。在此之下,有几个架构家族:卷积网络、Transformer 以及它们的组合。
然后在 Transformer 之下,有几种变体,其中一些可以应用于图像识别或音频,而另一些可以应用于表示自然语言,但不能生成自然语言。然后还有一个子类别,大型语言模型,它们是自回归 Transformer。
因此,Transformer 具有允许其预测下一个单词的特定架构,然后你可以用它来生成单词。给定一个已经训练好用于生成下一个单词的单词序列,当你有一个文本时,你必须生成下一个单词。
然后你将输入移动一位,所以现在它生成的单词成为其输入的一部分,你可以要求它生成第二个单词。移动它,第三个单词,以此类推。这是自回归预测。它与金融和计量经济学等领域的自回归模型概念相同。一样的。
主持人: 这些最适合文本,但不适合图片、视频或其他任何东西。
杨立昆: 事情就是这样。它对文本有效,而对其他事物无效的原因在于文本是离散的。因此,可能发生的事情数量是有限的。字典中的单词数量是有限的。所以,如果你能将你的信号离散化,那么你就可以使用这些自回归预测系统。
主要问题是你永远无法做出精确的预测。因此,系统必须学习某种概率分布,或者至少产生针对不同潜在输出的不同分数。如果你有有限数量的可能性(语言就是这样),你可以输出一个概率列表。
然而,如果你想预测视频中将要发生的事情,可能的帧数,或者说视频帧数,实际上是无限的。例如,假设你有一张百万像素的图像,具体来说是一千乘一千像素。像素是彩色的,所以每个像素有三个值。这导致你需要生成三百万个值。
最终,我们不知道如何表示所有可能的具有三百万像素图像的概率分布。
主持人: 但这就是每个人都非常兴奋的地方。
杨立昆: 这就是我们许多人认为人工智能的下一个挑战。基本上,你拥有可以通过观看视频来学习世界如何运作的系统。
主持人: 如果你要说视频,从视频和图片中学习,这将是下一阶段,它在这个整个人工智能中处于什么位置?它是否属于LLM所说的范畴?
杨立昆: 不,它与LLM完全不同,这就是我一直以来非常直言不讳地说LLM并非通往人类水平智能的道路的原因。LLM适用于离散的世界。它们不适用于连续的高维世界,而视频就是这种情况。这就是为什么LLM不理解物理世界,并且无法以其当前形式真正理解物理世界。
我们的意思是,LLM在操纵语言方面的能力令人惊叹,但它们也会犯非常愚蠢的错误,这表明它们真的不理解世界的运作方式,对吧,底层世界。这就是为什么我们有能够通过律师资格考试或为你撰写论文的系统。但我们没有家用机器人。我们没有自动驾驶汽车,或者完全自动驾驶的五级自动驾驶汽车。我们没有真正理解你的猫能理解的基本事物的系统。
我一直直言不讳地说,最聪明的LLM不如你的家猫聪明。这是真的。因此,未来几年的挑战是构建能够克服LLM局限性的AI系统。我们需要能够理解物理世界并拥有持久记忆的系统,而LLM目前实际上并不具备这一点。持久记忆意味着它们能够记住事情,将事实存储在内存中,然后在有趣的时候检索它们。
主持人: LLM现在不能记住东西吗?
杨立昆: LLM拥有的记忆只能分为两种类型。第一种类型存在于参数中,存在于训练过程中调整的系数中。这个过程允许模型学习某些东西,但它并没有真正存储特定的信息片段。例如,如果你在一个小说集合上训练一个LLM,它不能逐字逐句地重复这些小说。但是,它会保留关于这些小说中单词的一些统计信息,并且可能能够回答关于故事的一般性问题。这有点类似于人类阅读小说;除非付出巨大的努力去记住,否则他们不会记住每一个单词。
LLM的第二种记忆类型与你输入的提示提供的上下文有关。由于系统可以生成单词,这些单词或标记充当有限形式的工作记忆,通常取决于即时输入。然而,与生物记忆系统相比,这种记忆形式非常有限。
我们最终想要的是一个更接近人类和其他哺乳动物拥有的记忆系统,特别是海马体。海马体是大脑深处的一个关键大脑结构,是大脑内部或皮质的一部分。它在记忆形成中起着至关重要的作用;如果没有海马体,一个人就不能记住超过大约90秒的事情。
主持人: 如果你要从我们上面描述的智能,一直到自监督学习,画一条路径,你认为这条路径将如何引导我们达到从视频和图像以及更像人类的智能中学习的程度?
杨立昆: 所以我一直在尝试绘制的路径是发现不同于用于LLM的自回归架构的新架构,这些架构将适用于视频,以便可以使用自监督学习来训练这些系统。这种类型的自监督学习基本上是这样的:这里有一段视频,预测接下来会发生什么。如果一个系统能够很好地预测视频中接下来会发生什么,这意味着它可能已经理解了很多关于世界底层结构的知识。类似于大型语言模型通过训练预测下一个单词来学习很多关于语言的知识。
主持人: 我不一定能理解,但如果你必须告诉我们这种架构可能是什么样的。
杨立昆: 问题出现了,正如我提到的,这些自回归架构适用于文本,因为文本是离散的,允许我们预测接下来会发生什么。我们可以生成关于可能的下一个单词的概率分布。然而,由于图像和视频的复杂性,这对于图像和视频来说是不可行的——从数学上讲,这是难以处理的。因此,预测特定片段之后视频中的所有像素实际上是不可能的,或者至少对于我们感兴趣的问题来说是不切实际的。
我们想要的是一个能够预测世界上将会发生什么的系统,因为这种能力对于有效的规划至关重要。例如,如果我可以计划通过将我的手推向玻璃杯,合拢我的手抓住它,然后将其举起,我将能够抓住玻璃杯并喝水,我实际上是在计划一系列动作来实现特定结果。这需要一个良好的世界模型,表明t时刻世界的状态是这样的:玻璃杯在桌子上。
通过理解我将要采取的行动——合拢我的手抓住玻璃杯并举起它——我可以预测在执行该动作后的t+3秒时世界的状态。在这种情况下,我预测我的手中将会有玻璃杯。如果你有这种类型的世界模型,记住世界的状态、动作和世界的下一个状态,那么你可以设想并预测一系列行动的结果。你可以预测这些结果是否满足你想要实现的目标,例如喝一口水。
此外,通过搜索方法,我们可以将这种推理与传统的AI原理联系起来。我们可以搜索一个实际上能够满足我们预期目标的动作序列。这种类型的推理和规划对应于心理学中所说的系统2。诺贝尔奖获得者丹尼尔·卡尼曼区分了系统1和系统2。系统1指的是可以自动和潜意识地执行的动作——本质上是反应性的——而系统2则涉及到产生特定动作或一系列动作所需的深思熟虑的计划和思维过程。
主持人: 那么,Yann,记忆最终会是答案吗?因为作为生物意义上的人类,我们通过记忆学习。
杨立昆: 这取决于什么类型的记忆。我的意思是,我们也有多种类型的记忆。我提到了海马体。海马体用于存储长期记忆,例如你小时候发生的事情以及关于世界的基本事实,比如你妈妈的出生日期。它也有助于更近期的短期记忆。这可能包括情景记忆,与个人经历有关;以及工作记忆,你暂时在脑海中处理信息。这是海马体的作用,而你的大脑皮层则进行计算并读取这段记忆来更新它。这非常像一台电脑,大脑皮层是CPU,而海马体是你读取和写入的内存。
然而,当前人工智能系统的设计并非如此。大型语言模型 (LLM) 除了你可以生成标记的提示之外,没有单独的记忆。它们缺乏搜索一系列答案以确定哪个答案正确的能力,尽管它们正在逐渐具备这种能力。你可能听说过OpenAI的O1,它与Meta和其他机构的类似工作有关。这些工作涉及非常基本的推理形式,包括让大型语言模型生成许多不同的词语序列,然后通过一种方法搜索此列表以找到最佳答案。尽管如此,它仍然非常低效,最终,这不是我们想要的。
回到如何使机器能够通过观察世界(特别是通过视频)来学习这个问题上,我们不能使用生成式架构来生成视频中的每个像素。这种方法不切实际。我已经尝试了将近15年,五年前,我们开发了一种称为JEPA的不同方法。JEPA代表联合嵌入预测架构,它提供了一种处理和学习视觉信息的新方法。
主持人: 我在你Lex Friedman的采访中看了很久,你当时谈到了JEPA,我还是不明白。
杨立昆: 好的,这是一个基本的概念。如果你不明白,请告诉我,因为我可以用不同的方式解释。与其获取一段视频并训练一个大型神经网络来预测该视频后续的所有像素,不如将视频输入编码器,这是一个大型神经网络,它将生成视频的抽象表示。然后,你将视频的其余部分(未来的部分,视频的后半部分)也通过相同的编码器运行。然后你训练你的预测系统,它也是类似的。
主持人: 很像LLM,你删除一部分数据来训练模型。
杨立昆: 没错。所以,你知道,对于LLM,你获取一段文本并训练它来预测文本的其余部分,对吧?你逐字进行预测,但也可以预测多个单词。所以在这里我们将做同样的事情。我们将获取一段视频,然后训练一个系统来预测视频的其余部分。但是,我们不会预测视频中的所有像素,而是将这些视频通过编码器运行,编码器将计算视频的抽象表示。我们将在这个表示空间中进行预测。因此,我们不是预测像素,而是预测这些像素的抽象表示,其中所有基本上不可预测的内容都已从表示中消除。
主持人: 所以这有点像预测明天?因为如果我想把我到目前为止的生活录成视频并将其通过编码器运行,它会给我某种关于明天的表示吗?
杨立昆: 是的,但在抽象层面上,对吧?所以你可以预测……我听说你住在班加罗尔,所以你某个时候会飞回班加罗尔。是的。你可以预测返回班加罗尔需要多长时间,但你无法预测回班加罗尔的旅途中会发生的所有细节,甚至无法精确预测需要多长时间,包括交通状况。
主持人: 你能推断多远?如果我有过去十年生活的视频数据,那么三个月后会发生什么?
杨立昆: 所以诀窍在于,这是一个有趣的问题。你可以进行长期预测,但是你预测的未来越长,你进行预测的抽象表示级别就越高。
主持人: 让我问你一个问题。如果你要推断50年后的未来,我们所有人的生活,你弄清楚如何构建这个架构,并且它已经实现并且正在运行,我们过去生活的视频已经被编程到其中,我们试图预测50年后的未来。你认为你会看到什么?气候变化和世界大战?
杨立昆: 所以在我看来,好的,接下来几年有一个计划来构建系统。我无法从视频中理解世界。也许他们能够学习的是那些世界模型,也就是行动条件。
因此,他们将能够想象一个行动或一系列行动的结果是什么。他们也许能够分层地规划复杂的行动序列,因为这些世界模型将是分层的。
他们将拥有能够进行短期预测的世界模型,进行准确的预测,但仅限于短期。例如,如果我以这种特殊的方式移动我的肌肉,我的手臂将在大约一毫秒后位于这个特定位置。这是非常短期的,但非常精确。
然后是更长时间的预测。例如,如果我去机场乘飞机,我明天早上就会到达巴黎。或者如果我学习并在大学取得好成绩,我就能拥有美好的生活等等,对吧?
所以你可以做出长期预测并制定计划,以满足你拥有的某些标准。谢谢。
主持人: 所以如果我们能够构建系统……如果人工智能能够预测未来,那将是乌托邦还是反乌托邦?
杨立昆: 乌托邦,因为它将只是预测未来的另一种方式,而不是我们的大脑,以及规划行动序列以满足某些条件来实现目标,这与使用我们的大脑、也许积累更多知识才能做到这一点以及拥有人类由于大脑的局限性而没有的能力是不同的,对吧?电脑可以计算等等,对吧?所以未来是,如果我们在这个计划中成功,这可能在未来五到十年内成功,你知道,五到十年,我们将拥有这样的系统……
随着时间的推移,我们可以发展到变得像人类一样聪明,也许吧。所以在十年内达到人类级别的智能。这可能是乐观的,好吧?如果一切顺利,我们一直在制定的所有计划都将成功,那么五到十年就足够了。我们不会遇到意想不到的障碍。但这几乎肯定不会发生。
主持人: 你不太喜欢那样,对吧?像AGI和人类级别的智能,你认为还很遥远或不太可能。
杨立昆: 不,我认为它并没有那么遥远。我认为我对其距离的看法与你从奥特曼、德米斯·哈萨比斯等人那里听到的观点不会有太大差异。这,你知道,很可能在十年之内,但不会发生在明年,也不会发生在两年后,它需要更长的时间。因此,你不能仅仅根据大型语言模型(LLM)的能力进行推断,认为我们只需要扩大LLM的规模,用更大的计算机和更多的数据来训练它们,人类水平的智能就会出现。事实并非如此。我们将需要新的架构,例如JEPAs系统,这些系统能够从现实世界中学习,并能够分层规划,能够规划一系列行动,而不是像现在这样,基本上只是在不加思考地一个词一个词地输出。所以是系统二而不是系统一。LLM是系统一,我所说的这种架构,我称之为目标驱动型AI,是系统二。
主持人: 我很想来贵校进修,如果您愿意收我当学生,我很乐意。我不知道我是否符合条件,我可能需要回去完成高中学业,但我真的很想来,就为了完善我对大型语言模型的理解。因为现在新闻都在报道,每个人都在谈论LLM。所以你定义一个问题,找到一个大型数据集,大部分时间都花在数据清洗上,你选择一个模型,训练模型,然后执行模型。在此之前,你要微调模型。在此之前,你要微调模型,是的。这里会发生什么变化?
杨立昆: 所以仍然需要收集数据和过滤数据,以保持高质量的数据,并基本上去除垃圾数据。这实际上是整个过程中相当昂贵的一部分。
但我认为,在这方面需要发生变化的是,目前LLM的训练是利用公开可用数据和许可数据的组合进行的。但它主要还是公开可用数据,也就是互联网上的公开文本。对吧?而且它在很多方面都极度偏见,因为其中很大一部分是英文的。在像印地语这样的常用语言中,有大量的數據,但在印度所有22种官方语言中却没有那么多,更不用说所有700多种方言了(无论具体数字是多少),尤其是一些方言根本没有文字记载。
所以,我们未来需要更全面的数据集,以便用这些数据集训练的系统能够理解世界上所有语言、所有文化和所有价值观。我认为没有哪个单一实体能够做到这一点。
这就是为什么我相信人工智能的未来将成为一种共同的基础设施,人们将用它作为所有人类知识的储存库。这不可能由单个实体建立;它必须是一个协作项目,培训将在全球范围内进行。这样,我们可以用来自世界各地的数据训练模型,而无需在任何地方复制数据。
主持人: 顺便提一下,我正在审核一家数据中心业务,考虑投资。很多人告诉我,计算作为一种商品很快就会在数据中心之外销售,而不是在其内部销售。在印度建设数据中心,是否值得投入精力和时间?我采用的是主权人工智能模式,每个国家都可能会比现在更努力地保留其数据。
杨立昆: 是的,在那种未来,我也提到了模型的分布式训练,拥有本地计算基础设施我认为非常重要。所以,是的,我认为这至关重要。它至关重要有两个原因。一是拥有本地训练模型的能力。第二个是能够非常低成本地访问人工智能系统的推理服务。因为如果你想让,我不知道,8亿印度人使用人工智能系统,对吧?我知道印度人比这多得多,但大多数人,你知道,不是每个人都会使用人工智能系统。
这需要大量的计算基础设施,实际上比学习的基础设施大得多。而且在这种场景中,创新比训练多得多。目前,训练主要由英伟达主导。未来会有其他参与者,但由于软件堆栈的原因,他们很难竞争。他们的硬件可能非常好,但软件堆栈是一个挑战。然而,对于推理,创新要多得多。而这种创新正在降低成本。我认为LLM的推理成本在两年内下降了100倍。我的意思是,这太令人惊讶了,对吧?它比摩尔定律快得多。我认为仍然有很大的改进空间。你需要这样做,因为你基本上需要将一百万个标记的推理成本控制在几卢比以内。如果你想在印度广泛部署人工智能辅助系统,这就是它的巨大未来。
主持人: 我想利用剩下的时间,把它放到印度语境中来讨论。像我说的那样,观看的人们,例如,是否有企业家在行动,或者有人试图成为企业家?对于一个想在人工智能领域创业或从事人工智能职业的20岁的印度人来说,我们现在应该怎么做?
杨立昆: 对于今天的20岁年轻人,我希望当我22岁毕业时,会有好的博士项目。
主持人: 在印度。抛开学术视角,我的意思是更多……
杨立昆: 不,不,但这是我需要训练自己进行创新的方式。你知道,攻读博士学位或研究生课程,它会训练你发明新事物,并确保你所使用的方法能够防止你欺骗自己,让你以为自己是创新者,但实际上并非如此,好吗?
主持人: 如果我是一个企业家呢?一个25岁的企业家?
杨立昆: 如果你是一个企业家,仍然希望攻读博士学位,或者至少是硕士学位。因为你真的想深入学习。我的意思是,你可能自己就能做到这一点。你不必这么做,但这很有用,因为你可以了解更多关于现有技术、可能性、不可能性的知识,你也可以在招聘人才方面获得更多合法性。我的意思是,有很多优势,尤其是在人工智能这样复杂、技术含量高的领域。你即使不做这些也可能成功,这并不是问题,但它会给你一种不同的视角。好吧,现在,你知道,你在读博士,你在创业,如果你发表了一些论文,发明了一些新东西,说,这是一个可能真正产生影响的新技术,那么你可能会更容易筹集资金。
主持人: 你知道,你会去找投资者。如果我更进一步呢?比如说智能,我将忽略AGI方面的内容。比如说狭义智能,自动驾驶汽车、机器人,所有这些。如果我必须选择一个子集,我可以利用我们讨论过的任何模型来使用狭义智能,我应该从哪个方面入手,它具有资本主义的优势?
杨立昆: 好的,那么今天,就现在而言,与AI相关的最可能的商业模式是采用像LLAMA这样的开源基础模型——这是一个数据开源系统,现在随处可见。几乎每家初创公司,甚至大型公司都在使用它。所以,选择一个开源平台,无论是大型语言模型(LLM)、图像特征提取系统还是分割系统,等等,然后针对特定垂直应用进行微调,并成为该垂直应用领域的专家。
主持人: 那么,应该选择哪个垂直领域呢?任何垂直领域都可以,对吧?但我想知道,给我列举三个最主要的领域。我们最近采访了盖茨,他说要专注于构建围绕法律的这一层,因为法律流程已经成熟到可以进行讨论了。
杨立昆: 这是一个很好的例子,对吧?如果还要再选择一两个呢?好吧,我的意思是,在B2B领域,有法律、会计、商业信息,对吧?我想获得关于特定细分市场竞争情况的报告,比如金融科技、金融。这些都是显而易见的领域。大型语言模型的信息系统会提供公司内部的所有私密信息,这样任何员工都可以询问任何问题,无论是行政方面还是其他方面,你都能得到答案。你无需再翻阅多个内部网站和信息系统。
所以这当然是一件好事。我认为在能够为特定垂直领域微调模型的公司方面还有很多工作要做。还有一些更注重消费者的市场,比如各种教育辅助工具。除非能获得政府合同,否则这方面的资金并不多。但教育无疑是一个广泛的应用领域。
另一个重要的领域可能是医疗保健。尤其是在发展中国家,有很多公司正在成立,利用大型语言模型提供医疗辅助。你打电话给你的大型语言模型,说,我有一些症状,我应该去医院吗?或者,你知道,这是我的问题。这比预约医生要容易得多。在某些地区,看真正的医生基本上是不可能的,你必须去城市或其他地方。所以我认为这将非常有用。
在农村地区,还有其他应用,特别是那些由能够说当地语言的AI助手支持的应用,可以服务于那些不太习惯阅读和写作的人。通过母语语音与AI助手互动,我认为这将在农业以及各种领域开启许多应用……
主持人: 如果我将视角从企业家转向投资者,投资者投资AI会有什么好处?是英伟达、LLAMA、Meta、ChatGPT、OpenAI吗?
杨立昆: 好的,我认为首先要想象五年后的未来将会是什么样子。
主持人: 我怀疑你会比我更擅长想象未来,Yann。你能描绘五年后的未来吗?
杨立昆: 五年后,世界将由开源平台主导。这与嵌入式设备和操作系统领域由Linux主导的原因相同。整个世界都在运行Linux,而20年前、25年前并非如此。是的。它之所以如此,是因为开源平台更具可移植性、更灵活、更安全、更便宜。部署成本更低。
主持人: 我不应该居功自傲,但我们有一个名叫Kailash的人,他是我们的首席技术官,他非常支持这一点。我们所做的一切都是开源的。我们有一个基金会,向开源公司提供资助等等。
杨立昆: 是的。好的,世界将是开源的。我们将拥有开源AI平台。几年后,它们可能会以分布式方式进行训练,因此它们不会完全由单一公司控制。我认为专有引擎不会像今天这样重要,因为开源平台在性能方面正在迎头赶上。然后我们知道,像LLAMA这样的经过微调的开源引擎总是比未经微调的通用顶级模型效果更好。
主持人: 但如果一切都是开源的,那么对于投资者来说,投资也会变得民主化,那么差异化在哪里呢?
杨立昆: 它能够使生态系统发展壮大。如果你是一家初创公司,最好使用一个资源引擎并针对垂直应用进行微调,而不是使用API,因为你可以更好地为客户构建定制产品。这是第一点。第二点是,如果你真的希望这项技术能够民主化并被所有人使用,最终会使用智能眼镜等设备,但首先是智能手机。
主持人: 你认为与技术互动的方式很快就会改变吗?与技术互动的方式会很快从智能手机转向其他类型的设备吗?
杨立昆: 智能眼镜,是的。我的意思是,是的。几乎毫无疑问。你正在使用一个。所以我现在没有戴,尽管它们就在我的包里。对。我经常使用它们,是的。我发现它们对各种事情都非常有用,即使你不使用AI,只是拍照或听音乐等等。但然后你有了AI助手,我可能坐在一家餐馆里,菜单上是外文和外语,它可以帮我翻译。
主持人: 随着所有这些变化,社会中的智力会发生什么变化?忘记电脑和AI一会儿,对于人类来说,在这个世界中,智力是什么?
杨立昆: 人们的智力将转向与我们今天训练的不同的任务。因为我们今天试图做的很多事情都将由AI系统完成。因此,我们将专注于其他任务。例如,不是做事情,而是决定做什么或弄清楚做什么。好的?这是两件不同的事情。想想公司里一个被告知做什么就做什么的低层员工,和一个必须制定战略、思考做什么,然后告诉别人做什么的高层管理人员之间的区别。我们都将成为老板。我们都将像那些高层管理人员一样。我们将告诉我们的AI系统做什么,但我们不必亲自动手。谢谢。
主持人: 所以我们需要更少的人来告诉比我们更有效率的东西该做什么。然后我们今天需要他们来完成这项任务,对吧?是的。那么其他人会怎样呢?
杨立昆: 好吧,我认为每个人都会处于这种情况,能够使用AI系统并能够委托许多任务,主要是在虚拟世界中,但最终也会在现实世界中。在某种程度上,我们将拥有家用机器人、自动驾驶汽车等等,一旦我们找到方法让系统从视频中学习现实世界是如何运作的。
我们将能够专注于的任务类型将更加抽象。就像没有人再需要进行超高速心算一样,我们有计算器。或者求解积分或微分方程;我们必须学习基础知识,到目前为止,我们这样做,但我们可以使用计算机工具来做到这一点。
因此,这将提高我们可以将自己置于其中的抽象级别,并基本上使我们能够更有创造力、更高效。好的,还有很多你和我学过的事情,我们的后代将不必学习,因为那将由机器来处理。
例如上学?不,不,我们仍然要上学。我们必须自学。我们必须……人类之间仍然会有竞争,以便比其他人做得更好或做一些不同的事情,更有创造力。总是,对吧?我们天生就想与我们的同龄群体竞争。是的,是的。所以我们不会失业。我交谈过的经济学家告诉我,我们不会失业,因为我们不会缺乏问题。但我们将借助AI找到更好的解决方案。
主持人: 也许我们今天可以结束讨论,Yann,尝试定义一下什么是真正的智能。我写下了我的定义:智能是信息的集合以及吸收新技能的能力。
杨立昆: 它是一个技能的集合,以及快速学习新技能的能力,或者是不需要学习就能解决问题的能力。在人工智能领域,这被称为“零样本学习”(zero-shot learning)。你知道,你面对一个新问题,你可以思考一段时间,你可能从未遇到过类似的问题,但你仅仅通过思考和运用你对情况的心理模型就能解决它。这就是零样本学习。你并没有学习新的技能,你只是从零开始解决问题。所以,这三者的结合,即你已拥有的许多技能、解决问题和完成任务的经验、能够快速学习新任务(只需几次尝试),以及下一步能够零样本解决新问题而无需学习任何新东西,这三者的结合才是真正的智能。
主持人: 不,谢谢你,Yann,非常感谢你抽出时间。我打算弄清楚如何才能在你上课的地方跟着你学习。也许你可以推荐我给学院,让我能获得一个听课的名额,我很想学习。
杨立昆: 更好的是,我的2021版深度学习课程可以在网上免费获取。所有内容都在YouTube上,包括所有习题和作业。
主持人: 我觉得我好像回到了老式课堂。我觉得当面学习,面对面地向你学习本身就具有独特的价值。所以我会尝试这么做。太棒了,Yann,非常感谢你抽出时间。谢谢。很荣幸。真正的荣幸。
杨立昆: 谢谢,这很有趣。
参考资料: https://www.youtube.com/watch?v=JAgHUDhaTU0,公开发表于2024-11-27
关注公众号后设🌟标,掌握第一手AI新动态