在 20 世纪后半期,物理学沿着前半世纪的发现继续发展。量子力学理论为我们揭示了宇宙的奥秘,从而催生了大量实用应用。
随后,物理学开始应对另一个重大挑战——复杂性。这包括自然系统的复杂性,例如生态系统和气候,也包括人类制造的系统,如经济市场和交通系统。人类大脑及其所处的社会系统是最终的复杂系统。
实际上,大脑的复杂性激发了人工神经网络的发展,目的是通过数据学习来解决问题,就像我们通过经验学习一样。这种“深度学习”自此对科学作出了巨大贡献,并在本月获得了诺贝尔物理学奖和化学奖的认可。如今,我们正处于一个由大数据和超大规模计算驱动的科学新时代的起点。未来几十年,深度学习将对科学产生何种影响?
我的新书《ChatGPT与人工智能的未来:深度语言革命》(ChatGPT and the Future of AI: The Deep Language Revolution)回顾了大语言模型的起源,并探讨了将塑造下一代人工智能的研究工作。(我还会在我的 Substack 专栏《Brains and AI》中继续讨论这个话题。)本书节选部分描述了语言的演变如何影响大语言模型,并探讨了神经科学与人工智能的概念如何相互交融,推动这两个领域的前进。
语言的演变
我曾参加过一场在洛克菲勒大学举办的研讨会,其中一场小组讨论涉及语言及其起源。两位在各自领域内享有盛名的学者对语言的观点截然相反:诺姆·乔姆斯基(Noam Chomsky)认为,既然语言是天生的,那么一定存在一个独特演化于人类的“语言器官”。悉尼·布伦纳(Sydney Brenner)则持更生物学的观点,认为演化会找到非直观的解决方案。布伦纳以他的机智闻名,他举了个例子:与其寻找一种“语言基因”,不如考虑可能存在一种“语言抑制基因”,演化在猩猩中保留了这种基因,但在人类中将其阻断。
鸟类学习鸣唱的过程和人类获得语言的方式之间有一些相似之处。洛克菲勒大学的埃里希·贾维斯(Erich Jarvis)试图理解能学习复杂歌曲的鸟类(如金丝雀和椋鸟)和无法学习歌曲的其他鸟类之间的大脑差异。他对多种鸟类的基因组进行了测序,发现了两者之间的差异。他特别发现了一个基因,该基因控制从高声中枢(HVc)向下层运动区域的投射发育,而这些下层区域负责驱动鸣管肌肉的控制。在发育过程中,这个基因通过抑制产生歌曲所需的直接投射来发挥作用。在鸣禽的高声区,这个基因没有表达,这使得投射能够形成,从而实现对鸟鸣的快速控制。令人惊讶的是,他发现在人类中相同的基因在喉部运动皮层中被“沉默”了,而这个区域会向控制声带的运动区域投射;但在黑猩猩中,该基因并未被沉默。悉尼·布伦纳不仅机智,而且判断正确!
同样重要的是对声道的改造,使其能够快速调节宽频谱的声音频率。嘴部和喉部的快速发音序列是大脑能生成的最快的运动程序。这些结构是脊椎动物的古老部位,经过演化的改进和完善,使得人类可以进行语言交流。为了解释语言的奥秘而假设的“语言器官”,实际上是分布在预先存在的感觉运动系统之中的。
支撑语言和思维的大脑机制是共同演化的。皮层和基底神经节之间的回路本来用于生成动作序列,后来被重新用于学习和生成词语序列。人类前额皮层的巨大扩展使得类似的回路可以生成一系列的思维。基底神经节在强化学习中作为一个参与者,它学习采取下一步行动的价值,使行动和语言朝着实现未来的奖励和目标方向发展。
Transformer 模型的外环让人联想到大脑中皮层和基底神经节之间的回路,该回路被认为对学习和生成运动动作序列至关重要,并与运动皮层一起运作,在与前额皮层的回路中产生思维序列。基底神经节还会自动化经常练习的序列,从而释放出参与意识控制的皮层区域的神经元去处理其他任务。遇到特殊或稀有情况时,皮层可以介入控制。当多个皮层区域的输入在基底神经节中汇聚时,产生更广泛的背景信息,有助于决定下一步的动作或思维。基底神经节可能就像 Transformer 中强大的多头注意力机制。在皮层和基底神经节之间的回路中,任何一个区域都可以在决策中发挥作用。
大语言模型通过预测句子中的下一个词来进行训练。为什么这种方法如此有效?为了更好地进行预测,Transformer 学习了句子结构的内部模型,甚至构建了更复杂的语义模型,用于理解词语之间的含义和关系。模型还必须学习句子的因果结构。令人惊讶的是,仅通过一步步的预测可以学习到这么多内容。如果大脑没有利用这种“逐步推进”的方法来构建对世界的内部模型,那将是令人意外的。
强化学习中的时间差分学习算法也是基于预测的,只不过是预测未来的奖励。AlphaGo 使用时间差分学习来学习如何做出一系列长时间的走棋,以赢得围棋比赛。这样一个只预测前一步的简单算法,是如何实现如此高水平博弈的呢?基底神经节同样通过练习使用相同的算法学习一系列行动以实现目标。例如,网球发球涉及复杂的快速肌肉收缩序列,需要反复练习才能变得自动化。
小脑是一个重要的大脑结构,它与大脑皮层互动,能够预测运动指令的期望感觉和认知后果。在控制理论中,这被称为“前向模型”,因为它可以在动作发生前预测运动指令的结果。同样,通过预测下一步会发生什么以及从错误中学习,可以建立一个关于身体和肌肉特性的复杂预测模型。
这三个例子中的共同之处在于,它们在不同时间尺度上都有大量数据可用于自监督学习。智能是否可以通过自监督学习产生,通过不断进行小范围预测来逐步构建越来越复杂的内部模型?或许婴儿大脑就是通过不断预测和观察结果,同时与世界进行主动互动,快速学习世界的因果结构。在这一方向上已经取得了一些进展,例如使用深度学习从视频中学习直观物理知识。
大脑和人工智能正在趋同吗?
大脑和人工智能的研究基于相同的基本原理:高度连接的并行架构,通过数据和经验进行学习训练。20 世纪的脑科学发现启发了新的机器学习算法:视觉皮层的分层区域启发了卷积神经网络,而操作性条件反射启发了强化学习中的时间差分学习算法。与人工神经网络的进展相并行,“大脑计划”(BRAIN Initiative)在 21 世纪通过支持创新神经技术的发展加速了神经科学的发现。神经科学家正在利用机器学习来分析来自数万个神经元和数十个大脑区域的同步记录,并自动化重建通过连续切片电子显微镜得到的神经回路。这些进展改变了我们对皮层分布式处理的理解,并催生了新的脑功能概念框架,推动了更加先进和大规模的神经网络模型的出现。
人工智能和神经科学的新概念框架正在趋同,加速了它们的进展。人工智能和神经科学之间的对话形成了一个良性循环,丰富了这两个领域。通过分析超高维空间中隐藏单元的活动模式,人工智能理论正在形成,而我们也用同样的方式研究大脑活动。分析大语言模型中活动模式的动态变化,可能会揭示一个共同的基础数学结构,从而帮助我们更深入地理解智能。例如,有大语言模型在黑白棋的棋盘布局上进行训练,并通过探查揭示出其内部形成了黑白棋规则的模型。
如何“下载”一个大脑
现在我们可以全面探究大脑中的神经元活动,或许能够解开其中一个最大的谜团:分布在众多神经元中的信息是如何整合成统一的感知,并用于决策之中。大脑的结构是分层的,每一层都在不同的时间尺度上负责决策,无论是在感觉系统还是运动系统中。我们可以构建拥有多个子网络的深度多模态模型,将它们整合成一个统一系统,从而获得有关潜意识决策机制和有意识控制机制的洞见。
传统上,神经元在特定任务的背景下接受测试,例如视觉刺激响应,其中选择和刺激的数量是有限的。这种严格控制的刺激和响应方式有助于在任务背景下解释神经记录。但事实上,神经元可以参与多种任务且以多种方式发挥作用,因此从单一任务中得出的解释可能具有误导性。如今,我们能够对整个大脑中成千上万个神经元进行记录,并通过机器学习分析记录数据、解剖行为。然而,神经科学家仍在使用旧的单任务范式。一个解决方案是训练神经元应对多种任务,但例如训练一只猴子完成每个任务通常需要数周甚至数月的时间。另一种方法是将任务的复杂性在更长时间间隔上扩展,使其更接近自然行为。
然而,使用离散任务来研究行为存在一个更根本的问题。现实世界中动物的自然行为主要是自发且交互式的,特别是在社会行为中更是如此。研究这种自发的连续行为要比研究紧密约束的反射性行为困难得多。
假设一个大语言模型接受了在自然行为过程中对大脑活动的海量记录,同时结合身体和眼动追踪、视频、声音及其他多模态数据进行训练。大语言模型是自监督的,可以通过跨数据流预测缺失数据片段来进行训练。虽然从传统实验角度来看,这种方法可能并不科学有用,但从大语言模型所提供的新计算视角来看却很有意义。
一个大型神经基础模型(LNM)可以在自然条件下基于大脑活动和行为数据进行训练,方式类似于当前训练大语言模型的方式。得到的 LNM 可用于许多新任务,就像预训练的大语言模型能够应对新查询并执行许多新任务一样。这些预训练的 LNM 虽然与大语言模型一样需要高昂的训练成本,但一旦预训练完成,它可以为科学界提供一个共同资源以进行探究和分析。这将彻底改变大脑研究方式,同时减少所需的实验动物数量。类似地,个人的大脑活动也可用于训练一个适合的 LNM,创造出一个该人的“永生”生成版本。
这听起来像科幻,但冲绳科学技术研究所的 Gerald Pao 已经在大约拥有 10 万个神经元的果蝇和斑马鱼幼体上实现了这一点。几乎所有的神经元都被光学记录下来,通过对神经信号敏感的荧光染料显示出神经活动,同时监控其行为。Pao 研究的自发行为是斑马鱼幼体在缺氧环境中的逃避行为和果蝇的行走行为。他使用了由加州大学圣地亚哥分校的斯克里普斯海洋学研究所的 George Sugihara 提出的动态系统理论中的收敛交叉映射(CCM)方法,来提取记录的神经元与行为之间的因果关系。这种方法提取了一个简化的图形模型,捕捉了控制行为的低维大脑子空间。在日本 AI 桥梁云基础设施(ABCI)上的超级计算机中,分析了约 10 万个神经元的记录。当模型启动时,它生成的自发行为与真实生物中的观察结果无法区分。关键在于同时分析神经记录和行为,仅分析其中一个不足以重现该行为。
这一实践证明,在拥有足够的脑活动和行为同步记录数据的情况下,大脑活动和行为可以“下载”到一个模型中。
作者:Terrence Sejnowski
译者:EY
封面:Michael Robson
原文:
https://www.thetransmitter.org/large-language-models/are-brains-and-ai-converging-an-excerpt-from-chatgpt-and-the-future-of-ai-the-deep-language-revolution