|作者:祁晓亮1,2,†
(1 斯坦福大学物理系)
(2 路径积分科技有限公司)
本文选自《物理》2024年第6期
摘要 近年来,人工智能(AI)大语言模型取得了突飞猛进的发展,将人工智能对人类社会的影响也拓宽到了前所未有的范围。文章将从与物理学有关的两个角度——信息和时间尺度,来谈谈作者对大语言模型带来的人工智能革命的一些不成熟的见解。文中首先回顾大语言模型的基本原理和近期发展,再讨论从信息的动力学和复杂度的角度如何看待大语言模型的意义。基于人工智能模型和人类认知系统的比较,也会探讨人工智能的下一步发展方向,以及AI智能体方面的探索和发展。
关键词 大语言模型,人工智能,信息,复杂性,系统1,系统2
作为本文讨论的背景,我先简要介绍一下大语言模型的基本原理。语言模型的目标,一言以蔽之就是“学人说话”。比如“太阳从哪边出来?”这个问题,人类都会回答“从东边出来”,那么模型为了学人说话,也要学会回答“从东边出来”。语言模型本质上是一个函数:
这里的w是模型的参数(weights),x是输入的句子,y是输出的句子。语言模型的训练,就是通过调节大量的参数w,让输出y对于各种可能的输入x都尽可能接近于人类的回答。
那么如何定义“接近人类的回答”呢?显然同一个问题在不同的情境出不同的答案。不可能拿着每一个人类的答案要求AI去和它完全一致。这种对人类的模仿只能是概率性的:把大量的语料作为训练数据,这些训练数据定义了一个条件概率p(y|x),也就是给定输入x,有多少可能的不同输出,概率分布是怎样。然后语言模型的任务就是去模拟这个概率分布。这样定义的语言模型其实已经有很长的历史。例如信息论的开山鼻祖克劳德·香农有一项著名的工作[1],指出信息压缩的极限,也定义了著名的信息熵。这篇文章中就讨论了如何根据字幕出现的概率来生成类似人类语言的字符串(图1)。
图1 克劳德·香农在关于信源编码定理(source coding theorem)的论文中研究的语言模型
更具体地来说,目前的语言模型是采用“next token prediction”的方式来生成句子的。语言被切成称为token的最小单位(英文中是一个比单词更小的单位,中文中就是单个汉字),输入的文字可以看成一串token x1, x2, x3,…, xn,输出下一个token xn+1。语言模型输出的一句话,是通过多次调用同一个函数来实现的(图2):
如果觉得话说完了,模型会输出一个结束的符号,表示回答结束了,答案会返回给用户。
图2 大语言模型的示意图。输入内容(粉色)经过运算预测输出下一个词(绿色),如此迭代
当前能力最强的大语言模型,采用的是一种叫做transformer的模型架构[2]。在这种架构中,文字首先被映射成高维向量。例如,如果将每个token映射成100维的向量,则输入10个token的话就是一个100×10的矩阵。经过多层的非线性运算,输出是一个同样维度的向量,再映射回输出文字xn+1(图2)。这个非线性运算的细节这里就不具体讲了,与更早的机器学习模型相比,transformer模型有两个核心的优势:一是非局域性——任意两个输入token之间都可能有或强或弱的关系,原则上可以处理两个距离很远的词之间的关联;二是transformer架构特别适合在GPU上开展并行计算,从而使得模型的参数量可以非常大,达到千亿以上的量级。
自从transformer在2017年被提出以来,Alphabet和OpenAI等公司都开发了不断进步的transformer模型。OpenAI在2020年推出了GPT3模型,然后在2022年11月推出了GPT3.5。GPT3.5和之后的GPT4通过对话框的形式让广大个人用户直接体验,带来了巨大而广泛的影响,从此大语言模型的发展进入了一个不断加速的时期,数百个模型被开发出来,模型能力不断迅速提高,也有很多模型选择开源。图3是一个近期的评测结果,从中可以看出,Claude,GPT,Gemini等模型在大学本科水平的知识、研究生水平的数学和编程等方面都已经表现得相当优秀。
图3 美国人工智能公司Anthropic的模型Claude 3在2024年3月发布时的评测结果,其中红框中的三个模型Opus,Sonnet和Haiku是Claude 3的三个不同版本,能力依次减弱(图片引自:https://www.anthropic.com/news/claude-3-family)
大语言模型能够基于“预测下一个词”这样的简单目标就达到今天的能力是相当令人震惊的。当然,上面对于模型训练的描述是过度简化的,实际上要训练出真正好用的模型,除了上面描述的海量数据训练过程(称为预训练pretraining),后面还要进行微调(finetuning)和基于人类反馈的增强学习(reenforcement learning from human feedback,RLHF)。粗略地说,预训练过程让模型获得了基础的能力,微调和RLHF的主要目标是让它更专注于对话的场景,理解人类的意图,以及符合社会规范(例如不做有害的回答,不提供有害的信息)。在大模型不断增加参数的过程中,人们注意到了新能力的“涌现”(emergence),例如训练本身并未专门针对逻辑思维能力,但逻辑思维能力随着参数量和数据量的增加自发地产生出来。涌现的另一个表现是不同能力之间的“触类旁通”,例如大量训练编程之后,发现模型在其他场景中的逻辑推理能力也有显著的提高。从某种意义上说,大模型能力的涌现并非一个新的现象,而是自从2012年李飞飞创建ImageNet引发的深度学习革命以来一直持续的趋势:更多的数据、更多的参数比起人工设计更能带来智能水平的提高。在中文中,这经常被概括为“大力出奇迹”。OpenAI超越比它体量大得多的Alphabet(谷歌),很重要的原因是他们更早更坚定地推进了这一路线。
那么这是否意味着人工智能的问题已经解决,只需要更多的数据、更多的计算就可以实现人类水平或者超越人类水平的智能呢?我们当下看到的语言模型的革命,究竟只是人工智能发展中众多模型之一,还是有特别的意义呢?本文将会基于笔者的一些不成熟的见解,尝试探讨这些问题。(本文有部分观点是基于笔者去年的一篇文章[3]。)
大语言模型的迅速发展让很多人非常兴奋,也被类比于iphone的发明、互联网的发明、工业革命等等重要的历史时刻。这种类比更多的是从其功能上来考虑的。从物理学的视角来看,我更希望找到一种内禀的判据。这就好像在凝聚态物理学中研究相变,我们通常先要找到一个序参量,然后判断这个序参量是否发生了某种定性的变化。对于AI来说,如果是针对一个具体的任务,例如上面图1所列举的那些测试结果,那么一个简单的临界点判据就是AI的得分是否能够达到或者超过人类的水平,但是这显然不是今天的语言模型的目标。语言模型比起以前的人工智能模型,其最大的特点在于通用性。虽然在不同任务中能够达到的水平参差不齐,但其目标显然是涵盖人类在一切领域中的能力,在近期多模态模型也获得显著的进步之后更是如此。(需要澄清的是,本文所说的语言模型所指比较广义,包括建立在类似原理上的多模态模型。“语言”是一种沟通的方式,就像对于人类而言一样,可以有视频、音频、文字等不同的形式。)在这样一个广泛的领域中,如果要寻找一个普遍使用的判据,我觉得应该选择信息的角度。
我们先来回顾一下什么是信息。本质上来说,信息是对降低不确定性的量度。同样是7个字,“三亚夏天下雪了”的信息量要远大于“辽宁冬天下雪了”,因为后者发生的概率要大得多。因此一条消息i的信息量是这个事件发生概率pi的函数I(pi)。如果一个事件有i=1, 2, ⋯, n个不同可能性,那么平均的信息量就是。而如果我们要求两条不相关的消息i和a的信息量等于它们之和,这就会要求I(piqa)=I(pi)I(qa),由此得知I(pi)是一个对数函数,这就是香农定义的信息熵。一条消息中包含的信息量,只和这个概率有关,而与这条消息是通过电话、文字还是口头传递的无关。这正是反映了信息这个概念特别普适的一面。一切人类行为,乃至一切物理过程,都伴随着信息的传播和演化,或者用一个更准确的名词,可以称它们为信息动力学(information dynamics)过程。比如今天宇宙学观测到的微波背景辐射,带给了我们关于极早期宇宙的信息。微波背景辐射来自于某一个时刻,在这个时刻宇宙变得透明了。在比这个时刻更早的时候,宇宙是不透明的,光子会不停的被散射,所以我们今天无法直接接收到那时候的信息。从信息的角度来说,可以说在宇宙变透明的时刻,信息动力学发生了一个质变,光子携带的信息从转瞬即逝变成可以穿越百亿年。同样的质变发生在人类语言出现的“时刻”(当然这个并不是某个特定的时刻,而可能是一个漫长的进化过程)。在语言出现之前的人类,以及其他动物,虽然也能互相传递信息,但信息的内容太有限,用途也仅限于当下,从长期来看,信息在代际之间的传递只能靠基因的遗传和变异。因此一种生物对新环境的适应,只能通过自然选择,在很长的时间尺度上才能做到。人类语言的出现,或者更准确地说,是语言达到一种通用的程度,能够描述生活中的各种复杂场景和思想,根本地改变了这一点。即使在没有文字的时代,人类也已经可以通过口口相传,积累很多宝贵的经验,发展出农业这样的复杂技能。一个人发明了轮子,所有其他人就不需要再发明轮子,只需要把制作轮子的技术不断传下去。今天的人类与一万年前相比,基因和智商的差异大约可以忽略,但能够建立起如此复杂的社会结构,创造出璀璨的科学、技术、文化,从信息动力学的角度就是归功于一种新的信息载体——语言,和新的信息动力学过程——人的思考和交流。总结一下,从生命出现到语言出现这段时间,可以称为“DNA时代”,在这个时代中长期起作用的信息的主要载体是DNA,起决定性作用的信息动力学过程是遗传变异和自然选择。语言出现(大约十几万年前)以来的时代可以称为“人类语言时代”,在这个时代起决定性作用的信息载体是人类语言,起决定性作用的信息动力学过程是语言的处理(通过人脑的思考和交流)、记录和传播。
基于以上的讨论,我们再来从信息的角度思考语言模型革命的意义。自从电脑和互联网发明以来,信息的传播和处理已经比以前要迅速得多,特别是移动互联网时代以来,我们生活的很多方面已经被这些新技术深刻改变,但如果深入思考一下机器对于信息能够作出怎样的处理,我们会发现在大语言模型出现之前,机器对信息的处理与人还是有很大的不同。这个区别的关键在于复杂度。粗略地说,一个任务的计算复杂度(computational complexity)量度的是在给定基本单元(例如逻辑门)的情况下,需要多少次运算才能完成这个任务,而信息复杂度则是定义为需要多少次运算才能从一个给定的初始条件出发生成出这样的信息。例如搜索引擎需要针对大量的网页之间的链接和用户使用数据进行一个复杂的计算来给出推荐,这种计算的复杂度远超一个人类大脑能够处理的水平。但是在衡量复杂度的时候除了计算复杂度,还要考虑输入和输出的信息的复杂度。搜索引擎虽然具有很高的计算复杂度,其输出的信息却是严格限定的——网页或者其他的被推荐内容都是人类创作的,机器只负责做一个排序。思考一下其他那些我们日常使用的功能(例如发邮件,打车,地图导航),就会发现其实手机和电脑完成的任务几乎都是信息的搬运工:帮助我们提升效率,但并不进行复杂的信息处理。另一种例子是AlphaGo:其信息处理的复杂度已经显然高于人类,但只限于围棋这个具体的任务。在这两种例子中,都存在着信息的瓶颈:输入、处理和输出三个环节中,至少一个环节的复杂度受到了限制,导致机器整体上能够完成的任务受限,只能一次性地完成一个任务,把信息交换给人类。
大语言模型的出现在这个意义上带来了一场革命:大语言模型的信息输入、处理和输出的复杂度都达到了和人类可以比拟的水平(图4)。如上文所述,语言是人类文明的载体,人类做的一切事情都可以用语言来描述,大语言模型对于自然语言的处理虽然还没有达到人类的智能水平,但其复杂度已经与人类相当。或者至少在对话场景中,对于语言文字的处理复杂度达到了和人类可以比拟的水平。可以说,大语言模型标志着机器的信息处理复杂度跨越了临界点。比起以前的计算机,大语言模型解除了信息的瓶颈。如果接受这个判断的话,其影响是难以估量的。具有了足够复杂的输入输出能力,一个模型的输出就可以直接变成另一个模型的输入,模型之间可以构建复杂的合作网络,就像人类个体构建社会组织一样。一旦模型之间的合作具有1加1大于2的效果,智能的发展将进入新一轮的指数增长。这就像物理学中的相变:一个磁性材料里面每一个电子自旋的行为在相变点之上和之下并无多大区别,但决定整个体系宏观性质发生定性改变的是随着空间尺度的扩展和自由度的增加,其有序性是增强还是减弱。
图4 大语言模型(LLM)和之前的机器(例如AlphaGo,Google)在信息的输入、处理和输出的复杂度对比。虚线代表人类水平
跨越临界点的AI将迅速成为与人类并驾齐驱的信息处理者。今天的语言模型,包括多模态模型,处理信息的基本单元是向量(vector)。人类语言以及多模态数据通过称为嵌入(embedding)的映射被翻译成向量进行运算。可以说向量就是AI的语言。今天的AI革命,意味着信息的载体从人类语言部分转移到向量,起决定性作用的信息动力学过程从人脑的思考部分地转移到GPU中的计算。从这个意义上说,语言模型的革命具有和人类语言的出现同等级别的意义(图5)。
图5 按照起决定性作用的信息动力学过程给地球的历史分阶段
总结一下前文所说的内容,我们看到今天的大语言模型已经越过信息复杂度的临界点,训练了一个强大的系统1,这也为下一步,即构建系统2铺平了道路。从人类认知的例子中我们可以看出,系统1是构建系统2的基本单元。因此AI的系统2也就是系统1(大模型)组成的网络,也就是通过多次调用大模型完成不同的子任务,来实现更复杂的功能。这个方向过去一年中也有越来越多的研究,通常被称为AI智能体(AI agents)。通过多个LLM分工合作,并且拥有长期记忆,原则上说可以实现从系统1到系统2的扩展。下面我会通过几个例子来解释一下AI智能体的基本概念。
第一个例子是著名的“chain-of-thought”(思维链)提示策略(图8)[6]。对于一个给定的问题,例如一道数学题,如果不是让AI直接输出答案,而是一步步输出中间过程,就可以提高AI的推理准确度。在最简单的实现方式中,AI根据输入x来输出中间步骤z1, z2,…zn,然后再得出结论y,所以这可以认为还是一次调用LLM。如果应对更复杂的问题,可以让AI先写出这个中间步骤的链条,再针对每一步去细化其内容,这就是多次调用LLM,也可以看成是最简单的智能体。在一篇2023年的工作中[7],作者将这个策略推广到了“思维树”,即在每一步推理之后让AI产生一些可能的下一步,形成一个树状的结构,再去评估哪一种策略更可行。通过这种方式可以进一步提高AI解题的准确率。沿着这一方向,后续也有工作将思维树再推广成更一般的思维图(graph of thought)[8]。
图8 几种不同的对大模型的调用方式 (a)给定问题直接输出答案;(b)思维链提示词;(c)多条思维链再做多数表决;(d)思维树[7]
第二个例子是斯坦福大学一个研究组设计的AI虚拟小镇(图9)[9]。这个工作设计了一个虚拟游戏环境,有25个AI智能体生活在一个虚拟小镇中。每个智能体都有自己的人物设定(学生、老师等不同身份)、记忆(每天经历的事情,遇到的人)。智能体会根据记忆和自己的设定来决定下一步做的事情,也需要对于经历过的事情进行反思,把重要的信息存入记忆中。智能体之间的社交互动表现出了复杂的行为,例如组织一次生日聚会。在这个例子中,每个智能体都需要有系统2,通过调用长期记忆、计划和反思来实现复杂的社会行为。
图9 AI虚拟小镇[9]
第三个例子是通过多次调用LLM和多个智能体之间的对话来完成一个复杂任务。这方面有很多工作,典型的例子是最早提出的autoGPT[10]和微软开发的AutoGen(图10)[11]。对于人类用户提出的一个任务,AI会先做出计划,然后去执行,遇到问题再自己排除故障,如此循环迭代。LLM之间会通过对话来解决问题,比如一个LLM负责写代码,另一个负责运行代码和返回结果或者错误。
图10 AutoGen示意图[11] (a)AutoGen的智能体可以包括大模型或者其他工具,也可以包括人的输入;(b)AutoGen的智能体之间可以通过对话解决问题
最后举一个物理学的例子,在一篇2024年的工作中,康奈尔大学的一个研究组用GPT来分步骤进行Hartree—Fock近似的计算(图11)[12]。在科研中,有很多已经成熟的推导或者计算内容可以用类似的方式来自动化。绝大部分这样的任务不是直接调用LLM就可以完成的,而是需要设计这样的多步骤流程,也就是需要用到AI智能体。
图11 LLM分步骤自动进行Hartree—Fock计算[12]
AI智能体的重要性越来越成为广泛的共识[13],但其研究工作还处于早期阶段。目前的各种应用仍是尝试性的,对比人类的系统2,我们可以看到人工智能要发展出真正通用的系统2需要克服以下几点挑战:
(1)自组织能力。目前的智能体应用仍然依赖于人设计好的工作流(workflow)。要让AI智能体能够成为AI的系统2,就要让AI自己能够进行计划,设计出完成一件事情需要的工作流,并且不断根据反馈来改进这种设计工作流的能力。要形成这样的自组织能力,需要AI对于自己的系统1能够实现的各种能力具有良好的把握,能够从各种基本能力中准确的搜索和调用正确的组件来实现更复杂的功能。
(2)系统2沉淀成系统1的能力。在前面我们讨论过人类是如何把本来需要系统2的能力“熟能生巧”沉淀回系统1的。AI要不断扩展它的能力,关键在于也要具有这样的能力,对于常见的任务可以逐渐降低推理成本,而不是每次重复同样的计算。
(3)计算成本。目前AI的计算成本相对于人而言仍然高得多。人面对一件事情可以同时有很多思路,从中迅速作出判断选择,这对目前的AI来说需要很多次的反复调用来实现,其中的速度问题、准确度问题为智能体真正应用于实际问题带来了困难。但我们也要看到AI计算成本正在迅速下降,各大模型降价速度很快,随着计算需求的不断增加,基础设施的生产不断跟上,未来几年计算成本将会继续大幅下降。
解决这些挑战,在大模型基础上构建通用性的系统2,是实现通用人工智能(AGI)的关键一步,也是笔者现在的一个重点工作方向。
总结一下,本文综述了大语言模型的基本原理和最近的进展,并且从信息动力学的角度分析了大语言模型对人工智能发展的意义。基于大语言模型与人类认知系统的比较,本文提出人工智能的下一步是系统2,而AI智能体这个方向与系统2的发展密切相关。本文对于AI智能体方向的一些发展给出了一些概述,并探讨了下一步工作主要需要应对的挑战。
在接下来的5—10年,人工智能的发展将会给人类社会的各方面带来深远的影响,甚至是翻天覆地的变化。在各方面的影响中,对于科学研究等创新工作的影响可能是最深刻的变化之一。如何应用人工智能来帮助科学研究,是非常值得深入思考和探索的问题。
(参考文献可上下滑动查看)
我对吴有训、叶企孙、萨本栋先生的点滴回忆 | 《物理》50年精选文章
国立西南联合大学物理系——抗日战争时期中国物理学界的一支奇葩(Ⅰ) | 《物理》50年精选文章
国立西南联合大学物理系——抗日战争时期中国物理学界的一支奇葩(Ⅱ) | 《物理》50年精选文章
原子核裂变的发现:历史与教训——纪念原子核裂变现象发现60周年 | 《物理》50年精选文章
回顾与展望——纪念量子论诞生100周年 | 《物理》50年精选文章
中国理论物理学家与生物学家结合的典范——回顾汤佩松和王竹溪先生对植物细胞水分关系研究的历史性贡献(上) |《物理》50年精选文章
中国理论物理学家与生物学家结合的典范——回顾汤佩松和王竹溪先生对植物细胞水分关系研究的历史性贡献(下) |《物理》50年精选文章
为了忘却的怀念——回忆晚年的叶企孙 | 《物理》50年精选文章
从分子生物学的历程看学科交叉——纪念金螺旋论文发表50周年 | 《物理》50年精选文章
美丽是可以表述的——描述花卉形态的数理方程 | 《物理》50年精选文章
一本培养了几代物理学家的经典著作 ——评《晶格动力学理论》 |《物理》50年精选文章
熵非商——the Myth of Entropy |《物理》50年精选文章
普渡琐记——从2010年诺贝尔化学奖谈起 |《物理》50年精选文章
天气预报——由经验到物理数学理论和超级计算 | 《物理》50年精选文章
纪念Bohr的《伟大的三部曲》发表100周年暨北京大学物理专业建系100周年 | 《物理》50年精选文章
凝聚态材料中的拓扑相与拓扑相变——2016年诺贝尔物理学奖解读 |《物理》50年精选文章
通用量子计算机和容错量子计算——概念、现状和展望 | 《物理》50年精选文章
谈书说人之一:《理论物理学教程》是怎样写成的?| 《物理》50年精选文章
时空奇点和黑洞 ——2020年诺贝尔物理学奖解读 |《物理》50年精选文章
凝聚态物理学的新篇章——超越朗道范式的拓扑量子物态 | 《物理》50年精选文章
对于麦克斯韦方程组,洛伦兹变换的低速极限是伽利略变换吗?| 《物理》50年精选文章