深度好文 | 六边形战士Agent:以LLM为盾,自主智能为剑

教育   2024-10-23 16:13   北京  

👆点击“博文视点Broadview”,获取更多书讯


--文末赠书-- 



引言

在人工智能的浩瀚宇宙中,自主智能体的探索如同寻找新世界的航程,充满了希望与挑战。随着大模型的兴起,我们见证了自主智能体从简单的流程自动化进化为能够执行复杂任务、与人类进行深入交互的智能存在。这一领域的进步不仅推动了技术的发展,也为我们提供了理解和模拟人类行为的新视角。《A Survey on Large Language Model based Autonomous Agents》这篇综述从基础架构的设计到智能体在各个领域的应用,再到评估和挑战,全面解析这一领域的现在与未来。让我们一起深入自主智能体这一充满潜力和魅力的AI领域,探索智能体技术的最新进展,洞悉其长远风险与无限可能。

原文链接:https://arxiv.org/abs/2308.11432




综述看点‍‍



  1. 智能体架构的创新设计:如何构建能够自我学习、适应并执行复杂任务的智能体?

  2. 能力获取的双路径:微调与非微调策略,哪种更能激发智能体的潜能?

  3. 跨领域的应用案例:从社会科学到工程,智能体如何在各个领域大显身手?

  4. 评估策略的深度解析:主观与客观,如何全面评价智能体的性能?

  5. 发展中的挑战:角色扮演、对齐问题、鲁棒性,智能体面临哪些关键挑战?

  6. 未来发展方向:安全、稳定与效率,智能体的未来发展将何去何从?


内容概览‍‍


1.引言与背景

  • 人工智能的快速发展

  • 自主智能体的兴起与应用

  • 大型语言模型(LLMs)的革命性影响

2.预备知识:自主智能体基础

  • 智能体架构设计的核心要素

  • 记忆模块与规划模块的作用

  • 动作模块的实现机制

3.基于LLM的自主智能体技术

1)智能体架构的构建

  • 分析模块:角色定义与特征提取

  • 记忆模块:信息存储与检索

  • 规划模块:任务分解与策略制定

  • 动作模块:决策与执行

2)智能体能力的获取

  • 通过微调提升智能体能力

  • 不依赖微调的智能体能力获取策略

3)智能体的应用领域

  • 社会科学:心理学、政治科学、法学

  • 自然科学:文档管理、实验辅助、教育

  • 工程:土木工程、计算机科学、机器人技术

4)智能体的评估

  • 主观评估:人类评价与图灵测试

  • 客观评估:任务成功率、人类相似性、效率

4.挑战与开放问题

  • 智能体的角色扮演能力

  • 智能体与人类的对齐问题

  • 智能体prompt的鲁棒性

  • 智能体的幻觉问题

  • 智能体的知识边界与效率问题

5.自主智能体的未来方向

  • 提升智能体的决策效率

  • 确保智能体的安全性与伦理性

  • 智能体在多领域的进一步应用

  • 建立智能体应用的规范框架






基于大型语言模型的自主智能体研究综述


摘要——自主智能体长期以来一直是学术界和工业界的研究重点。以往的研究往往侧重于在孤立环境中训练具有有限知识的智能体,这与人类学习过程存在显著差异,使得智能体难以做出类似人类的决策。最近,通过获取大量网络知识,大型语言模型(LLMs)已展现出人类级别的智能潜力,从而引发了基于LLM的自主智能体研究的激增。本文中,我们对这些研究进行了全面综述,从整体视角对基于LLM的自主智能体进行了系统回顾。首先,我们讨论了基于LLM的自主智能体的构建,提出了一个包含以往大部分工作的统一框架。然后,我们概述了基于LLM的自主智能体在社会科学、自然科学和工程领域的多样化应用。最后,我们深入探讨了常用于评估基于LLM的自主智能体的策略。基于以往研究,我们还提出了该领域面临的几项挑战和未来研究方向。

关键词:自主智能体,大型语言模型,人工智能




1 引言

“自主智能体是一个系统,它位于环境之中并成为环境的一部分,能够感知环境并随时间对其采取行动,以追求自己的议程并影响它未来所感知的内容。”(Franklin 和 Graesser,1997)

自主智能体长期以来被视为实现人工通用智能(AGI)的一种有前景的方法,期待其能够通过自我导向的规划和行动来完成任务。在以往的研究中,智能体被基于简单和启发式的策略函数行动,并在孤立和受限的环境中学习。这些假设与人类学习过程存在显著差异,因为人类大脑高度复杂,个体能够从更广泛多样的环境中学习。由于这些差距,以往研究中的智能体通常远远无法复制人类级别的决策过程,尤其是在无约束、开放领域的环境中。

近年来,大型语言模型(LLMs)取得了显著成功,展示了在接近人类智能方面的巨大潜力。这种能力源于利用全面的训练数据集以及大量的模型参数。在这种能力的基础上,越来越多的研究领域采用LLM作为中央控制器来构建自主智能体,以获得类似人类的决策能力。

与强化学习相比,基于LLM的智能体拥有更全面的内部世界知识,这有助于在没有针对特定领域数据进行训练的情况下做出更明智的行动。此外,基于LLM的智能体可以提供自然语言接口与人类交互,这种方式更加灵活且易于解释。

沿着这一方向,研究人员开发了众多有前景的模型(见图1),其核心思想是为LLM配备关键的人类能力,如记忆和规划,使它们能够像人类一样行动并有效完成各种任务。以前,这些模型是独立提出的,很少有人尝试从整体上对它们进行总结和比较。然而,我们认为,对这一快速发展领域的系统总结对于全面理解该领域并激发未来研究具有重要意义。

图1:基于LLM的智能体领域的增长趋势。图中列出了2021年1月至2023年8月发表的论文的累计数量。不同的颜色来表示各种智能体类别。例如,游戏智能体旨在模拟游戏玩家,而工具智能体主要关注工具的使用。

在本文中,我们对基于LLM的自主智能体领域进行了全面综述。具体而言,我们的综述基于三个方面:基于LLM的自主智能体的构建、应用和评估。在智能体构建方面,我们关注两个问题:(1)如何设计智能体架构以更好地利用LLMs;(2)如何激发和提升智能体完成不同任务的能力。直观地说,第一个问题旨在构建智能体的硬件基础,而第二个问题则侧重于为智能体提供软件资源。对于第一个问题,我们提出了一个统一的智能体框架,该框架可以涵盖大多数以往的研究。对于第二个问题,我们总结了智能体能力获取的常用策略。除了讨论智能体构建外,我们还系统地概述了基于LLM的自主智能体在社会科学、自然科学和工程领域的应用。最后,我们深入探讨了评估基于LLM的自主智能体的策略,重点包括主观和客观策略。

总结而言,本文对基于大型语言模型(LLM)的自主智能体这一新兴领域中的现有研究进行了系统回顾,并建立了全面的分类体系。我们的研究重点涵盖了三个主要领域:智能体的构建、应用以及评估方法。通过广泛借鉴前人的研究,我们确定了该领域的各种挑战,并探讨了潜在的未来发展方向。我们期望本文能够为基于LLM的自主智能体领域的新入行者提供全面的背景知识。


2 基于LLM的自主智能体的构建

基于大型语言模型(LLM)的自主智能体有望通过利用LLM的类人能力来有效执行各种任务。为了实现这一目标,有两个重要方面需要考虑,即(1)应该设计哪种架构以更好地利用LLM;(2)在给定设计的架构下,如何使智能体获得完成特定任务的能力。在架构设计方面,我们对现有研究进行了系统的综合,最终形成了一个全面的统一框架。至于第二个方面,我们根据是否对LLM进行微调,总结了智能体能力获取的策略。将基于LLM的自主智能体与传统机器学习进行比较,设计智能体架构类似于确定网络结构,而智能体能力获取则类似于学习网络参数。接下来,我们将更详细地介绍这两个方面。

2.1 智能体架构设计

大型语言模型(LLM)的最新进展已经证明了它们在以问答(QA)形式完成广泛任务方面的巨大潜力。然而,构建自主智能体远不止于问答,因为它们需要履行特定角色,并像人类一样自主感知和学习环境以进行自我进化。为了弥合传统LLM与自主智能体之间的差距,一个关键方面是设计合理的智能体架构,以协助LLM最大限度地发挥其能力。沿着这一方向,先前的工作已经开发了许多模块来增强LLM。在本节中,我们提出了一个统一框架来总结这些模块。具体来说,我们框架的总体结构如图2所示,该框架由分析模块、记忆模块、规划模块和执行模块组成。分析模块的目的是确定智能体的角色。记忆模块和规划模块将智能体置于动态环境中,使其能够回忆过去的行为并规划未来的行动。执行模块负责将智能体的决策转化为具体输出。在这些模块中,分析模块影响记忆模块和规划模块,而这三个模块共同影响执行模块。接下来,我们将详细介绍这些模块。

图2 基于LLM的自主智能体架构设计的统一框架。

2.1.1 分析模块

自主智能体通常通过扮演特定角色来执行任务,如编码员、教师和领域专家。分析模块旨在指出智能体角色的特征,这些特征通常被写入prompt中以影响LLM的行为。智能体特征通常包括基本信息,如年龄、性别和职业[20],以及心理信息,反映智能体的个性,还有社交信息,详细说明智能体之间的关系。智能体特征信息的选择很大程度上取决于具体的应用场景。例如,如果应用旨在研究人类认知过程,那么心理信息就变得至关重要。在确定了特征信息的类型后,接下来的重要问题是为智能体创建具体的特征。现有文献通常采用以下三种策略。

手动方法:在这种方法中,智能体的特征是通过手动指定的。例如,如果想要设计具有不同个性的智能体,可以使用“你是一个外向的人”或“你是一个内向的人”来描绘智能体的特征。手动方法已经在许多先前的工作中用于指示智能体的特征。例如,Generative Agent通过名称、目标和与其他智能体的关系等信息来描述智能体。MetaGPT、ChatDev和Self-collaboration在软件开发中预定义了各种角色及其相应的职责,并手动为每个智能体分配不同的特征以促进协作。总的来说,手工方法非常灵活,因为可以为智能体分配任何特征信息。然而,当处理大量智能体时,这种方法可能会非常耗时费力。

LLM生成方法:在这种方法中,智能体的特征是基于LLM自动生成的。通常,这种方法首先指定特征生成规则,阐明目标群体中智能体特征的组成和属性。然后,可以选择性地指定几个种子智能体特征作为少量样本示例。最后,利用LLM生成所有智能体的特征。例如,RecAgent首先通过手动创建少量智能体的背景(如年龄、性别、个人特质和电影偏好)来创建种子特征。然后,它利用ChatGPT基于这些种子信息生成更多智能体特征。当智能体数量较大时,LLM生成方法可以节省大量时间,但可能缺乏对生成特征的精确控制。

数据集对齐方法:在这种方法中,智能体的特征是从现实世界的数据集中获得的。通常,人们可以首先将数据集中关于真实人类的信息组织成自然语言提示,然后利用这些信息来描绘智能体的特征。例如,在相关研究中,根据美国全国选举研究(ANES)中参与者的人口统计背景(如种族/民族、性别、年龄和居住地)为GPT-3分配角色。他们随后调查GPT-3是否能产生与真实人类相似的结果。数据集对齐方法准确地捕捉了真实人口的属性,从而使智能体的行为更有意义并反映现实世界场景。

备注:虽然大多数先前的工作独立地利用上述特征生成策略,但我们认为将它们结合起来可能会带来额外的好处。例如,为了通过智能体模拟来预测社会发展,可以利用现实世界的数据集来描绘一部分智能体的特征,从而准确反映当前的社会状况。随后,可以为其他智能体手动分配现实世界中不存在但未来可能出现的角色,从而预测未来的社会发展。除了这个例子之外,还可以灵活地结合其他策略。特征模块作为智能体设计的基础,对智能体的记忆、规划和行动过程产生重大影响。

2.1.2 记忆模块

记忆模块在智能体架构设计中扮演着极其重要的角色。它存储从环境中感知到的信息,并利用记录的记忆来促进未来的行动。记忆模块有助于智能体积累经验、自我进化,并以更加一致、合理和有效的方式表现。本节将全面概述记忆模块,重点介绍其结构、格式和操作。

记忆结构:基于大型语言模型(LLM)的自主智能体通常融入从认知科学研究人类记忆过程中得出的原理和机制。人类记忆遵循一个一般的发展过程,从记录感知输入的感官记忆,到短暂保持信息的短期记忆,再到在较长时间内巩固信息的长期记忆。在设计智能体记忆结构时,研究人员从人类记忆的这些方面获得灵感。具体而言,短期记忆类似于受Transformer架构限制的上下文窗口内的输入信息。长期记忆则类似于agent可以快速查询和检索的外部向量存储。接下来,我们将介绍基于短期和长期记忆的两种常用记忆结构。

  • 统一记忆(Unified Memory):这种结构主要模拟人类的短期记忆,通常通过上下文学习实现,记忆信息直接写入prompt中。例如,RLP是一个对话智能体,它维护说话者和听者的内部状态。在每一轮对话中,这些状态作为大型语言模型(LLM)的prompt,充当智能体的短期记忆。

在实践中,实现短期记忆相对直接,并可以增强智能体感知最近或上下文敏感行为和观察的能力。然而,由于LLM上下文窗口的限制,很难将所有记忆都放入prompt中,这可能会降低智能体的性能。这种方法对LLM的窗口长度和处理长文本的能力有很高要求。

因此,许多研究人员转而采用混合记忆系统来解决这一问题。混合记忆系统结合了短期记忆和长期记忆的优势,以更全面地捕捉和存储信息。然而,LLM有限的上下文窗口仍然是一个挑战,它限制了将全面记忆整合到prompt中的能力,这可能会损害智能体的性能。这一挑战要求LLM具备更大的上下文窗口和处理扩展上下文的能力。因此,许多研究者正在探索和开发新的LLM架构和技术,以克服这些限制并提升智能体的性能。

  • 混合记忆(Hybrid Memory):这种结构明确地模拟了人类的短期记忆和长期记忆。短期记忆临时存储最近的感知信息,而长期记忆则随着时间的推移巩固重要信息。例如,Generative Agent采用混合记忆结构来促进智能体行为。其短期记忆包含关于智能体当前情况的上下文信息,而长期记忆则存储智能体过去的行为和思想,这些可以根据当前事件进行检索。AgentSims也实现了混合记忆架构。在AgentSims中,prompt中提供的信息可以视为短期记忆。为了增强记忆的存储容量,作者提出了一个利用向量数据库的长期记忆系统,以实现高效存储和检索。

在实践中,整合短期记忆和长期记忆可以增强智能体进行长程推理和积累宝贵经验的能力,这对于在复杂环境中完成任务至关重要。

  • 备注:还存在另一种仅基于长期记忆的记忆结构,但我们在文献中很少见到这种类型的记忆。我们的推测是,智能体总是处于连续和动态的环境中,连续的行动显示出高度的相关性。因此,捕捉短期记忆非常重要,通常不能忽视。

记忆格式(Memory Formats):除了记忆结构外,分析记忆模块的另一个角度是基于存储介质的格式,如自然语言记忆或嵌入记忆。不同的记忆格式具有各自的优势,适用于不同的应用场景。以下介绍几种代表性的记忆格式。

  • 自然语言(Natural Languages):在这种格式中,记忆信息(如agent的行为和感知)直接用原始自然语言描述。这种格式有几个优点。首先,记忆信息可以以一种灵活且易于理解的方式表达。此外,它保留了丰富的语义信息,可以为智能体行为提供全面的指导信号。在之前的工作中,Reflexion在滑动窗口内以自然语言形式存储经验反馈,而Voyager则使用自然语言描述来表示Minecraft游戏中的技能,这些技能直接存储在记忆中。

  • 嵌入(Embeddings):在这种格式中,记忆信息被编码成嵌入向量,这可以提高记忆检索和读取的效率。例如,MemoryBank将每个记忆片段编码为嵌入向量,从而创建一个用于检索的索引语料库。ChatDev将对话历史编码为向量以便检索。

  • 数据库(Databases):在这种格式中,记忆信息存储在数据库中,使智能体能够高效地操作和全面地管理记忆。例如,ChatDB使用数据库作为符号记忆模块,智能体可以利用SQL语句精确地添加、删除和修改记忆信息。

  • 结构化列表(Structured Lists):在这种格式中,记忆信息被组织成列表,并以高效且简洁的方式传达记忆的语义。例如,GITM在层次树结构中存储子目标的动作列表,这种层次结构明确捕捉了目标和相应计划之间的关系。

  • 备注:这里仅展示了几种代表性的记忆格式,但值得注意的是,还有许多未被广泛讨论的格式。此外,应该强调的是,这些格式并不是互斥的;许多模型结合了多种格式以同时利用它们各自的优点。一个显著的例子是GITM的记忆模块,它使用了一种键值列表结构,其中键由嵌入向量表示,而值则由原始自然语言组成。使用嵌入向量允许高效地检索记忆记录,而利用自然语言则使记忆内容更加全面,从而指导智能体做出更明智的行动。

以上我们主要讨论了记忆模块的内部设计。接下来,我们将关注记忆操作,即与外部环境的交互方式。

记忆操作:记忆模块在允许智能体通过与环境交互来获取、积累和利用重要知识方面发挥着关键作用。智能体与环境之间的交互通过三个关键的记忆操作来实现:记忆读取、记忆写入和记忆反思。下面,我们将更详细地介绍这些操作。

  • 记忆读取:记忆读取的目的是从记忆中提取有意义的信息,以增强智能体的行为。例如,利用之前成功的行为来实现类似的目标。记忆读取的关键在于如何从历史行为中提取有价值的信息。通常,信息提取有三个常用的标准,即即时性(recency)、相关性(relevance)和重要性(importance)。更接近、更相关和更重要的记忆更有可能被提取。

  • 记忆写入:记忆写入的目的是将感知到的环境信息存储在内存中。在内存中存储有价值的信息为未来检索信息丰富的记忆提供了基础,使智能体能够更高效、更理性地行动。在记忆写入过程中,有两个潜在问题应仔细解决。一方面,是要解决如何存储与现有记忆相似的信息(即记忆重复)。另一方面,当记忆达到存储限制时(即记忆溢出),如何删除信息也很重要。以下,我们将更详细地讨论这些问题。

    • 记忆重复:为了合并相似信息,人们开发了各种方法来整合新的和以前的记录。例如,与同一子目标相关的成功动作序列被存储在一个列表中。一旦列表的大小达到N,则使用大型语言模型将所有序列压缩成一个统一的计划解决方案。记忆中的原始序列被新生成的序列替换。

    • 记忆溢出:为了在记忆已满时写入信息,人们设计了不同的方法来删除现有信息以继续写入记忆。例如,在ChatDB中,可以根据用户命令显式的删除记忆。或以先进先出(FIFO)的方式覆盖最旧的记忆。这种方法确保了记忆中始终包含最新的信息,尽管它可能导致较早的信息被覆盖。其他策略可能包括基于信息的价值或重要性的更复杂的删除算法,但这通常会增加实现的复杂性和计算成本。

    • 记忆反思:记忆反思模拟了人类见证和评估自身认知、情感和行为过程的能力。当将其应用于智能体时,目标是为智能体提供独立总结和推断更抽象、复杂和高级信息的能力。生成式智能体有能力将其存储在记忆中的过去经验总结为更广泛和更抽象的见解。此外,反思过程可以分层次进行,即可以基于现有的见解生成新的见解。在GITM中,成功完成子目标的操作被存储在一个列表中。当列表包含超过五个元素时,智能体会将它们总结为一个共同且抽象的模式,并替换所有元素。在ExpeL中,为智能体引入了两种获取反思的方法。首先,智能体比较同一任务中成功或失败的轨迹。其次,智能体从一系列成功的轨迹中学习以获得经验。

传统大型语言模型与智能体之间的一个显著差异在于,后者必须具备在动态环境中学习和完成任务的能力。如果我们将记忆模块视为负责管理智能体过去行为的模块,那么拥有一个能够协助智能体规划未来行动的模块就变得至关重要。接下来,我们将概述研究人员如何设计规划模块。

2.1.3 规划模块

在面对复杂任务时,人类倾向于将其拆解为更简单的子任务并逐一解决。规划模块旨在赋予智能体这种人类能力,以期使其行为更加合理、强大和可靠。具体而言,我们根据智能体在规划过程中是否能接收反馈来总结现有研究,具体细节如下:

无反馈规划:在这种方法中,智能体在执行动作后不会接收到能够影响其未来行为的反馈。接下来,我们介绍几种代表性策略。

  • 单路径推理:在这种策略中,最终任务被分解为几个中间步骤。这些步骤以级联方式相连,每个步骤仅导致一个后续步骤。大型语言模型(LLMs)遵循这些步骤以实现最终目标。具体而言,思维链(Chain of Thought, CoT)提出将解决复杂问题的推理步骤作为prompt输入。这些步骤作为示例,激发LLMs以逐步的方式规划和行动。在此方法中,规划是基于prompt中示例的启发而创建的。零样本思维链(Zero-shot-CoT)通过提供如“逐步思考”这样的触发句来诱导LLMs生成任务推理过程。与CoT不同,该方法不在prompt中包含推理步骤作为示例。重提示(RePrompting)涉及在生成计划之前检查每个步骤是否满足必要的先决条件。如果某一步骤不满足先决条件,则引入先决条件错误消息并提示LLMs重新生成计划。

  • 多路径推理:在这种策略中,用于生成最终计划的推理步骤被组织成树状结构。每个中间步骤可能有多个后续步骤。这种方法类似于人类思维,因为个体在每个推理步骤上可能有多个选择。具体而言,自洽思维链(Self-consistent CoT, CoT-SC)认为每个复杂问题都有多种思考方式来推导出最终答案。因此,它首先使用CoT生成不同的推理路径和相应的答案。然后,选择出现频率最高的答案作为最终输出。思维树(Tree of Thoughts, ToT)旨在使用树状推理结构生成计划。在这种方法中,树中的每个节点代表一个“思维”,对应于一个中间推理步骤。这些中间步骤的选择基于LLMs的评估。最终计划是使用广度优先搜索(BFS)或深度优先搜索(DFS)策略生成的。与一次性生成所有计划步骤的CoT-SC相比,ToT需要为每个推理步骤查询LLMs。在RecMind中,作者设计了一种自我启发机制,其中规划过程中丢弃的历史信息也被用来推导出新的推理步骤。在GoT中,作者将ToT中的树状推理结构扩展到图结构,从而产生了更强大的prompt策略。为了增强理解,图3中展示了单路径和多路径推理策略的比较。

  • 外部规划:尽管LLM在零样本规划中表现出了强大的力量,但有效地生成针对特定领域问题的计划仍然极具挑战性。为了应对这一挑战,研究人员转向外部规划器。这些工具经过精心开发,采用高效的搜索算法来快速识别正确甚至最优的计划。如LLM+P首先将任务描述转换为规范化的规划领域定义语言(Planning Domain Definition Languages,PDDL),然后使用外部规划器处理。最后,生成的结果被LLMs转换回自然语言。CO-LLM表明LLMs擅长生成高级计划,但在低级控制方面存在困难。为了克服这一局限性,采用了一个启发式设计的外部低级规划器来根据高级计划有效地执行动作。

图3 单路径和多路径推理策略的比较。

带反馈的规划: 在许多现实场景中,智能体需要制定长期规划以解决复杂任务。面对这些任务时,上述无反馈的规划模块可能因以下原因而效果不佳:首先,从一开始就生成一个完美的计划极其困难,因为这需要考虑各种复杂的先决条件。因此,简单地遵循初始计划往往会导致失败。此外,计划的执行可能会受到不可预测的影响,从而使初始计划无法执行。同时,在观察人类如何解决复杂任务时,我们发现个体可能会根据外部反馈迭代地制定和修改计划。为了模拟这种人类能力,研究人员设计了多种规划模块,其中智能体在采取行动后可以接收反馈。这些反馈可以来自环境、人类和模型,具体如下:

  • 环境反馈:这种反馈来自客观世界或虚拟环境。例如,它可能是游戏的任务完成信号或智能体采取行动后的观察结果。具体而言,ReAct提出使用思维-行动-观察三元组构建prompt。思维组件旨在促进高级推理和规划,以指导智能体的行为。行动代表智能体采取的具体行动。观察则对应于通过外部反馈(如搜索引擎结果)获得的行动结果。下一个思维受到之前观察的影响,这使得生成的计划更能适应环境。

  • 人类反馈:除了从环境中获取反馈外,直接与人类交互也是提升智能体规划能力的一种非常直观的策略。人类反馈是一种主观信号,它可以有效地使智能体与人类的价值观和偏好保持一致,同时也有助于缓解幻觉问题。不同类型的反馈可以结合起来以增强智能体的规划能力。

  • 模型反馈:除了上述的外部信号——环境和人类反馈外,研究人员还研究了利用智能体自身的内部反馈。这种反馈通常基于预训练模型生成。针对此,有研究人员提出了一种自我精炼机制,该机制包含三个关键组成部分:输出、反馈和精炼。首先,智能体生成一个输出。然后,它利用大型语言模型(LLMs)对输出提供反馈,并指导如何对其进行精炼。最后,通过反馈和精炼改进输出。这个输出-反馈-精炼过程会迭代进行,直到达到某些期望条件。如SelfCheck允许智能体检查和评估其在各个阶段生成的推理步骤,并通过比较结果来纠正任何错误。

总结:总的来说,没有反馈的规划模块实现起来相对简单,但它主要适用于仅需要少量推理步骤的简单任务。相反,带反馈的规划策略需要更精心的设计来处理反馈,但它更加强大,能够有效地解决涉及长期推理的复杂任务。

2.1.4 动作模块

行动模块负责将智能体的决策转化为具体的结果。该模块位于最下游位置,并直接与环境交互。它受到特征、记忆和规划模块的影响。本节从四个角度介绍行动模块:(1)行动目标:行动的预期结果是什么?(2)行动生成:行动是如何产生的?(3)行动空间:有哪些可用的行动?(4)行动影响:行动的后果是什么?在这些角度中,前两个关注行动前的方面,第三个关注行动本身,而第四个则强调行动的影响。

行动目标(Action Goal):智能体可以执行具有各种目标的行动。以下是一些具有代表性的例子:

  1. 完成任务:在此场景下,智能体的行动旨在完成特定任务,如在《我的世界》(Minecraft)中制作一把铁镐或在软件开发中完成一个功能。这些行动通常具有明确定义的目标,且每个行动都对最终任务的完成有所贡献。

  2. 交流:在此情况下,行动是为了与其他智能体或真实人类交流信息或进行协作。例如,ChatDev中的智能体可能会相互通信以共同完成软件开发任务。在Inner Monologue[61]中,智能体积极与人类交流,并根据人类反馈调整其行动策略。

  3. 环境探索:在此示例中,智能体的目标是探索不熟悉的环境以扩展其感知能力,并在探索和利用之间取得平衡。例如,Voyager[38]中的智能体可能在完成任务的过程中探索未知技能,并通过试错法根据环境反馈不断精炼技能执行代码。

行动生成(Action Production):与普通大型语言模型(LLMs)不同,后者模型的输入和输出直接相关,而智能体可能通过不同的策略和来源来采取行动。以下介绍两种常用的行动生成策略:

  1. 通过记忆回忆行动:在这种策略中,行动是通过根据当前任务从智能体记忆中提取信息来生成的。任务和提取的记忆被用作prompt来触发智能体的行动。例如,维护一个记忆流,并在每次行动之前从记忆流中检索最近、相关且重要的信息来指导行动。在GITM中,为了实现低级子目标,智能体会查询其记忆以确定是否存在与任务相关的成功经验。如果之前已经完成了类似任务,智能体会直接调用之前成功的行动来处理当前任务。在如ChatDev和MetaGPT等协作智能体中,不同的智能体可能会相互通信,在此过程中,对话历史会被记录在智能体的记忆中,智能体生成的每个话语都受其记忆的影响。

  2. 遵循计划行动:在这种策略中,智能体根据预先生成的计划来采取行动。例如,在DEPS中,对于给定任务,智能体首先制定行动计划。如果没有信号表明计划失败,智能体会严格遵循这些计划。在GITM中,智能体通过将任务分解为多个子目标来制定高级计划。基于这些计划,智能体按顺序解决每个子目标以完成最终任务。

行动空间:行动空间指的是智能体可以执行的可能行动集合。一般来说,我们可以大致将这些行动分为两类:(1)外部工具和(2)大型语言模型(LLMs)的内部知识。以下,我们将更详细地介绍这些行动。

  • 外部工具。尽管大型语言模型已被证明能够完成大量任务,但它们可能在需要综合专业知识的领域表现不佳。此外,大型语言模型还可能遇到幻觉问题,这些问题很难由其自身解决。为了缓解上述问题,智能体被赋予了调用外部工具来执行行动的能力。以下,我们介绍了几种文献中已利用的代表性工具。

    • API:利用外部API来补充和扩展行动空间是近年来流行的一种范式。例如,HuggingGPT利用HuggingFace上的模型来完成复杂的用户任务。如在响应用户请求时自动生成查询,以从外部网页中提取相关内容。另一种类型的API是可以直接由大型语言模型根据自然语言或代码输入调用的API。例如,Gorilla是一个微调过的大型语言模型,旨在生成准确的输入参数以进行API调用,并缓解在外部API调用期间出现的幻觉问题。

    • 数据库与知识库:整合外部数据库或知识库使得智能体能够获得特定领域的信息,从而生成更为真实的动作。例如,ChatDB采用SQL语句来查询数据库,以逻辑方式促进智能体的动作。MRKL和OpenAGI则集成了各种专家系统,如知识库和规划器,以访问特定领域的信息。

    • 外部模型:以往的研究经常利用外部模型来扩大可能动作的范围。与API相比,外部模型通常处理更复杂的任务。每个外部模型可能对应于多个API。例如,为了增强文本检索能力,MemoryBank结合了两种语言模型:一种用于编码输入文本,另一种负责匹配查询语句。ViperGPT首先使用基于语言模型实现的Codex,从文本描述中生成Python代码,然后执行代码以完成给定任务。

    • 内部知识:除了利用外部工具外,许多智能体还仅依赖LLMs的内部知识来指导其动作。现在,我们介绍LLMs的几个关键能力,这些能力可以支持智能体以合理和有效的方式行动。(1)规划能力。以往的工作已经证明,LLMs可以用作出色的规划器,将复杂任务分解为更简单的任务。LLMs的这种能力甚至可以在不将示例纳入prompt中的情况下被触发。基于LLMs的规划能力,DEPS开发了一个Minecraft智能体,该智能体可以通过子目标分解来解决复杂任务。类似的智能体,如GITM和Voyager,也严重依赖LLMs的规划能力来成功完成不同的任务。(2)对话能力。LLMs通常能够生成高质量的对话。这种能力使智能体的行为更像人类。在以往的工作中,许多智能体基于LLMs强大的对话能力来采取行动。例如,在ChatDev中,不同的智能体可以讨论软件开发过程,甚至可以对自身行为进行反思。(3)常识理解能力。LLMs的另一个重要能力是它们能够很好地理解人类的常识。基于这种能力,许多智能体可以模拟人类日常生活并做出类似人类的决策。

2.2 智能体能力获取

在前面的部分中,我们主要关注如何设计智能体架构以更好地激发大型语言模型(LLMs)的能力,使其能够像人类一样完成任务。这个架构扮演着智能体的“硬件”角色。然而,仅仅依赖硬件是不足以实现有效的任务性能的。这是因为智能体可能缺乏必要的任务特定能力、技能和经验,这些可以视为“软件”资源。为了为代智能体备这些资源,已经设计了各种策略。一般来说,我们根据这些策略是否需要对LLMs进行微调,将它们分为两类。接下来,我们将更详细地介绍每一类。

通过微调获取能力:一种增强智能体完成任务能力的直接方法是基于与任务相关的数据集对智能体进行微调。通常,这些数据集可以基于人工标注、大型语言模型生成或从现实应用中收集来构建。接下来,我们将更详细地介绍这些方法。

  • 使用人工标注数据集进行微调:为了微调智能体,利用人工标注的数据集是一种多功能方法,适用于各种应用场景。在这种方法中,研究人员首先设计标注任务,然后招募工人来完成这些任务。例如,在CoH中,作者为了使大型语言模型(LLMs)与人类的价值观和偏好保持一致。将人类反馈转化为详细的比较信息,以自然语言的形式呈现。LLMs直接基于这些自然语言数据集进行微调。在RET-LLM中,为了更好地将自然语言转换为结构化记忆信息,作者基于人类构建的数据集对LLMs进行微调,其中每个样本都是一个“三元组-自然语言”对。

  • 使用LLM生成的数据集进行微调:构建人工标注的数据集需要招募人员,这可能会很昂贵,特别是当需要标注大量样本时。考虑到LLMs在广泛的任务中能够实现类似人类的能力,一个自然的想法是使用LLMs来完成标注任务。虽然这种方法生成的数据集可能不如人工标注的数据集完美,但它成本更低,并且可以用来生成更多样本。例如,在ToolBench中,为了增强开源LLMs的工具使用能力,作者从RapidAPI Hub收集了涵盖49个类别的16,464个现实世界API。他们使用这些API来提示ChatGPT生成多样化的指令,这些指令涵盖了单工具和多工具场景。基于获得的数据集,作者对LLaMA进行了微调,并在工具使用方面取得了显著的性能提升。

  • 使用真实世界数据集进行微调:除了基于人工或LLM标注构建数据集外,直接使用真实世界数据集对智能体进行微调也是一种常见策略。例如,在MIND2WEB中,作者收集了大量真实世界的数据集来增强智能体在Web领域的能力。与以往研究不同,本文提出的数据集涵盖了多样化的任务、真实世界场景以及全面的用户交互模式。

不通过微调获取能力:在传统机器学习的时代,模型的能力主要通过从数据集中学习获得,知识被编码到模型参数中。然而,在LLMs(大型语言模型)时代,模型的能力既可以通过训练/微调模型参数来获取,也可以通过设计精细的prompt(即prompt工程)来实现。在prompt工程中,需要将有价值的信息写入prompt中,以增强模型的能力或释放LLMs现有的能力。进入智能体时代,模型能力的获取可以基于三种策略:(1)模型微调,(2)prompt工程,以及(3)设计适当的智能体进化机制(我们称之为机制工程)。机制工程是一个广泛的概念,涉及开发专用模块、引入新的工作规则等策略来增强智能体的能力。为了清晰理解这些在模型能力获取策略上的转变,我们在图4中进行了说明。接下来,我们将介绍prompt工程和机制工程在智能体能力获取中的应用。

图4 获取模型能力的策略转变说明

  • 提示工程(prompt):由于LLMs强大的语言理解能力,人们可以直接使用自然语言与它们进行交互。这引入了一种增强智能体能力的新策略,即使用自然语言描述所需的能力,并将其作为prompt来影响LLMs的行为。例如,在CoT(思维链)中,为了赋予智能体进行复杂任务推理的能力,作者将中间推理步骤作为少样本示例呈现在prompt中。类似的技术也被用于CoT-SC和ToT中。在SocialAGI中,为了增强智能体在对话中的自我意识能力,作者向LLMs提供了关于听众和自身心理状态的智能体信念作为prompt,这使得生成的语句更具吸引力和适应性。此外,作者还结合了听众的目标心理状态,使智能体能够制定更具战略性的计划。Retroformer提出了一种回顾模型,使智能体能够对其过去的失败进行反思。这些反思被整合到LLMs的prompt中,以指导智能体的未来行动。此外,该模型还利用强化学习迭代地改进回顾模型,从而优化LLMs的promot。

  • 机制工程(Mechanism Engineering):与模型微调和提示工程不同,机制工程是一种独特的增强智能体能力的策略。以下我们将介绍几种机制工程的代表性方法

    • 试错法:在这种方法中,智能体首先执行一个动作,然后调用预定义的评判器来评估该动作。如果动作被认为不满意,智能体会根据评判器的反馈进行反应。例如:在DEPS中,智能体首先为给定任务设计一个计划。在执行计划的过程中,如果某个动作失败,解释器会生成详细说明失败原因的详细信息,智能体则利用这些信息重新设计计划。

    • 群体思考(crowd-sourcing):例如可以设计一种辩论机制,利用群体的智慧来增强智能体的能力。首先,不同的智能体对给定问题提供单独的响应。如果它们的响应不一致,它们将被提示结合其他智能体的解决方案并提供更新后的响应。这个过程迭代进行,直到达成最终共识答案。在这种方法中,每个智能体的能力都通过理解和整合其他智能体的观点而得到增强。

    • 经验积累:在GITM中,智能体最初不知道如何解决任务。随后,它进行探索,并在成功完成任务后,将用于该任务的动作存储在智能体记忆中。在未来,当智能体遇到类似任务时,它会提取相关记忆来完成当前任务。在这个过程中,智能体能力的提升来自于专门设计的记忆积累和利用机制。

    • 自我进化:自我进化是指智能体通过自驱的提升自身的能力,例如:在LMA3中,智能体能够自主设定目标,并通过探索环境和接收来自奖励函数的反馈来逐渐提升其能力。遵循这一机制,智能体可以根据自身的偏好来获取知识和发展能力。在SALLM-MS中,通过将先进的大型语言模型(如GPT-4)集成到多智能体系统中,智能体能够适应并执行复杂任务,展现出高级通信能力,从而在与环境的交互中实现自我驱动的进化。

备注:在比较上述智能体能力获取策略时,我们发现微调方法通过调整模型参数来提高智能体的能力,这可以融入大量特定任务的知识,但仅适用于开源的大型语言模型。而没有微调的方法通常基于精细的prompt策略或机制工程来提升智能体的能力,这些方法既可用于开源也可用于闭源的大型语言模型。然而,由于大型语言模型输入上下文窗口的限制,它们无法融入过多的任务信息。此外,prompt和机制的设计空间极大,这使得找到最优解决方案变得不易。

在前面的部分中,我们详细描述了基于大型语言模型的智能体的构建,其中我们重点关注了两个方面:架构设计和能力获取。我们在表1中展示了现有工作与上述分类的对应关系。值得注意的是,为了完整性,我们还纳入了几项研究,这些研究虽然没有明确提到基于大型语言模型的智能体,但与该领域高度相关。

表1 

表格说明:分析模块(profile),1,2,3依次表示手工,大模型生成,数据集对齐方法;记忆操作(memory operation)1表示读和写,2增加记忆反思;记忆结构(memory structe)1,2分别表示统一结构和混合结构;规划模块(plan module)1表示无反馈的规划,1表示有反馈的规划;行动模块(action module)1表示模型不能使用工具2表示模型能使用工具;对于智能体的能力获取(CA),1,2分别表示是否进行微调;-表示相关的的内容在该工作中没有被提及


3 基于LLM的智能体应用

由于强大的语言理解能力、复杂的任务推理能力和常识理解能力,基于大型语言模型(LLM)的智能体已显示出影响多个领域的巨大潜力。本节对以往研究进行了简明的总结,并根据它们在社会科学、自然科学和工程三个不同领域的应用进行了分类(图5左侧)。

图5 基于LLM的智能体的应用(左)和评估策略(右)


3.1 社会科学

社会科学是科学的一个分支,致力于研究社会和这些社会中个体之间的关系。基于大型语言模型(LLM)的智能体可以通过利用其令人印象深刻的人类般的理解、思考和任务解决能力来促进这一领域的发展。以下,我们讨论几个可能受到基于LLM的智能体影响的关键领域。

心理学:在心理学领域,基于LLM的智能体可用于进行模拟实验、提供心理健康支持等。例如,为不同的LLM分配了不同的特征,并让它们完成心理学实验。利用基于LLM的对话智能体帮助用户按需应对焦虑、社会隔离和抑郁。

政治科学与经济:基于LLM的智能体也可以用于研究政治科学和经济学。例如,利用基于LLM的智能体进行意识形态检测和投票模式预测。或通过基于LLM的智能体的辅助,专注于理解政治演讲的话语结构和说服性元素。此外,还可以为基于LLM的智能体提供了诸如才能、偏好和个性等特定特征,以探索模拟场景中的人类经济行为。

社会模拟:以往,对人类社会进行实验往往成本高昂、不道德甚至不可行。随着LLM的日益繁荣,许多人探索使用基于LLM的智能体来构建虚拟环境,以模拟社会现象,如有害信息的传播等。例如,Social Simulacra模拟了一个在线社交社区,并探索了利用基于智能体的模拟来辅助决策者改进社区规定的潜力。

法学: 基于LLM的智能体可以作为法律决策过程的辅助工具,促进更明智的判断。Blind Judgement使用多个语言模型来模拟多个法官的决策过程。它收集不同的意见并通过投票机制整合结果。ChatLaw是一个基于LLM的著名中文法律模型。它精通数据库和关键词搜索策略,特别是为了缓解此类模型中普遍存在的幻觉问题而设计。此外,该模型还采用自注意力机制来通过减轻参考不准确性的影响来增强LLM的能力。

研究助理: 除了在专门领域的应用外,基于LLM的智能体越来越多地被用作社会科学研究领域的通用助理。基于LLM的智能体可以帮助研究人员生成简洁的文章摘要,提取关键词,编写详细的研究脚本,简化研究过程。同时,有相关工作,基于LLM的智能体所构建的写作助理,展示了为社会科学家识别新颖研究问题的能力,从而为该领域开辟了新的探索和创新途径。这些例子突出了基于LLM的智能体在提高社会科学研究效率、创造性和广度方面的潜力。

3.2 自然科学

自然科学是科学的一个分支,它基于观察和实验所得的经验证据,致力于描述、理解和预测自然现象。随着大型语言模型(LLMs)的日益繁荣,基于LLMs的智能体在自然科学领域的应用也变得越来越普遍。以下,我们将介绍多个代表性领域,其中基于LLMs的智能体能够发挥重要作用。

文档和数据管理:自然科学研究经常涉及大量文献的收集、组织和综合,这需要投入大量的时间和人力资源。基于LLMs的智能体在语言理解和利用互联网、数据库等工具进行文本处理方面展现出了强大的能力。这些能力使智能体在文档和数据管理相关任务中表现出色。例如,智能体能够高效地查询和利用互联网信息,以完成诸如问答和实验规划等任务。

实验助手:基于LLMs的智能体具备独立进行实验的能力,成为科学家研究项目中不可或缺的辅助工具。例如,有研究人员开发了一种创新的智能体系统,该系统利用LLMs自动化科学实验的设计、规划和执行。当输入实验目标后,该系统会访问互联网并检索相关文档以收集必要信息,随后利用Python代码进行必要的计算并执行后续实验。

自然科学教育:基于LLMs的智能体能够与人类流畅交流,因此常被用于开发基于智能体的教育工具。Math Agents能够协助研究人员探索、发现、解决和证明数学问题,同时与人类沟通,帮助他们理解和运用数学。EduChat是一款专为教育领域设计的基于LLMs的智能体,通过对话为教师、学生和家长提供个性化、公平且富有同理心的教育支持。

3.3 工程

基于大型语言模型的自主智能体在辅助和增强工程研究与应用方面展现出了巨大的潜力。在本节中,我们将回顾并总结基于LLM的智能体在几个主要工程领域的应用。

土木工程:在土木工程中,基于LLM的智能体可用于设计和优化复杂的结构,如建筑、桥梁、水坝、道路等,通过理解自然语言指令,放置构建块,检测混淆,寻求澄清,并整合人类反馈。

计算机科学与软件工程:在计算机科学与软件工程领域,基于LLM的智能体在自动化编码、测试、调试和文档生成方面显示出巨大潜力。例如:ChatDev提出了一个端到端框架,其中多个智能体角色通过自然语言对话进行通信和协作,以完成软件开发的生命周期。该框架展示了高效且成本效益高的可执行软件系统生成能力。ToolBench可用于代码自动完成和代码推荐等任务。MetaGPT将多个角色(如产品经理、架构师、项目经理和工程师)抽象化,以监督代码生成过程并提高最终输出代码的质量,从而实现低成本软件开发。

机器人技术与具身人工智能:最近的研究开发了更高效的强化学习智能体,用于机器人技术和具身人工智能领域。研究重点在于提升自主智能体在具身环境中的规划、推理和协作能力。例如,SayCan专注于研究广泛的操作和导航技能,利用移动操纵机器人来实现。TidyBot则是一个具身智能体,旨在个性化家庭清洁任务。它可以通过文本示例学习用户对物体放置和操作方法的偏好。

为了推动基于LLM的自主智能体的应用,研究人员还引入了许多开源库,开发人员可以基于这些库快速实现和评估符合其定制需求的智能体。

备注:在支持上述应用的过程中,使用基于LLM的智能体也可能涉及风险和挑战。一方面,LLM本身可能容易受到错觉和其他问题的影响,偶尔会提供错误的答案,导致错误的结论、实验失败,甚至在危险实验中对人类安全构成风险。另一方面,基于LLM的智能体有可能被用于恶意目的,如开发化学武器,因此,用户必须具备专业的技能和知识,采取适当的安全措施,如人类对齐,以确保负责任和合乎道德的使用。

总结来说,在以上部分中,我们介绍了基于大型语言模型(LLMs)的自主智能体在三个重要领域中的典型应用。为了便于更清晰地理解,我们在表2中总结了先前研究与各自应用之间的关系。

表2 基于LLM的自主智能体的代表性应用


4 基于LLM的自主智能体评估

与LLM本身类似,评估基于LLM的自主智能体的有效性是一项具有挑战性的任务。本节概述了两种流行的评估方法:主观和客观方法。有关全面概述,请参阅图5的右侧部分。

4.1 主观评估

主观评估基于人类的判断来衡量智能体的能力它适用于没有评估数据集或很难设计定量指标的场景,比如评估智能体的智能水平或用户友好性。接下来,我们介绍两种常用的主观评估策略。

人工标注:这种评估方法涉及人类评估者直接对不同智能体生成的输出进行打分或排名。例如,可以雇佣了多位标注者,并要求他们就与智能体能力直接相关的五个关键问题提供反馈。类似地,也可以让人类参与者对模型在无害性、诚实性、有用性、互动性和无偏见性方面进行评分,来评估模型的有效性,随后比较不同模型在这些方面的得分。

图灵测试:这种评估策略要求人类评估者区分智能体生成的输出和人类生成的输出。如果在给定任务中,评估者无法区分智能体和人类的结果,这表明智能体在该任务上能达到类人性能。例如,判断行为是由智能体生成的还是由真实人类产生的。在EmotionBench中,收集了人类标注来比较大型语言模型软件和人类参与者在各种场景下表达的情感状态。这种比较为评估大型语言模型软件的情感智能提供了一个基准,展示了理解智能体在模仿类人性能和情感表达方面能力的微妙方法。

备注:基于LLM的智能体通常被设计来服务人类。因此,智能体的主观评估起着至关重要的作用,因为它反映了人类的标准。然而,这种策略也面临着成本高、效率低和人口偏差等问题。为了解决这些问题,越来越多的研究人员正在研究使用LLM本身进行这些主观评估。例如,在ChemCrow中,研究人员使用GPT评估实验结果,同时考虑任务的完成情况和底层过程的准确性。类似地,ChatEval通过采用多个智能体以结构化辩论的形式批判和评估不同候选模型生成的结果,引入了一种新颖的方法。这种创新性的LLM评估用途有望在未来提高主观评估的可信度和适用性。随着LLM技术的不断发展,预计这些方法将变得更加可靠,并找到更广泛的应用,从而克服当前直接人工评估的局限性。

4.2 客观评估

客观评估是指使用可随时间计算、比较和跟踪的定量指标来评估基于LLM的自主智能体的能力。与主观评估相比,客观指标旨在提供对智能体性能的具体、可衡量的分析。为了进行客观评估,有三个重要方面,即评估指标、方案和基准。下面,我们将更详细地介绍这些方面。

指标:为了客观地评估智能体的有效性,设计适当的指标至关重要,因为这可能影响评估的准确性和全面性。在现有工作中,我们可以总结出以下具有代表性的评估指标。(1)任务成功率:这些指标衡量智能体完成任务和实现目标的能力。常见指标包括成功率、奖励/分数、覆盖率和准确率。较高的值表示更强的任务完成能力。(2)人类相似性指标:这些指标量化智能体行为与人类行为相似的程度。(3)效率指标:该指标旨在评估智能体的效率。

方案:除了评估指标外,客观评估的另一个重要方面是如何利用这些指标。在以往的工作中,我们可以总结出以下常用的评估方案:(1)现实世界模拟:在这种方法中,智能体在沉浸式环境中进行评估。智能体需要自主执行任务,然后利用任务成功率和人类相似性等指标,根据它们的轨迹和完成的目标来评估智能体的能力。这种方法有望评估智能体在现实场景中的实际能力。(2)社交评估:这种方法利用指标根据智能体在模拟社会中的交互来评估其社交智能。如协作任务以评估团队合作能力、辩论以分析论证推理,以及人类研究以测量社交能力。(3)多任务评估:在这种方法中,人们使用来自不同领域的多种任务来评估智能体,这可以有效地衡量智能体在开放域环境中的泛化能力。(4)软件测试:在这种方法中,研究人员通过让智能体执行软件测试任务如生成测试用例、复现错误、调试代码以及与开发人员和外部工具交互。

基准测试:在给定指标和方案后,一个至关重要的方面是选择合适的基准测试来进行评估。过去,人们在其实验中使用了各种基准测试。例如,许多研究人员使用像ALFWorld 、IGLU 和Minecraft 这样的模拟环境作为基准测试来评估智能体的能力。AgentBench 提供了一个全面的框架,用于在不同环境中评估作为自主智能体的大型语言模型。它代表了在不同领域现实世界挑战中对大型语言模型作为智能体的首次系统评估。此外还有很多基准测试,此处不再进行详细介绍。

备注:客观评估有助于通过各种指标对基于LLM的智能体的能力进行定量分析。虽然目前的技术不能完美地衡量所有类型的智能体能力,但客观评估提供了补充主观评估的基本见解。客观评估的基准和方法学的持续进步将进一步促进基于LLM的自主智能体的开发和理解。

在上述部分中,我们介绍了基于LLM的自主智能体评估的客观和主观策略。对智能体的评估在这一领域起着重要作用。然而,主观评价和客观评价各有优缺点。也许,在实践中,应该将它们结合起来,对智能体进行综合评估。我们在表3中总结了之前的工作与这些评估策略之间的对应关系

表3 对于主观评价(subjective)12分别表示人工标记和图灵测试;对于客观评估(objective)1234分别表示环境模拟,社会评价,多任务评估和软件评估


5 挑战

尽管基于大型语言模型(LLM)的自主智能体方面的先前工作已经取得了许多显著的成功,但该领域仍处于初级阶段,在其发展过程中仍需解决一些重大挑战。以下,我们列举了许多具有代表性的挑战。

5.1 角色扮演能力

与传统的大型语言模型(LLM)不同,自主智能体通常需要扮演特定角色(如程序员、研究人员和化学家)以完成不同的任务。因此,智能体的角色扮演能力非常重要。尽管LLM可以有效地模拟许多常见角色,如电影评论家,但仍有许多角色和方面它们难以准确捕捉。首先,LLM通常基于网络语料库进行训练,因此对于网络上很少讨论或新出现的角色,LLM可能无法很好地模拟。此外,先前的研究表明,现有的LLM可能无法很好地模拟人类的认知心理学特征,导致在对话场景中缺乏自我意识。解决这些问题的潜在方法可能包括微调LLM或精心设计智能体的prompt/架构。然而,如何确保微调后的模型在常见角色上仍然表现良好,以及找到最优的prompt/架构并不容易。

5.2 与人类的对齐

对于传统的大型语言模型,人类对齐性已经被广泛讨论。在基于LLM的自主智能体领域,特别是当智能体被用于模拟时,我们认为这一概念应该进行更深入的探讨。为了更好地服务于人类,传统的LLM通常会被微调以与正确的人类价值观保持一致,然而,当智能体被用于现实世界模拟时,一个理想的模拟器应该能够诚实地描绘出人类的各种特征,包括那些具有错误价值观的特征。实际上,模拟人类的负面方面可能更加重要,因为模拟的一个重要目标是发现和解决问题,而没有负面方面就意味着没有问题需要解决。也就是说,对于不同的目的和应用,智能体应该能够与不同的人类价值观保持一致。然而,现有的强大LLM,包括ChatGPT和GPT-4,大多与统一的人类价值观相一致。因此,一个有趣的研究方向是如何通过设计适当的prompt策略来“重新对齐”这些模型。

5.3 prompt的鲁棒性

为确保智能体的理性行为,研究人员通常会将辅助模块(如记忆和规划模块)嵌入到大语言模型中。然而,这些模块的加入需要开发更复杂的prompts,以确保一致的操作和有效的通信。先前的研究已经指出了大语言模型prompt缺乏鲁棒性的问题,即使是微小的改变也可能导致截然不同的结果。在构建自主智能体时,这个问题变得更加明显,因为它们不仅仅包含单个prompt,而是包含了一个考虑所有模块的prompt框架,其中一个模块的prompt有可能影响其他模块。此外,不同的大语言模型之间的prompt框架可能存在显著差异。开发一个适用于各种大语言模型的统一且稳健的prompt框架仍然是一个关键且未解决的问题。针对上述问题,有两种潜在的解决方案:通过反复试验手动构建必要的prompt元素,或使用GPT自动生成prompt。

5.4 幻觉

幻觉对大语言模型构成了根本性的挑战,其特点在于模型倾向于以高度自信的态度产生错误信息。这一挑战不仅限于大语言模型本身,也是自主智能体领域的一个重要关注点。例如,当在代码生成任务中面对简单的指令时,智能体可能会表现出幻觉行为。幻觉可能导致严重后果,如生成错误或误导性的代码、安全风险以及伦理问题。为了缓解这一问题,将人类修正反馈直接融入人机交互的迭代过程中是一个可行的方法。

5.5 知识边界

基于LLM(大型语言模型)的自主智能体的一个关键应用在于模拟多种现实世界的人类行为。人类模拟研究历史悠久,而近期研究兴趣的激增可归因于LLM取得的显著进展,它们已展示出在模拟人类行为方面的重要能力。然而,重要的是要认识到LLM的能力并不总是有益的。例如,当试图模拟各种电影的用户选择行为时,确保LLM对这些电影没有先验知识是至关重要的。然而,LLM可能已经获取了有关这些电影的信息。如果不实施适当的策略,LLM可能会基于其广泛的知识做出决策,而现实世界的用户事先是无法获取这些电影内容的。因此,为了构建可信的智能体模拟环境,一个重要问题是如何限制LLM对用户未知知识的利用。

5.6 效率

由于大型语言模型(LLMs)的自回归架构,其推理速度通常较慢。然而,智能体可能需要多次查询LLMs以执行每个动作,比如从记忆中提取信息、在采取行动前制定计划等。因此,智能体动作的效率在很大程度上受到LLM推理速度的影响。


6 总结

在本综述中,我们系统地总结了基于大型语言模型(LLMs)的自主智能体领域的现有研究。我们从智能体的构建、应用和评估三个方面介绍和回顾了这些研究。对于这三个方面中的每一个,我们都提供了一个详细的分类法,以建立现有研究之间的联系,并总结了主要技术及其发展历史。除了回顾以往的工作外,我们还提出了该领域面临的几个挑战,以期指导未来的潜在研究方向。



欢迎关注作者著作



▊《大语言模型:原理与工程实践》

杨青 编著

  • 揭开LLM的神秘面纱,解读其机理和工程实践,手把手教你训练7B LLM


本书用10 章对大语言模型进行全面且深入的介绍。首先对大语言模型的基本概念进行介绍。其次,从大语言模型的基础技术、预训练数据构建、预训练技术等方面展开讨论,帮助读者深入了解大语言模型的构建和训练过程。然后,详细介绍有监督微调和强化对齐等技术,以及如何评估大语言模型的性能。外,介绍提示工程和工程实践等方面的内容,帮助读者了解大语言模型的应用和实际操作过程。最后,介绍如何从零开始微调大语言模型,辅以代码示例,帮助读者更好地应用这些技术。

通过阅读本书,读者可以获得全面且深入的大语言模型的知识框架。无论您是研究人员、工程师,还是产品经理,都能从中获得有价值的知识。


相关阅读



▊《AI Agent:AI的下一个风口

吴畏 

  • 读懂智能体和大模型的关系,详述让智能体具有记忆、规划、工具使用、自主决策、推理能力的技术和应用案例,让通用人工智能不再遥远!周鸿祎、朱啸虎、张家兴、方汉推荐


本书探讨了AI领域的AI Agent(智能体)和生成式AI的前沿进展,以及这些技术如何重塑我们的生活和工作方式。

本书首先回顾了AI技术的演变历程,并强调了智能体的定义及其在客户服务、医疗健康和制造业等领域的广泛应用。本书也对智能体与传统软件进行了对比,分析了智能体的自主性、适应性和协作能力。生成式AI的崛起也被特别提及,其在艺术创作、数据增强等领域的应用被广泛讨论。本书还探讨了智能体在多智能体系统中的协同作用和具身智能的概念,分析了智能体的商业应用,包括企业级应用与任务规划、流程优化等,同时也指出了智能体在数据隐私、安全和伦理方面面临的挑战。最后,本书展望了智能体技术的未来发展,包括与其他先进技术的结合,认为它们将在更多领域发挥重要作用,为人类社会的进步做出贡献。智能体在未来将与每个人的工作和生活都息息相关。



▊《具身智能机器人系统》

甘一鸣 俞波 万梓燊 刘少山  著

  • 本书4 位作者总结了3 个关于具身智能的原则


具身智能机器人这个概念,尽管已经存在超过30 年,但是最近又重新引起学术界和工业界的关注。本书旨在帮助读者理解具身智能机器人和传统机器人计算之间的关系,判断具身智能机器人未来的发展方向。本书内容既包括传统的机器人计算栈,又涵盖具身智能大模型给机器人计算带来的变化和挑战等内容。本书在写作过程中注重内容的普适性,具有一定工程数学、计算机科学基础知识的读者,均可以阅读并理解本书的内容。


互动有奖

按以下方式与博文菌互动,即有机会获赠图书!

活动方式:在评论区留言参与你如何看待六边形战士Agent”等话题互动,届时会在参与的小伙伴中抽取1名幸运鹅赠送图书盲盒一份!

说明:留言区收到回复“恭喜中奖”者将免费获赠本图书,中奖者请在收到通知的24小时内将您的“姓名+电话+快递地址”留言至原评论下方处即可,隐私信息不会被放出,未在规定时间内回复视作自动放弃兑奖资格。

活动时间:截至10月28日开奖。

快快拉上你的小伙伴参与进来吧~~

温馨提示可以将“博文视点”设为星标以免错过赠书活动哦!


发布:刘恩惠

审核:陈歆懿

 


如果喜欢本文
欢迎 在看留言分享至朋友圈 三连
<
 PAST · 往期回顾 
>


书单 | 10月新书速递!


博文视点Broadview
IT出版旗舰品牌,实时发布最新鲜的IT热点图书资讯,分享优质图书内容,打造与万千精英读者良好的互动平台。
 最新文章