目标导向的交互式智能体,通过与环境的互动自主完成任务,可以在人类日常生活的各个领域提供帮助。最近在大型语言模型(LLMs)上的进步导致了越来越多具有挑战性的任务涌现,以评估这类智能体。为了正确地在这些任务中设置性能的上下文,理解它们对智能体构成的不同挑战至关重要。为此,本调查编制了相关任务和环境,用于评估目标导向的交互式智能体,将它们沿着有助于理解当前障碍的相关维度进行结构化。
我们翻译解读最新论文:目标导向交互式智能体复杂任务的调查研究,文末有论文信息。
作者:张长旺,图源:旺知识
1 引言
最近关于LLMs和工具使用的工作热潮承诺将根本改变人类与计算机的互动方式。过去,用户不得不逐个拼写计算机的动作,例如通过发出命令或点击GUI元素。希望未来的用户可以将高级任务委托给计算机,计算机的任务是将其分解为可以直接执行的命令和动作。在解决这类任务的智能体方面取得了快速进展,例如通过提高LLM智能体在上下文中的推理能力(Wei et al., 2022; Yao et al., 2023),分解问题(Prasad et al., 2024),决定使用什么工具(Schick et al., 2023)或采取什么行动(Li et al., 2022),主要基于具有非常大LLMs的上下文学习(Brown et al., 2020)。
与此同时,对于这些智能体可以评估的任务的开发也进行了密集研究。这些任务的范围从管理我们与朋友的电子邮件对话(APPWORLD, Trivedi et al., 2024),回答复杂问题(HOTPOTQAREACT, Yang et al., 2018),进行在线购物(MIND2WEB, Deng et al., 2023),到在特定环境中执行复杂任务(MINEDOJO, Fan et al., 2022);见图1中的一些例子。这些任务的广度、自然性和难度的增加,不仅推动了对智能体能力和局限性的更清晰理解,也推动了更有能力的智能体架构的发展。然而,也越来越难以跟踪这些任务,正确解释每个任务上的实验结果,并理解每个任务对智能体构成的具体挑战。
在本文中,我们提供了当前目标导向智能体与其任务环境交互的任务的调查。这补充了现有的关于这类任务的智能体架构的调查(Liu et al., 2024b; Ma et al., 2024a; Xu et al., 2023; Wang et al., 2024b)。我们已经沿着一些维度对任务进行了结构化。根据环境的模态(如模拟物理环境、网站和数据库),动作空间可以不同,如在物理世界中导航、控制鼠标和键盘、选择网页上的HTML元素或生成SQL命令。同时,任务在环境的可观测性、奖励结构和评估指标上也有所不同。这些属性极大地影响了成功智能体的建模选择,我们希望我们的调查将促进智能体的未来开发。
2 本调查的范围
我们的调查包括目标导向交互式智能体的任务。通过目标导向性,我们指的是智能体接收明确的目標规范(例如,以自然语言(NL)指令或问题的形式),从中可以推导出有关目标条件的信息。例如,在国际象棋环境中,我们可以从指令“将死国王”中推导出目标条件,而像“赢得游戏”这样的指令没有提供任何有关目标条件的信息。因此,我们不包括仅通过奖励函数指定目标条件的任务(例如 Küttler et al., 2020; Qi et al., 2024)。我们专注于需要智能体将目标映射到多个动作序列的具有挑战性的任务,而不是具有逐步指令的任务,指令的每个部分与必要的动作有一一对应关系(例如 Li et al., 2020; Xu et al., 2021)。最后,我们将范围限定为可以通过单个自治智能体解决的任务,不需要人在循环中,我们将在第5节中讨论扩展到这种范式之外的任务,包括需要与人类互动的任务(例如 Lin et al., 2024; Huang et al., 2024),以及需要多个智能体之间协作的任务(例如 Zhou et al., 2024b; tse Huang et al., 2024)。
3 任务分类
以下,我们介绍一组智能体任务,这将使我们能够在第4节中说明一系列不同的任务特征。可以在项目网站上找到全部调查工作。
3.1 在模拟物理世界中的导航和对象操纵
智能体可以在或多或少逼真的物理环境模拟中导航和与物理对象互动,这些环境以视觉或文本形式描述。
视觉问题
2D世界通常基于2D网格布局,观察对应于这个网格的俯视图。GRIDLU3(Bahdanau et al., 2018)要求智能体将由形状和颜色引用的对象放置在特定的空间关系(西边、北边...)或空间排列(对角线、圆...)中。MINIGRID(Chevalier-Boisvert et al., 2023)涉及2D网格导航和收集对象,例如拾取通过门所需的钥匙。
MINERL(Kanervisto et al., 2022)和MINEDOJO(Fan et al., 2022)任务将智能体放置在Minecraft环境中,这是一个基于像素的3D游戏环境,允许具有自我中心视觉的智能体收集材料、制作物品和构建结构。ALFRED(Shridhar et al., 2020)将智能体放置在AI2-Thor环境中的厨房场景中,这是一个逼真的3D环境(Kolve et al., 2022),要求完成典型的家务任务,如在水槽中洗苹果。EMBODIEDQA(Das et al., 2018)要求智能体导航3D环境以回答有关房间和对象的问题(例如,浴室里有浴缸吗?)。
文本问题
文本问题(Osborne et al., 2022; Côté et al., 2019; Jansen, 2022)是通过文本描述表示的环境。ALFWORLD(Shridhar et al., 2021)将ALFRED任务转移到由TextWorld引擎(Côté et al., 2019)提供的文本世界中。SCIENCEWORLD(Wang et al., 2022)要求智能体在具有物理、化学和生物过程现实模拟的环境中进行科学实验。
JERICHOAGENTBENCH(Liu et al., 2024b)基于Jericho(Hausknecht et al., 2020)中的文本游戏子集,这是一个支持像Zork这样的基于文本的小说游戏的环境。这样的游戏通常不包括具体的目标规范,但提供了环境的部分描述(例如,智能体所在的房间),以及智能体需要反应的事件(例如,电话响起)。智能体动作触发新事件,赢得游戏需要探索不同的行动选项。Liu et al.(2024b)通过用具体目标注释它们,将这些游戏中的部分转换为目标导向任务(例如,你需要在不被发现的情况下从你的牢房出来进入走廊)。
PDDL规划问题
这些类型的任务是在规划领域描述语言(PDDL)中指定的玩具问题,明确指定了动作的前提和效果。与其他任务相比,动作和状态空间较小,通常可以完全观察到。BLOCKSWORLDAPBENCH领域要求智能体将不同的块排列成特定的配置,通常是一个或多个垂直堆叠。GOLDMINERAPBENCH领域将智能体放置在矿山中,目标是通过使用炸弹和激光破坏石头来暴露黄金。当前基于LLM的智能体要么直接消耗PDDL语句(Silver et al., 2022),要么消耗口头化的领域描述(Valmeekam et al., 2022)。表1中的条目基于AutoPlanBench框架(Stein et al., 2024)提供的口头化。
3.2 数字助手
数字世界的智能体协助用户完成日常任务,包括广泛的应用,如旅行预订、发送电子邮件、分析表格或图像以及编辑图像。一些最近的任务专注于特定领域的协助,例如发现新化学物质(Bran et al., 2024)或修复软件缺陷(Jimenez et al., 2024)。
3.2.1 与工具和API的交互
数字助手可以通过应用程序编程接口(API)操作外部软件片段,也称为工具5。动作空间对应于有效的工具调用。API可以孤立地调用,例如通过指示API名称和参数,或嵌入在代码中(见第3.2.3节)。
HOTPOTQAREACT(Yao et al., 2023)扩展了HotPotQA数据集(Yang et al., 2018),该数据集用于多跳QA,其答案基于多个维基百科文档。数据集扩展了动作空间,包括搜索动作用于搜索实体的维基百科页面,查找动作用于在文章中查找字符串,以及完成动作以提交最终答案。GSM8KTOOLQA(Zhuang et al., 2023)包括GSM8K数据集(Cobbe et al., 2021)的一个子集,用于数值推理输入文本扩展了13个动作,例如计算方程的值,执行python代码,以及提交最终答案。
GQA(Gupta和Kembhavi, 2023)扩展了GQA数据集(Hudson和Manning, 2019)用于视觉问题回答的动作空间,包含几个动作用于图像理解(例如,在图像中定位概念,计算对象等)和图像裁剪。IMGEDIT(Gupta和Kembhavi, 2023)要求智能体使用一组模块编辑图像,用于图像理解和编辑(例如,面部检测、分割、模糊)。GAIA(Mialon et al., 2024)要求智能体在各种上下文(文本、图像、电子表格)上回答问题,使用各种GPT-4插件。任务设计得对于非专家来说容易解决,但对于最新的基于LLM的智能体来说困难。M&M’S(Ma et al., 2024b)要求智能体在文本、图像和音频数据上回答问题,以及编辑图像。动作空间包括用于数据理解和编辑的工具。
TOOLBENCH(Qin et al., 2024)为智能体提供了RapidAPI Hub6上的大量实时REST API端点,涵盖不同领域(例如金融、电影、工作等)。RESTBENCH(Song et al., 2023)为智能体提供了用于Spotify音乐播放器的REST API端点,用于检索元数据和推荐,创建和管理播放列表等。TOOLALPACA(Tang et al., 2023)为智能体提供了11个真实世界的API,提供有关假期、交通、娱乐、天气等的信息。
3.2.2 与GUI的交互
智能体不仅可以使用预定义的工具,还可以直接与为(非专家)用户设计的图形用户界面(GUI)进行交互,包括网站,或移动电话和桌面应用程序的GUI。动作空间包括基于坐标或基于ID的鼠标和键盘动作,如点击、输入,或用于与移动屏幕交互的动作,如按压或滑动。观察对应于当前GUI状态的表示,例如以屏幕截图、HTML、辅助访问树的形式,通常增加额外的注释,如在屏幕截图中指示交互元素的边界框(Koh et al., 2024),或特定图标的语义标签(Rawles et al., 2023)。
MIND2WEB(Deng et al., 2023)要求智能体根据其HTML表示导航网站,AITW(Rawles et al., 2023)专注于基于注释屏幕截图的移动电话应用程序和网站的导航。OSWORLD(Xie et al., 2024b)要求智能体在计算机环境中执行任务,包括与桌面应用程序和不同计算机操作系统的命令行界面进行交互。
3.2.3 与代码解释器的交互
数字智能体也可以直接与代码解释器交互,例如执行或Python程序。动作空间是相应编程语言中所有有效语句的集合,可以包括外部库对应于API,或直接启用GUI交互的动作。例如,OSWORLD使智能体能够通过Python解释器和python PyAutoGUI库导航GUI。观察直接对应于解释器的输出。
SQL_DATABASEAGENTBENCH(Liu et al., 2024b)任务基于数据库QA的现有数据集(Zhong et al., 2017; Pasupat和Liang, 2015; Iyyer et al., 2017; Chen et al., 2020; Nan et al., 2022),即回答问题需要从数据库表中读取信息,动作空间对应于所有有效的SQL命令。APPWORLD(Trivedi et al., 2024)要求智能体通过API使用一组日常应用程序,并使智能体能够直接与Python解释器交互。
4 任务范畴
以下,我们详细描述和比较评估智能体性能的复杂任务的不同特征,指出这些特征如何为智能体带来挑战。表1展示了在上一节中介绍的任务,说明了任务组件之间的差异。
4.1 任务形式化
智能体的目标是确定一系列行动,以便在给定环境中实现目标。为此,它在(离散)时间步骤中与环境8互动,采取行动,并观察这些行动对环境的影响。我们正式定义一个任务实例为部分可观察马尔可夫决策过程(POMDP)⟨S, A, T, O, Ω⟩,增加了初始状态S0和目标规范G。A是动作的集合,S是状态的集合,T是状态转移函数T:S×A→S,指定了在采取动作a的情况下从状态s到状态s'的状态转移。我们定义可接受动作集合A(s)为在给定状态下可用的动作,即如果执行,则会导致状态转移的动作。状态对应于智能体可以通过其动作修改的情况。智能体通过观察o从观察集合O中获取有关当前状态的信息,根据观察函数Ω:S×A→O。G是目标的规范,根据目标类型以及如何直接表达目标条件而异(见第4.2节)。鉴于G和S0的观察,智能体的目标是确定一系列来自A的动作,以通过与环境的互动完成G指定的目标:智能体采取行动影响环境,环境反过来发出观察影响智能体的下一个行动。
4.2 目标
目标规范目标规范G传达了任务被认为是完成的条件。它是以指令或问题形式的NL表达。规范在如何明确指定目标条件上有所不同,从直接NL转换为目标状态(例如,在GRIDLU中的“绿色三角形在红色圆圈的西边”)到不太直接的规范,表达目标状态需要满足的约束(例如,在APPWORLD中的“播放我的Spotify播放列表,有足够的歌曲供整个锻炼使用”)。不太直接的目标规范有助于任务难度,因为智能体不能直接朝着目标状态努力,但首先需要获取有关有效目标状态的外观的更多信息。这通常意味着任务可以分解为子任务,有利于具有明确任务分解机制的智能体(Khot et al., 2023; Wang et al., 2023a; Prasad et al., 2024; Kim et al., 2024)。
目标类型任务之间的一个基本区别是需要完成的目标类型,这决定了我们如何有意义地评估任务是否完成。我们区分两种目标类型(表1的上部和下部):
目标是达到特定的世界状态。目标规范G可以映射到一组目标状态SG⊆S,目标实现如果当前世界状态s∈SG。
目标是回答问题。目标规范G可以映射到子集AG⊆A的动作,目标实现如果智能体决定采取动作a∈AG,通常是提交问题最终答案。
停止标准在大多数环境中,智能体需要执行专门的最终动作以表明它们建立了目标条件,例如表示达到目标状态的停止动作(或提供最终答案的答案动作)。有些环境在智能体达到目标状态时就认为任务完成。这简化了任务,因为不需要智能体识别目标完成。
4.3 世界和知识状态
许多任务要求智能体操纵世界状态,即改变情况以满足目标条件(例如,操纵对象,修改数据库状态)。其他任务要求智能体检索或转换有关特定情况或上下文的信息,而不操纵世界状态(例如,多跳QA任务或知识库QA任务)。在本次调查中,我们采用了状态概念的广泛定义:状态可以对应于世界状态,例如2D网格,或厨房的3D模拟。状态也可以对应于知识状态,即与现实世界、文档或知识图谱条目相关的信息集合。
状态变化如果智能体可以修改世界状态,它可以转移到任务完成所需动作不可接受的情况,并需要撤销先前的动作才能采取必要的步骤(例如,锁门需要解锁才能开门走到另一边)。在最坏的情况下,执行不可逆的世界状态变化可能导致死胡同状态,即任务变得无法解决的情况,例如在GOLDMINERAPBENCH中用激光武器摧毁黄金,或在APPWORLD中删除像亚马逊订单这样的数据库条目。如果状态对应于知识状态,动作则用于获取或转换信息,这不会使任何后续动作不可接受。一些环境使能基于环境的状态变化,即与智能体动作无关的世界状态变化(例如,在SCIENCEWORLD中的鸟从蛋中孵化,或Minecraft环境中的日夜进程),这增加了智能体需要维护以掌握环境的世界模型的复杂性。
世界状态的可观测性状态s是完全可观测的,如果智能体对s的完美信息,这种情况下Ω(s, a) = s,否则是部分可观测的。部分可观测场景要求智能体执行动作以获取有关当前状态的更多信息,然后朝着目标努力。在涉及现实世界问题的现实任务中,完全可观测性很少见(例如,没有随机性的棋盘游戏如国际象棋),通常只出现在具有小/低维世界状态的合成任务中,例如在GRIDLU中将对象放置在9x9网格中,或在BLOCKSWORLDAPBENCH中堆叠有限数量的块。
4.4 动作
本次调查中包括的大多数任务的动作空间可以自然地建模为参数化动作空间,即离散动作与参数的组合(Masson et al., 2016)。可能的参数集可以是连续的、离散的并且可以枚举10(例如,在给定房间中与智能体互动的所有对象),或者太大而无法明确枚举(例如,所有NL查询作为搜索引擎的参数)。一些任务具有非常高维的离散动作空间,例如所有有效的Python程序集合,或所有NL句子,随着词汇量的大小而组合增长。而小动作空间允许明确枚举所有可能的动作,然后可以评分(Tan et al., 2024),或在基于LLM的智能体的提示中明确列出(Yao et al., 2023),对于非常大的动作空间来说这是不切实际的。最近的工作求助于过滤动作空间,每个时间步骤只保留前k个候选动作(Deng et al., 2023),或根据初始状态中的目标规范永久限制动作空间(Patil et al., 2023; Qin et al., 2024)。
动作前提和效果为了确定解决任务的正确动作,智能体必须对转移函数T有一些了解,特别是关于动作前提,即s必须满足的约束,以便T(a, s) = s',以及动作对状态的影响。智能体可以通过互动学习转移函数,即通过试错。如果关于转移函数的知识可以被适当地形式化,它可以被构建到智能体中。一些任务提供了转移函数的完整规范,例如BLOCKSWORLDAPBENCH的PDDL规划问题。在这里,动作前提和效果被完全描述。结合完全可观察的世界状态,完全了解转移函数的智能体可以通过搜索达到目标状态,而不需要与环境互动(Helmert, 2006)。
规划和执行时间效果许多具有参数化动作空间的任务伴随着动作前提和效果的部分描述。这些传达了规划时间效果(Bacchus和Petrick, 1998):在规划时间(与执行时间效果相对,后者是在执行时间可观察到的效果)已知的动作效果部分。例如,动作get_password(user)具有规划时间效果,即智能体接收用户的密码,执行时间效果是动作将传递这个密码的值(例如,password='1234')。规划时间效果可以被看作是函数的工作说明注释,提供了关于函数工作的抽象信息,但不是关于具体返回值的信息。参数化动作空间通常伴随着规划时间效果的描述,但不是所有可能的动作和参数组合的执行时间效果。由于为大动作空间直接构建所有动作规划时间效果的信息对于智能体来说是不切实际的,一些任务(例如,APPWORLD)提供了按需检索规划时间效果的描述的功能,即作为智能体可以决定执行的额外动作。
4.5 观察
我们认为任何环境因动作执行而暴露给智能体的信息都是观察。任务在观察传达的信息量和类型上有所不同,通常包括动作执行的直接影响,并可能包括执行失败的反馈,或关于任务完成进度的反馈(中间奖励)。可以在表2中找到例子。
观察动作执行效果对于世界状态转换,观察传达了动作执行如何影响世界状态的信息,例如通过暴露新世界状态的(可观察部分)。通常,观察暴露了由于状态转换而发生的变化,即源状态和目标状态之间的差异,要求智能体根据这些信息推导出新世界状态。对于信息检索/转换动作,观察直接对应于函数输出,例如查找知识库中信息的函数的输出。
观察不可接受动作的反馈在某些设置中,智能体可能决定采取不可接受的动作a /∈A(s),即在给定状态下无法执行的动作,例如当基于序列的智能体架构使用LLM(Chen et al., 2021)生成动作而不是评分预定义的可接受动作时。一个动作不可接受要么是因为状态不满足动作的前提条件(例如,试图穿过一扇关闭的门),要么是因为动作无效(a /∈A),例如,将参数化动作与错误类型的参数结合,如向Python方法传递错误类型的参数。任务在这种情况下的观察信息量上有所不同,例如只提供动作没有效果的信息,或详细反馈执行失败的原因。
观察中间奖励对于某些任务,观察还提供中间奖励,即每步反馈动作对任务完成的贡献。这个信号可以手动制作,或由模型自动计算:SCIENCEWORLD手动注释每个目标规范的子目标,并提供对应于完成子目标部分的中间标量奖励,AGENTBOARD(Ma et al., 2024a)以相同的方式增强了几个现有环境的中间奖励。LLF-BENCH(Cheng et al., 2023)扩展了现有环境与不同类型的口头化反馈,包括标量奖励信号的口头化。MINEDOJO通过在Youtube视频形式的观察序列对目标规范和观察对的训练的奖励模型提供中间奖励。MINT(Wang et al., 2024c)扩展了现有环境与由LLM生成的口头化中间奖励反馈。虽然这些奖励模型可以被认为是各自环境的一部分(因为它们是随着任务一起发布的),但许多最近的智能体架构实现了自己的组件以生成中间反馈,这些被视为智能体的一部分而不是环境(例如,Shinn et al., 2023)。
观察空间的模态根据任务的性质,观察以各种模态表示,这通知了可以用于处理信息的模型(例如,LLMs与多模态模型)。例如,2D或3D状态通常通过视觉信息观察,但也可以作为NL描述观察(例如,作为3D ALFRED的口头化版本的ALFWORLD)。观察也可以作为结构化文本,例如API输出通常作为json字典,或用于网络导航任务的HTML辅助访问树。根据观察的性质,智能体可能难以从观察对象中提取相关信息。例如,通过HTML观察网页已被证明对基于LLM的智能体来说特别困难(Liu et al., 2024a)。确定表示观察的最佳模态是一个活跃的研究问题(Zhou et al., 2024a; Koh et al., 2024; Xie et al., 2024b),一些任务(例如,OSWORLD)提供了一系列不同的表示GUI状态的表示。例如,OSWORLD中的GUI交互任务伴随着一系列不同的表示GUI状态的表示,包括基于html的辅助访问树,或带或不带标记注释的屏幕截图(Yang et al., 2023)表示与交云的相关信息。
4.6 任务评估
任务评估用于确定智能体是否成功完成了给定任务,即建立了目标条件。我们调查中的大多数任务都规定了可以客观评估为满足或违反的目标条件,例如通过检查智能体的最终状态是否满足特定约束,或通过将智能体的答案与参考答案进行比较。对于其他任务,完成情况无法客观评估,例如对于创造性任务,如建造一个带有两个楼层和游泳池的现代大型房屋(MINEDOJO),以及下载平台X上的有趣笑话(TOOLBENCH)。已经提出了一系列不同的评估方法来评估任务完成情况。
参考答案评估最终答案对于大多数QA任务,预测答案与参考答案进行比较,通过精确匹配、模糊匹配,或基于参考答案在预测排名中的排名(Das et al., 2018)。几个场景使得与静态参考答案的比较变得不可行:如上所述的创造性或主观任务,以及可能随时间变化的不可控数据源(例如,如TOOLBENCH中的基于网络的API)。
参考答案评估最终状态规定目标状态的任务可以根据智能体过渡到的最终状态进行评估,通常通过评估参考目标状态的约束是否满足。一些任务评估部分目标完成,基于最终状态与目标状态的距离,或最终状态满足的约束数量。
参考答案评估动作序列在这里,预测的动作序列与人类注释的参考序列进行比较,要么基于精确匹配,要么基于模糊匹配(检查预测轨迹是否是参考轨迹的子序列)。Ma et al.(2024b)(M&M’S)计算预测动作与基于集合表示的参考序列的精度和召回率。Tang et al.(2023)(TOOLALPACA)使用GPT4(OpenAI et al., 2024)根据人类参考轨迹评估预测轨迹。参考答案评估动作序列是一个保守的指标,因为它假设满足目标条件只有一个正确的动作序列,而大多数任务可以用多种方式解决。
无参考评估上述描述的评估方法需要与参考答案、轨迹或目标状态进行比较。相反,无参考方法通过人类或LLM评估生成结果。前者要求人类判断最终答案和/或预测动作序列的正确性。11Milani et al.(2023)(MINERL)要求人类评估者比较由不同系统预测的两个轨迹,并在结果数据集上训练分类器以自动比较预测轨迹。几项工作依赖于零次或几次射击的LLM,提示LLM评估预测答案的质量,判断给定指令和轨迹时任务是否成功解决,或比较由两个不同智能体生成的动作序列Qin et al.(2024)。如果LLMs提供了可靠的评估手段,目前还是一个开放的问题,因为最近的工作表明,在不同任务和模型中,LLM判断与人类判断的相关性如何表现得非常好(Bavaresco et al., 2024)。
4.7 环境的一般属性
任务难度指标社区旨在引入越来越多具有挑战性的任务,提出了什么使任务变得困难的问题。Xie et al.(2024b)根据人类完成时间定义任务难度。几个数据集提供了难度级别的注释,要么由作者(Trivedi et al., 2024)要么由LLM(Hu et al., 2024)表示,这主要表达了任务的主观固有难度,对于模型分析主要有用。客观衡量任务难度可能是有助于任务创建和从分析智能体性能中获得洞察的。已经讨论了几个客观指标,最常见的是解决任务所需的黄金轨迹的长度,即建立目标条件所需的最少动作数量(Wang et al., 2024a; Shen et al., 2023; Mialon et al., 2024),经验表明这影响了智能体性能(Stein et al., 2024; Trivedi et al., 2024)。其他指标包括动作空间的大小(Qin et al., 2024),解决任务所需的不同动作数量(Trivedi et al., 2024; Mialon et al., 2024),以及需要交互的对象数量(Côté et al., 2019)。
领域特异性作为领域特异性,我们考虑影响任务相关知识与LLM预训练数据知识(mis-)对齐的环境性质。一些任务伴随着基于我们现实世界的模拟环境(例如,ALFRED作为家庭的逼真3D模拟),相关任务知识,例如关于动作前提和效果、状态转换或最优策略的知识,对应于常识。对于其他任务,相关任务知识不是常识而是领域特定的,例如如何在OSWORLD中利用操作系统。我们预计这样的任务对基于LLM的智能体来说更具挑战性,因为专业知识可能很少出现在预训练数据中,因此不会存储在模型的参数知识中(Mallen et al., 2023; Kandpal et al., 2023; Razeghi et al., 2022)。
数据可用性数据可用性决定了可以应用的学习范式,或者为了使特定学习范式适用需要额外的步骤,例如额外注释轨迹12。智能体的主要学习范式包括在线强化学习(例如,Yao et al., 2022; Wang et al., 2022),即通过观察其行为随时间与环境互动学习(Sutton和Barto, 2018),从黄金轨迹中进行监督学习(例如,Li et al., 2023; Qin et al., 2024; Wang et al., 2024a; Qin et al., 2023b),即通过(不)相似性预测轨迹和黄金参考轨迹之间的损失函数最小化,以及上下文学习(例如,Zhou et al., 2024a; Koh et al., 2024; Trivedi et al., 2024),即通过任务描述和可能的一些示例轨迹提示上下文学习者。虽然所有考虑的任务都是基于交互环境生成的,但并非每个数据集都发布了实现转移函数的交互环境。一些数据集(例如,MIND2WEB, AITW)只发布了在相应环境中收集的任务轨迹,即导致给定目标任务完成的动作和观察序列。没有额外的调整,这些任务通常通过监督或上下文学习来解决。如果数据集发布了交互环境加上一些明确的轨迹,无论是手动注释的(例如,APPWORLD)还是模型生成并验证为有效的(例如,TOOLBENCH),这样的数据可以用于监督学习,或作为上下文学习者的少数示例。
任务生成大多数任务集合是通过制作动作空间和转移函数来创建的。然后,通过提出目标规范(例如,由作者发明、从网络上抓取、受用户调查启发)并手动注释相应的目标条件来手动设计任务实例。一些数据集提供了问题生成器,可以自动生成新的可解任务,例如,用于训练智能体,或评估智能体在具有特定属性的任务上的性能。BLOCKSWORLDAPBENCH提供了一个问题生成器,给定特定任务属性,如块的数量,自动生成相应的起始状态和目标条件对。APPWORLD提供了模板特定的任务生成器,即给定一个指令模板,如我喜欢在亚马逊上买的最后一个{last-color} {apparel},以相同的尺寸重新购买相同的,生成器实例化环境,使任务可解。
5 讨论和未来方向
在本次调查中,我们结构化了当前用于开发和评估目标导向交互式智能体的任务。对这类智能体的快速发展是令人兴奋的,它们被应用的任务的广度表明了一旦技术运行良好且可靠,智能体将对我们的日常生活产生巨大影响。我们看到几个重要的方向可以推进智能体技术,这些方向超越了引入越来越多具有挑战性的环境。
使能智能体-用户交互这项调查中关注的任务除了最初指定他们的目标外,不需要用户的参与。13在更现实的场景中,提前提供完整的目标规范可能是不可行的,例如,因为用户可能无法明确表达他们的偏好(Lin et al., 2024)。在这里,需要智能体和用户之间的交互来完成任务完成过程。
Lin et al.(2024)发现,当前的智能体架构在需要用户交互和工具使用的任务上挣扎,例如,询问相关问题。我们认为,结合目标导向的环境交互与智能体-用户交互,借鉴任务导向对话(例如,Budzianowski et al., 2018)或协作游戏(例如,Jekni´c et al., 2024)的场景中的洞察,将使未来的智能体技术更有用、更现实。
针对性评估智能体行为几项工作引入了专门的数据分割,以评估智能体行为的特定方面,例如对看不见动作的泛化(Qin et al., 2024; Li et al., 2023)或组合泛化(Furuta et al., 2024)。由于在复杂环境中的端到端任务完成仍然具有挑战性,一些工作而不是专注于单独解决中间步骤。例如,Liu et al.(2024a)专注于智能体对网站的理解,Berkovitch et al.(2024)评估智能体在多大程度上可以根据观察到的GUI交互识别用户意图。到目前为止,失败案例主要是通过轶事错误分析报告的。形式化这些观察,并开发专门研究它们的框架,将有助于更好地理解智能体的能力和局限性。
标准化环境未来开发智能体任务的工作应该考虑到最近基准测试中观察到的不足。Kapoor et al.(2024)识别了几个现有基准测试的弱点,包括缺乏标准化的保留分割,以及缺乏标准化的评估脚本进行可重复评估。另一个阻碍可重复性的因素是对外部的、不完全可控的工具或API的依赖。例如,GAIA依赖于一组GPT4插件,这些插件不断在开发中,并且可能会发生变化。TOOLBENCH依赖于基于网络的API,API调用的输出可能会随时间变化。Guo et al.(2024b)通过引入基于虚拟API服务器的TOOLBENCH的稳定版本来解决这个问题。我们预计,如何使环境和评估可重复的问题将变得更加重要,随着当前努力在更少限制的环境中部署智能体,例如,它们可以设计自己的动作空间(Cai et al., 2024)。
作者:张长旺,图源:旺知识
参考资料
标题: A Survey on Complex Tasks for Goal-Directed Interactive Agents
作者: Mareike Hartmann and Alexander Koller
单位: Department of Language Science and Technology Saarland Informatics Campus Saarland University, Saarbrücken, Germany
标签: 人工智能、交互式智能体、任务评估、大型语言模型(LLMs)
概述: 本文调查了用于评估目标导向交互式智能体的复杂任务,结构化分析了任务特点,并讨论了未来发展方向。
链接:https://arxiv.org/abs/2409.18538