大模型在感知、推理和规划方面展现出惊人的能力,主要得益于其大规模的预训练和后续学习。然而当任务特定的观察和动作表示与LLM训练过程中编码的知识不一致时,其有效性会显著受限。在网络任务中,这些代理的表现显著低于人类水平。因此研究如何调整LLM在网络任务中的观察和动作空间,使其更好地发挥作用,成为一个重要的研究课题。
今天我们介绍一种名为AGENTOCCAM的简单但高效的LLM基础网络智能体。来自亚马逊为主的研究团队研发的AGENTOCCAM通过优化其动作和观察空间,使其在Web任务中的表现大幅提升。相比于复杂的方法,AGENTOCCAM以其简洁的策略工作流脱颖而出,不需要额外的模块、LLM调用或上下文示例。
AGENTOCCAM的核心目标是通过优化代理的观察和动作空间,使其更符合LLM的能力,从而显著提升其在各种网络任务中的表现。AGENTOCCAM通过简化动作空间,移除不必要的动作,减少代理的干扰,使其更专注于有意义的操作;同时通过优化观察空间,减少冗余信息,提高信息的精简性和相关性,帮助代理更好地理解和执行任务。
图1:AGENTOCCAM概述。与之前专注于设计复合LLM策略的研究不同,我们只需将网络交互动作和观察空间与LLM在培训过程中获得的知识和技能相匹配,即可增强网络代理。
AGENTOCCAM的研究团队由来自伊利诺伊大学厄巴纳-香槟分校(UIUC)的Ke Yang与亚马逊的研究人员合作完成。团队成员包括Yao Liu、Sapana Chaudhary、Rasool Fakoor、Pratik Chaudhari、George Karypis和Huzefa Rangwala,结合学术界和业界的力量,共同完成了AGENTOCCAM的研究。他们在优化LLM基础网络代理的动作和观察空间方面进行了深入研究,并取得了显著成果。Ke Yang在亚马逊实习期间,发挥了关键作用,与亚马逊的资深研究员们通力合作,确保了AGENTOCCAM的成功开发。这种背景和技术特征不仅展示了研究团队的实力和创新能力,也为AGENTOCCAM的进一步发展和应用提供了坚实的基础。
研究方法
AGENTOCCAM的研究方法聚焦于优化网络智能体的观察和动作空间,使其更好地适配大型语言模型(LLM)的能力,克服其在具体任务中遇到的瓶颈。
图2:在将动作空间与LLM预训练对齐时,研究团队只保留了高效用动作,并减少了对高级化身技能的需求(步骤1和2)。此外他们纳入了计划步骤,允许代理自主管理任务分解和执行(步骤3)。
研究团队将网络交互过程形式化为部分可观察马尔科夫决策过程(POMDP)。POMDP是指在一种环境中,代理通过观察获得的信息,并根据这些信息采取行动,而环境的状态变化遵循马尔科夫性质。具体来说,POMDP的定义包括以下几个部分:观察o代表代理从环境中获取的当前状态信息,例如HTML页面、指令和提示;状态s则表示代理和环境的全部底层状态,但这种状态是不可直接观测的;动作a是代理可以采取的行动,包括页面上的点击、输入等操作;状态转移函数P记录了给定当前状态和代理动作后网页状态的变化;奖励函数R决定了代理动作序列的成功与否;p0是初始状态分布;折扣因子γ用于计算长期奖励。
在这种框架下,AGENTOCCAM需要解决的是如何设计一个能够最大化期望累计奖励的决策策略π。在LLM基础的网络代理设计中,这一目标被转化为设计一个带有一个或多个基本LLM策略πLLM和一组算法模块的策略,特别关注于观察和动作空间对齐的问题。
图3:研究团队的web导航代理提示符的组件。它包括概述任务、所需输出和可用操作的一般说明,以及提供当前目标、代理过去交互和最新观察结果的在线任务信息。值得注意的是,关于先前交互和当前观察的部分使用了最多的标记。这可以归因于两个主要因素:页面的长度和历史跨度的范围,当前的观察主要取决于页面长度和过去在页面长度和历史范围上的交互。
AGENTOCCAM的方法论集中于优化代理的动作空间和观察空间,以便更好地适应LLM的特性,从而提升网络任务的执行效率和准确性。
AGENTOCCAM的动作空间优化策略包括以下几个方面。
简化动作空间:通过移除无关或冗余的动作来减少代理的干扰。例如,移除“不操作”动作和标签操作(如标签聚焦、打开或关闭),因为这些动作在大多数情况下对任务执行没有帮助。对于导航动作,如“前进”和“跳转”,由于代理对网页URL和内容关系记忆的有限性,也被限制使用。通过这些调整,代理可以更专注于重要的操作,提升任务执行效率。
引入规划动作:为了应对复杂的多路径导航任务,AGENTOCCAM引入了“分支”和“修剪”动作。这些动作允许代理生成和管理规划树,从而自主规划任务的分解和执行。分支动作用于将高层目标分解为更小的子目标,而修剪动作则用于在失败的尝试后放弃当前子计划,探索替代方案。
抽象低级操作:对于需要具象知识的复杂操作,如“悬停”和“按键”,AGENTOCCAM通过简化这些低级操作为更抽象的操作,从而减少代理在这些操作上耗费的资源。例如,将“滚动”动作替换为加载整个页面内容,以避免代理无效的滚动行为。
观察空间优化策略
图4:为了将任务的观察空间与基础模型的预训练对齐,研究团队通过删除重复描述网页功能和布局的不必要文本来压缩单个页面长度(步骤1),并通过识别与任务相关的页面元素供代理记住(步骤2)。此外,我们通过计划树优化代理工作流内存,将每个新计划视为一个单独的目标,并排除过去步骤中专用于先前计划的信息,以提高内存的简洁性(步骤3)。
观察空间的优化同样是AGENTOCCAM的关键策略之一,目标是简化和优化代理所需处理的网页内容,使其更符合LLM的训练特点。
简化网页观察:网页内容通常以HTML或辅助功能树格式表示,这些格式包含大量冗余和重复的格式化令牌。AGENTOCCAM通过合并功能描述性网页元素与交互元素,并将表格和列表块转换为Markdown格式,减少不必要的格式化令牌,从而简化网页内容的表示,使其更易于LLM处理。
选择性回放观察历史:在长期任务中,代理需要回放之前的观察和动作历史,以保持任务的一致性。然而,完整的历史记录会显著增加上下文长度和推理成本。为此,AGENTOCCAM通过选择性地回放关键网页元素和规划树中的节点,简化历史记录。这一策略不仅提高了代理在长期任务中的一致性,还减少了数据噪音。
表1:不同基于LLM的网络代理的基本组件比较。
通过这些动作和观察空间的优化策略,AGENTOCCAM在保持简洁性的同时,显著提升了网络任务执行的效率和准确性。
实验结果与分析
实验环境介绍
在这项研究中,AGENTOCCAM的性能评估主要依托于WebArena这一基准测试环境。WebArena是一个互动式的网络模拟器,涵盖了四个常见领域的全功能网站:电商平台(OneStopShop)、意见交流的社交论坛(Reddit)、协作软件开发平台(GitLab)和在线数据管理平台(在线商店管理)。此外,平台还包括一些实用工具,如地图、计算器、便签和维基百科,以实现类人任务解决。
WebArena基准测试的核心是其多样化和复杂的任务模板,包含241个任务模板,总共生成812个具体任务。这些任务涵盖了从简单的信息提取到复杂的多步骤交互,提供了一个全面的测试环境来评估网络代理的性能。为了确保公平和客观的评估,每个任务都伴随着一个评估/奖励函数,用于程序化检查代理在执行任务过程中的正确性和效率。
此次实验中,研究团队使用了GPT-4-turbo-2024-04-09版本来构建AGENTOCCAM。这一版本的LLM具备强大的推理和规划能力,使得AGENTOCCAM在处理复杂任务时表现出色。
AGENTOCCAM的性能评估
图5:AGENTOCCAM作用和观测空间精细化的消融研究。我们逐步添加细化组件,并评估其边际性能增益。
在性能评估中,AGENTOCCAM与多种基线方法进行了对比,主要包括WebArena代理、SteP、WebPilot和Agent Workflow Memory(AWM)。这些基线方法各有特点,例如SteP使用14个人工编写的策略解决WebArena的任务,WebPilot则是一种基于多代理和多层次蒙特卡洛树搜索(MCTS)的代理方法,AWM则自动总结工作流以优化任务执行。
表2:WebArena上AGENTOCCAM与基线药物的成功率(SR)比较。
表2展示了AGENTOCCAM与这些基线方法在WebArena上的成功率比较。在所有测试的网站任务中,AGENTOCCAM均表现出色,整体成功率从WebPilot的37.2%提升至43.1%,提高了15.8%。在具体任务中,AGENTOCCAM不仅能够完成以前无法解决的任务,如在OneStopShop上更新个人信息,还显著提高了之前混合结果的任务模板的成功率,如在GitLab个人资料上设置主页URL。
这些显著的性能提升不仅展示了AGENTOCCAM在优化动作和观察空间后的强大能力,也证明了其简单但高效的方法在多种任务环境中的普适性和适用性。
消融研究
为了进一步理解AGENTOCCAM各个组件的贡献,研究团队进行了详细的消融研究。通过逐步集成AGENTOCCAM的每个组件并评估其边际性能增益,研究团队能够明确各个部分对整体性能的影响。
首先,移除非必要动作显著减少了代理的干扰,使其在各个网站上的性能均有所提升。具体来说,删除不常用的动作(如tab focus、go forward、hover和press)后,代理在探索过程中浪费的步骤明显减少,点击和输入的次数显著增加。
禁用滚动动作证明了其优势,尤其是在处理GitLab和Reddit任务时。虽然这一策略增加了观察令牌的数量,但后续的精炼措施可以有效应对这一问题。
此外,简化网页元素和选择性回放观察历史也显著提升了代理的任务执行效率。通过移除冗余文本和网页格式,代理能够更专注于任务成功所需的网页元素,提高了所有任务类型的性能。
最终研究团队引入的分支和修剪动作进一步优化了代理的任务规划和执行。这些动作允许代理生成和管理规划树,从而自主规划任务的分解和执行,提高了几乎所有网站任务的性能,同时减少了所需的观察令牌。
表3:AGENTOCCAM成分消融研究的行动统计。表中的每个数字表示实验设置中所有任务的操作频率。
表4:WebArena站点上每一步的平均观察标记。我们使用HUGGINGFACE的GPT2标记器
表3和表4展示了AGENTOCCAM组件消融研究的动作统计数据和每步平均观察令牌数量。这些数据表明,通过这些优化措施,AGENTOCCAM不仅在整体成功率上显著提升,还在任务执行效率和准确性方面表现出色。
研究发现
在研究团队的实验和分析中,AGENTOCCAM展现了其显著的性能提升。通过对动作和观察空间的精细优化,这一简单的LLM基础网络智能体在各种复杂任务中表现出了卓越的能力。下面我们将深入探讨其性能提升的原因、观察和动作空间对齐的重要性,以及简单代理架构的优势与普适性。
AGENTOCCAM的显著性能提升
AGENTOCCAM在多个基准任务上超越了现有的最先进方法,其整体成功率从WebPilot的37.2%提升到43.1%,相对提升了15.8%。在具体任务上,AGENTOCCAM不仅完成了之前无法解决的任务,如在OneStopShop上更新个人信息,还显著提高了之前混合结果的模板成功率,如在GitLab个人资料上设置主页URL。这些结果证明了AGENTOCCAM优化动作和观察空间的有效性。
具体而言,AGENTOCCAM通过移除冗余和低效的动作,使代理能够更加专注于重要的操作。这包括删除“不操作”动作和标签操作,限制“前进”和“跳转”动作,从而减少了代理在执行任务过程中的干扰。此外,通过引入“分支”和“修剪”动作,AGENTOCCAM能够自主规划任务的分解和执行,显著提高了复杂任务的成功率。
在观察空间的优化方面,AGENTOCCAM通过合并功能描述性网页元素与交互元素,并将表格和列表块转换为Markdown格式,减少了不必要的格式化令牌,使网页内容更加简洁。这一策略不仅提高了代理的任务执行效率,还减少了LLM推理过程中的数据噪音。
观察和动作空间对齐的重要性
在LLM基础的网络代理中,观察和动作空间的对齐是提升其任务执行能力的关键因素之一。LLM在训练过程中主要关注静态文本,而网络任务通常涉及动态交互和多步骤操作。因此通过优化观察和动作空间,使其更加符合LLM的能力,是提高代理性能的重要方法。
AGENTOCCAM在这方面做了大量工作。通过精简动作空间,移除不必要的动作,代理能够更加专注于重要的操作,减少了任务执行过程中的干扰。同时,通过优化观察空间,合并功能描述性网页元素与交互元素,并将表格和列表块转换为Markdown格式,AGENTOCCAM能够更加高效地处理网页内容,提高了任务执行的准确性和效率。
这种观察和动作空间的对齐,不仅提升了代理的任务执行能力,还证明了简单代理架构在处理复杂任务中的有效性。AGENTOCCAM的成功,展示了通过优化基础元素来提升整体性能的潜力,为未来的研究提供了重要的参考。
简单代理架构的优势与普适性
AGENTOCCAM的设计理念遵循了奥卡姆剃刀原则,即在解决问题时应尽量选择最简单的解决方案。这一简单代理架构不仅在实验中表现出色,还具备很高的普适性。
首先,简单的策略工作流使AGENTOCCAM在不需要额外模块、LLM调用或上下文示例的情况下,能够高效地执行各种复杂任务。这一简洁的方法不仅减少了系统的复杂性,还提高了代理的可解释性和可维护性。
AGENTOCCAM的简单架构使其在多种任务环境中都表现出色,无论是电商平台、社交论坛,还是协作软件开发平台,AGENTOCCAM都能高效完成任务。这表明AGENTOCCAM具备很高的普适性,能够适应不同类型的任务和环境需求。
最后,AGENTOCCAM成功展示了通过优化基础元素来提升整体性能的潜力。
未来工作与应用
AGENTOCCAM通过优化其动作和观察空间,在网络任务中展示了强大的性能和普适性。然而科学研究从未止步,AGENTOCCAM的研究成果为未来的工作和应用指明了新的方向。
AGENTOCCAM与其他代理策略的结合潜力
AGENTOCCAM的简洁设计和显著性能提升,使其成为与其他代理策略结合的理想候选。论文的研究已经展示了这种结合的初步潜力。例如,通过将AGENTOCCAM与SteP方法相结合,尽管SteP策略在某些任务中表现出色,但整体性能并未超过单独的AGENTOCCAM。然而这也揭示了特定任务策略在适应不同任务时可能带来的局限性。
为了进一步探索这种结合的潜力,未来的研究可以尝试以下几个方向。
与其他模块化策略结合:AGENTOCCAM的简洁架构使其易于与其他模块化策略集成,如反思性思维模块、记忆模块或多代理系统。这些模块可以为AGENTOCCAM提供更丰富的功能和更强的适应性,从而在更广泛的任务环境中表现出色。
与高级搜索算法结合:高级搜索算法,如蒙特卡洛树搜索(MCTS)或深度强化学习,可以与AGENTOCCAM结合,进一步提高其在复杂任务中的表现。通过在任务执行过程中动态生成和评估多个行动方案,代理可以更高效地探索和优化任务解决方案。
利用评判者角色优化决策:通过引入一个评判者角色(如论文中的LLM评判者),可以对AGENTOCCAM生成的多个行动方案进行评估和选择。这种方法可以帮助代理在关键步骤中做出更准确的决策,从而提高整体任务成功率。
未来研究方向和改进建议
除了与其他策略的结合,未来的研究还可以在多个方向上进一步改进和扩展AGENTOCCAM的应用。
提升环境适应性:虽然AGENTOCCAM在WebArena中表现出色,但实际应用环境往往更加复杂多变。未来的研究可以探索如何提升AGENTOCCAM在不同网络环境中的适应性,包括处理动态内容、用户交互和多设备兼容等问题。
增强任务多样性:当前的研究主要集中在一些典型的网络任务上,如信息提取和数据输入。未来的工作可以扩展AGENTOCCAM的任务范围,包括更复杂的多步骤任务、跨平台任务以及涉及多种媒体类型的任务(如音频和视频处理)。
优化模型训练和推理效率:尽管AGENTOCCAM已经展示了其高效的性能,但大型语言模型的训练和推理过程仍然需要大量的计算资源。未来的研究可以探索更加高效的训练和推理方法,如模型压缩、知识蒸馏和边缘计算等技术,以提升模型的实际应用性能。
加强安全性和鲁棒性:在实际应用中,网络代理面临着各种安全和鲁棒性挑战,如应对恶意攻击、处理异常输入和保证用户隐私等。未来的工作需要在这方面进行深入研究,确保AGENTOCCAM在各种情况下都能安全可靠地运行。
用户体验优化:未来的研究还应关注用户体验的优化。通过提升代理的交互能力、提供更加直观的反馈和可解释性,以及个性化定制功能,AGENTOCCAM可以在实际应用中更好地满足用户需求,提供更好的服务。
总的来说,AGENTOCCAM的研究成果为未来的网络代理研究和应用提供了坚实的基础。通过结合其他代理策略、提升环境适应性、增强任务多样性、优化模型效率、加强安全性和鲁棒性以及优化用户体验,AGENTOCCAM有望在未来的网络智能体发展中发挥更大的作用,开创更多的应用场景和可能性。(END)
参考资料:https://arxiv.org/pdf/2410.13825
波动世界(PoppleWorld)是噬元兽数字容器的一款AI应用,是由AI技术驱动的帮助用户进行情绪管理的工具和传递情绪价值的社交产品,基于意识科学和情绪价值的理论基础。波动世界将人的意识和情绪作为研究和应用的对象,探索人的意识机制和特征,培养人的意识技能和习惯,满足人的意识体验和意义,提高人的自我意识、自我管理、自我调节、自我表达和自我实现的能力,让人获得真正的自由快乐和内在的力量。波动世界将建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用程序。
加入AI交流群请扫码加微信