简洁胜于复杂，亚马逊研究团队提出基于LLM的Web代理AGENTOCCAM的研究与应用

文摘 2024-10-21 08:02 美国

大模型在感知、推理和规划方面展现出惊人的能力，主要得益于其大规模的预训练和后续学习。然而当任务特定的观察和动作表示与LLM训练过程中编码的知识不一致时，其有效性会显著受限。在网络任务中，这些代理的表现显著低于人类水平。因此研究如何调整LLM在网络任务中的观察和动作空间，使其更好地发挥作用，成为一个重要的研究课题。

今天我们介绍一种名为AGENTOCCAM的简单但高效的LLM基础网络智能体。来自亚马逊为主的研究团队研发的AGENTOCCAM通过优化其动作和观察空间，使其在Web任务中的表现大幅提升。相比于复杂的方法，AGENTOCCAM以其简洁的策略工作流脱颖而出，不需要额外的模块、LLM调用或上下文示例。

AGENTOCCAM的核心目标是通过优化代理的观察和动作空间，使其更符合LLM的能力，从而显著提升其在各种网络任务中的表现。AGENTOCCAM通过简化动作空间，移除不必要的动作，减少代理的干扰，使其更专注于有意义的操作；同时通过优化观察空间，减少冗余信息，提高信息的精简性和相关性，帮助代理更好地理解和执行任务。

图1:AGENTOCCAM概述。与之前专注于设计复合LLM策略的研究不同，我们只需将网络交互动作和观察空间与LLM在培训过程中获得的知识和技能相匹配，即可增强网络代理。

AGENTOCCAM的研究团队由来自伊利诺伊大学厄巴纳-香槟分校（UIUC）的Ke Yang与亚马逊的研究人员合作完成。团队成员包括Yao Liu、Sapana Chaudhary、Rasool Fakoor、Pratik Chaudhari、George Karypis和Huzefa Rangwala，结合学术界和业界的力量，共同完成了AGENTOCCAM的研究。他们在优化LLM基础网络代理的动作和观察空间方面进行了深入研究，并取得了显著成果。Ke Yang在亚马逊实习期间，发挥了关键作用，与亚马逊的资深研究员们通力合作，确保了AGENTOCCAM的成功开发。这种背景和技术特征不仅展示了研究团队的实力和创新能力，也为AGENTOCCAM的进一步发展和应用提供了坚实的基础。

研究方法

AGENTOCCAM的研究方法聚焦于优化网络智能体的观察和动作空间，使其更好地适配大型语言模型（LLM）的能力，克服其在具体任务中遇到的瓶颈。

图2：在将动作空间与LLM预训练对齐时，研究团队只保留了高效用动作，并减少了对高级化身技能的需求（步骤1和2）。此外他们纳入了计划步骤，允许代理自主管理任务分解和执行（步骤3）。

研究团队将网络交互过程形式化为部分可观察马尔科夫决策过程（POMDP）。POMDP是指在一种环境中，代理通过观察获得的信息，并根据这些信息采取行动，而环境的状态变化遵循马尔科夫性质。具体来说，POMDP的定义包括以下几个部分：观察o代表代理从环境中获取的当前状态信息，例如HTML页面、指令和提示；状态s则表示代理和环境的全部底层状态，但这种状态是不可直接观测的；动作a是代理可以采取的行动，包括页面上的点击、输入等操作；状态转移函数P记录了给定当前状态和代理动作后网页状态的变化；奖励函数R决定了代理动作序列的成功与否；p0是初始状态分布；折扣因子γ用于计算长期奖励。

在这种框架下，AGENTOCCAM需要解决的是如何设计一个能够最大化期望累计奖励的决策策略π。在LLM基础的网络代理设计中，这一目标被转化为设计一个带有一个或多个基本LLM策略πLLM和一组算法模块的策略，特别关注于观察和动作空间对齐的问题。

图3：研究团队的web导航代理提示符的组件。它包括概述任务、所需输出和可用操作的一般说明，以及提供当前目标、代理过去交互和最新观察结果的在线任务信息。值得注意的是，关于先前交互和当前观察的部分使用了最多的标记。这可以归因于两个主要因素：页面的长度和历史跨度的范围，当前的观察主要取决于页面长度和过去在页面长度和历史范围上的交互。

AGENTOCCAM的方法论集中于优化代理的动作空间和观察空间，以便更好地适应LLM的特性，从而提升网络任务的执行效率和准确性。

AGENTOCCAM的动作空间优化策略包括以下几个方面。

简化动作空间：通过移除无关或冗余的动作来减少代理的干扰。例如，移除“不操作”动作和标签操作（如标签聚焦、打开或关闭），因为这些动作在大多数情况下对任务执行没有帮助。对于导航动作，如“前进”和“跳转”，由于代理对网页URL和内容关系记忆的有限性，也被限制使用。通过这些调整，代理可以更专注于重要的操作，提升任务执行效率。

引入规划动作：为了应对复杂的多路径导航任务，AGENTOCCAM引入了“分支”和“修剪”动作。这些动作允许代理生成和管理规划树，从而自主规划任务的分解和执行。分支动作用于将高层目标分解为更小的子目标，而修剪动作则用于在失败的尝试后放弃当前子计划，探索替代方案。

抽象低级操作：对于需要具象知识的复杂操作，如“悬停”和“按键”，AGENTOCCAM通过简化这些低级操作为更抽象的操作，从而减少代理在这些操作上耗费的资源。例如，将“滚动”动作替换为加载整个页面内容，以避免代理无效的滚动行为。

观察空间优化策略

图4：为了将任务的观察空间与基础模型的预训练对齐，研究团队通过删除重复描述网页功能和布局的不必要文本来压缩单个页面长度（步骤1），并通过识别与任务相关的页面元素供代理记住（步骤2）。此外，我们通过计划树优化代理工作流内存，将每个新计划视为一个单独的目标，并排除过去步骤中专用于先前计划的信息，以提高内存的简洁性（步骤3）。

观察空间的优化同样是AGENTOCCAM的关键策略之一，目标是简化和优化代理所需处理的网页内容，使其更符合LLM的训练特点。

简化网页观察：网页内容通常以HTML或辅助功能树格式表示，这些格式包含大量冗余和重复的格式化令牌。AGENTOCCAM通过合并功能描述性网页元素与交互元素，并将表格和列表块转换为Markdown格式，减少不必要的格式化令牌，从而简化网页内容的表示，使其更易于LLM处理。

选择性回放观察历史：在长期任务中，代理需要回放之前的观察和动作历史，以保持任务的一致性。然而，完整的历史记录会显著增加上下文长度和推理成本。为此，AGENTOCCAM通过选择性地回放关键网页元素和规划树中的节点，简化历史记录。这一策略不仅提高了代理在长期任务中的一致性，还减少了数据噪音。

表1：不同基于LLM的网络代理的基本组件比较。

通过这些动作和观察空间的优化策略，AGENTOCCAM在保持简洁性的同时，显著提升了网络任务执行的效率和准确性。

实验结果与分析

实验环境介绍

在这项研究中，AGENTOCCAM的性能评估主要依托于WebArena这一基准测试环境。WebArena是一个互动式的网络模拟器，涵盖了四个常见领域的全功能网站：电商平台（OneStopShop）、意见交流的社交论坛（Reddit）、协作软件开发平台（GitLab）和在线数据管理平台（在线商店管理）。此外，平台还包括一些实用工具，如地图、计算器、便签和维基百科，以实现类人任务解决。

WebArena基准测试的核心是其多样化和复杂的任务模板，包含241个任务模板，总共生成812个具体任务。这些任务涵盖了从简单的信息提取到复杂的多步骤交互，提供了一个全面的测试环境来评估网络代理的性能。为了确保公平和客观的评估，每个任务都伴随着一个评估/奖励函数，用于程序化检查代理在执行任务过程中的正确性和效率。

此次实验中，研究团队使用了GPT-4-turbo-2024-04-09版本来构建AGENTOCCAM。这一版本的LLM具备强大的推理和规划能力，使得AGENTOCCAM在处理复杂任务时表现出色。

AGENTOCCAM的性能评估

图5:AGENTOCCAM作用和观测空间精细化的消融研究。我们逐步添加细化组件，并评估其边际性能增益。

在性能评估中，AGENTOCCAM与多种基线方法进行了对比，主要包括WebArena代理、SteP、WebPilot和Agent Workflow Memory（AWM）。这些基线方法各有特点，例如SteP使用14个人工编写的策略解决WebArena的任务，WebPilot则是一种基于多代理和多层次蒙特卡洛树搜索（MCTS）的代理方法，AWM则自动总结工作流以优化任务执行。

表2:WebArena上AGENTOCCAM与基线药物的成功率（SR）比较。

表2展示了AGENTOCCAM与这些基线方法在WebArena上的成功率比较。在所有测试的网站任务中，AGENTOCCAM均表现出色，整体成功率从WebPilot的37.2%提升至43.1%，提高了15.8%。在具体任务中，AGENTOCCAM不仅能够完成以前无法解决的任务，如在OneStopShop上更新个人信息，还显著提高了之前混合结果的任务模板的成功率，如在GitLab个人资料上设置主页URL。

这些显著的性能提升不仅展示了AGENTOCCAM在优化动作和观察空间后的强大能力，也证明了其简单但高效的方法在多种任务环境中的普适性和适用性。

消融研究

为了进一步理解AGENTOCCAM各个组件的贡献，研究团队进行了详细的消融研究。通过逐步集成AGENTOCCAM的每个组件并评估其边际性能增益，研究团队能够明确各个部分对整体性能的影响。

首先，移除非必要动作显著减少了代理的干扰，使其在各个网站上的性能均有所提升。具体来说，删除不常用的动作（如tab focus、go forward、hover和press）后，代理在探索过程中浪费的步骤明显减少，点击和输入的次数显著增加。

禁用滚动动作证明了其优势，尤其是在处理GitLab和Reddit任务时。虽然这一策略增加了观察令牌的数量，但后续的精炼措施可以有效应对这一问题。

此外，简化网页元素和选择性回放观察历史也显著提升了代理的任务执行效率。通过移除冗余文本和网页格式，代理能够更专注于任务成功所需的网页元素，提高了所有任务类型的性能。

最终研究团队引入的分支和修剪动作进一步优化了代理的任务规划和执行。这些动作允许代理生成和管理规划树，从而自主规划任务的分解和执行，提高了几乎所有网站任务的性能，同时减少了所需的观察令牌。

表3:AGENTOCCAM成分消融研究的行动统计。表中的每个数字表示实验设置中所有任务的操作频率。

表4:WebArena站点上每一步的平均观察标记。我们使用HUGGINGFACE的GPT2标记器

表3和表4展示了AGENTOCCAM组件消融研究的动作统计数据和每步平均观察令牌数量。这些数据表明，通过这些优化措施，AGENTOCCAM不仅在整体成功率上显著提升，还在任务执行效率和准确性方面表现出色。

研究发现

在研究团队的实验和分析中，AGENTOCCAM展现了其显著的性能提升。通过对动作和观察空间的精细优化，这一简单的LLM基础网络智能体在各种复杂任务中表现出了卓越的能力。下面我们将深入探讨其性能提升的原因、观察和动作空间对齐的重要性，以及简单代理架构的优势与普适性。

AGENTOCCAM的显著性能提升

AGENTOCCAM在多个基准任务上超越了现有的最先进方法，其整体成功率从WebPilot的37.2%提升到43.1%，相对提升了15.8%。在具体任务上，AGENTOCCAM不仅完成了之前无法解决的任务，如在OneStopShop上更新个人信息，还显著提高了之前混合结果的模板成功率，如在GitLab个人资料上设置主页URL。这些结果证明了AGENTOCCAM优化动作和观察空间的有效性。

具体而言，AGENTOCCAM通过移除冗余和低效的动作，使代理能够更加专注于重要的操作。这包括删除“不操作”动作和标签操作，限制“前进”和“跳转”动作，从而减少了代理在执行任务过程中的干扰。此外，通过引入“分支”和“修剪”动作，AGENTOCCAM能够自主规划任务的分解和执行，显著提高了复杂任务的成功率。

在观察空间的优化方面，AGENTOCCAM通过合并功能描述性网页元素与交互元素，并将表格和列表块转换为Markdown格式，减少了不必要的格式化令牌，使网页内容更加简洁。这一策略不仅提高了代理的任务执行效率，还减少了LLM推理过程中的数据噪音。

观察和动作空间对齐的重要性

在LLM基础的网络代理中，观察和动作空间的对齐是提升其任务执行能力的关键因素之一。LLM在训练过程中主要关注静态文本，而网络任务通常涉及动态交互和多步骤操作。因此通过优化观察和动作空间，使其更加符合LLM的能力，是提高代理性能的重要方法。

AGENTOCCAM在这方面做了大量工作。通过精简动作空间，移除不必要的动作，代理能够更加专注于重要的操作，减少了任务执行过程中的干扰。同时，通过优化观察空间，合并功能描述性网页元素与交互元素，并将表格和列表块转换为Markdown格式，AGENTOCCAM能够更加高效地处理网页内容，提高了任务执行的准确性和效率。

这种观察和动作空间的对齐，不仅提升了代理的任务执行能力，还证明了简单代理架构在处理复杂任务中的有效性。AGENTOCCAM的成功，展示了通过优化基础元素来提升整体性能的潜力，为未来的研究提供了重要的参考。

简单代理架构的优势与普适性

AGENTOCCAM的设计理念遵循了奥卡姆剃刀原则，即在解决问题时应尽量选择最简单的解决方案。这一简单代理架构不仅在实验中表现出色，还具备很高的普适性。

首先，简单的策略工作流使AGENTOCCAM在不需要额外模块、LLM调用或上下文示例的情况下，能够高效地执行各种复杂任务。这一简洁的方法不仅减少了系统的复杂性，还提高了代理的可解释性和可维护性。

AGENTOCCAM的简单架构使其在多种任务环境中都表现出色，无论是电商平台、社交论坛，还是协作软件开发平台，AGENTOCCAM都能高效完成任务。这表明AGENTOCCAM具备很高的普适性，能够适应不同类型的任务和环境需求。

最后，AGENTOCCAM成功展示了通过优化基础元素来提升整体性能的潜力。

未来工作与应用

AGENTOCCAM通过优化其动作和观察空间，在网络任务中展示了强大的性能和普适性。然而科学研究从未止步，AGENTOCCAM的研究成果为未来的工作和应用指明了新的方向。

AGENTOCCAM与其他代理策略的结合潜力

AGENTOCCAM的简洁设计和显著性能提升，使其成为与其他代理策略结合的理想候选。论文的研究已经展示了这种结合的初步潜力。例如，通过将AGENTOCCAM与SteP方法相结合，尽管SteP策略在某些任务中表现出色，但整体性能并未超过单独的AGENTOCCAM。然而这也揭示了特定任务策略在适应不同任务时可能带来的局限性。

为了进一步探索这种结合的潜力，未来的研究可以尝试以下几个方向。

与其他模块化策略结合：AGENTOCCAM的简洁架构使其易于与其他模块化策略集成，如反思性思维模块、记忆模块或多代理系统。这些模块可以为AGENTOCCAM提供更丰富的功能和更强的适应性，从而在更广泛的任务环境中表现出色。

与高级搜索算法结合：高级搜索算法，如蒙特卡洛树搜索（MCTS）或深度强化学习，可以与AGENTOCCAM结合，进一步提高其在复杂任务中的表现。通过在任务执行过程中动态生成和评估多个行动方案，代理可以更高效地探索和优化任务解决方案。

利用评判者角色优化决策：通过引入一个评判者角色（如论文中的LLM评判者），可以对AGENTOCCAM生成的多个行动方案进行评估和选择。这种方法可以帮助代理在关键步骤中做出更准确的决策，从而提高整体任务成功率。

未来研究方向和改进建议

除了与其他策略的结合，未来的研究还可以在多个方向上进一步改进和扩展AGENTOCCAM的应用。

提升环境适应性：虽然AGENTOCCAM在WebArena中表现出色，但实际应用环境往往更加复杂多变。未来的研究可以探索如何提升AGENTOCCAM在不同网络环境中的适应性，包括处理动态内容、用户交互和多设备兼容等问题。

增强任务多样性：当前的研究主要集中在一些典型的网络任务上，如信息提取和数据输入。未来的工作可以扩展AGENTOCCAM的任务范围，包括更复杂的多步骤任务、跨平台任务以及涉及多种媒体类型的任务（如音频和视频处理）。

优化模型训练和推理效率：尽管AGENTOCCAM已经展示了其高效的性能，但大型语言模型的训练和推理过程仍然需要大量的计算资源。未来的研究可以探索更加高效的训练和推理方法，如模型压缩、知识蒸馏和边缘计算等技术，以提升模型的实际应用性能。

加强安全性和鲁棒性：在实际应用中，网络代理面临着各种安全和鲁棒性挑战，如应对恶意攻击、处理异常输入和保证用户隐私等。未来的工作需要在这方面进行深入研究，确保AGENTOCCAM在各种情况下都能安全可靠地运行。

用户体验优化：未来的研究还应关注用户体验的优化。通过提升代理的交互能力、提供更加直观的反馈和可解释性，以及个性化定制功能，AGENTOCCAM可以在实际应用中更好地满足用户需求，提供更好的服务。

总的来说，AGENTOCCAM的研究成果为未来的网络代理研究和应用提供了坚实的基础。通过结合其他代理策略、提升环境适应性、增强任务多样性、优化模型效率、加强安全性和鲁棒性以及优化用户体验，AGENTOCCAM有望在未来的网络智能体发展中发挥更大的作用，开创更多的应用场景和可能性。（END）

参考资料：https://arxiv.org/pdf/2410.13825

波动世界（PoppleWorld)是噬元兽数字容器的一款AI应用，是由AI技术驱动的帮助用户进行情绪管理的工具和传递情绪价值的社交产品，基于意识科学和情绪价值的理论基础。波动世界将人的意识和情绪作为研究和应用的对象，探索人的意识机制和特征，培养人的意识技能和习惯，满足人的意识体验和意义，提高人的自我意识、自我管理、自我调节、自我表达和自我实现的能力，让人获得真正的自由快乐和内在的力量。波动世界将建立一个指导我们的情绪和反应的价值体系。这是一款针对普通人的基于人类认知和行为模式的情感管理Dapp应用程序。

加入AI交流群请扫码加微信

http://mp.weixin.qq.com/s?__biz=MzA3NTY1MDY4MA==&mid=2247486733&idx=1&sn=767cb8984c63d61bc28886b5650cb0cd

大噬元兽

噬元兽FlerkenS 是一个去中心化的AI数字价值容器，捕捉数字时代新型资产，用数据飞轮把你的数据和内容转化成为你的财富，带你走进下一个智能互联网。

心理测量与语言学数据集PhDGPT：大模型的情感与认知分析

解密心智理论：从人类社会到人工智能的集体智慧提升之路

多智能体系统的金融交易,详解FinVision框架如何革新股票市场预测

智能调度新探索，多智能体强化学习在无关平行机调度中的应用

《自然》科学报告：大模型在社会情境判断方面可以胜过人类

微软研究院成果：用于解决复杂任务的Magentic-One通用多智能体系统

多智能体的文明之路，数字人类与AI社会的崛起

揭秘大模型中的神经网络，从ANs到类脑功能组织

中国科学院、上海人工智能实验室等联合团队重新定义语言模型发展，利用语言不平衡实现多语言自我改进

智能体协作进化论，从心智理论到逆向注意力

加州大学伯克利分校团队提出类脑推理的规范理论，泊松分布下的尖峰神经网络创新

谷歌与学术界联手，研究突破多智能体合作瓶颈的新算法

阿里巴巴“通义实验室”突破大模型推理瓶颈，MCoT框架展开在数学推理中的应用

亚马逊、微软、谷歌DeepMind 联合团队的杰作，POLYMATH 引领MLLMs多模态推理新基准

简洁胜于复杂，亚马逊研究团队提出基于LLM的Web代理AGENTOCCAM的研究与应用

从NLP到多智能体系统，通过BERTeam实现多智能体对抗中的最优组合

阿里巴巴达摩院、新加坡科技设计大学和南洋理工大学联合团队提升AI多步推理能力的新方法

人工智能与人类情感的交汇点：一致性评估方法的探索

斯坦福大学和伦敦大学学院联合打造多智能体系统中的安全防线，应对大模型即时感染

中科院、阿里巴巴、澳门科技大学联合团队提出微调LLM的新思路，探索顺序协作多智能体强化学习在LLM微调中的应用

从物理学到人工智能：用哈密顿力学提升AI推理能力

国家人机混合增强智能重点实验室项目：利用生成世界模型优化多智能体系统决策

香港科技大学、阿里巴巴集团和东南大学联合团队优化智能体协作系统，多智能体系统中代理导向规划的设计原则

OpenAI o1模型的规划能力评估：可行性、最优性与普遍性

《自然》Scientific Data：从数据到发现，AI在材料科学中的颠覆性应用

《自然》期刊：上海交通大学与上海人工智能研究所联合推出医学多语言模型

从 ASI到 AHI，人类与AI共生的发展之路

Google Research Scholar和DeepMind奖学金支持项目：多智能体系统中的合作弹性

自然（Nature）科学数据子刊：用于对话情境中情绪识别的 EEG-音频-视频数据集的创新应用

从CoT到ToT，多智能体与思维树结合突破复杂推理瓶颈

智能体在连续环境中的路径优化与冲突解决

基础模型重塑情感计算

从第二届MER2024-SEMI挑战赛看多模态情感识别的最新进展

智能体能自发形成社会吗？昆明理工大团队引入一种用于引发社会出现的生成式多智能体新架构

麻省理工研究团队革新科学研究方式,通过多智能体智能图推理实现科学发现自动化

从大脑到代码，神经科学启发的多智能体CortexCompile利用脑启发架构提升代码生成

自然（Nature）机器智能子刊：多智能体系统中的高效决策与去中心化强化学习的应用

2024人工智能峰会成功召开，华智未来强势发布20余项应用场景

多智能体路径规划新突破：AA-CCBS算法详解

人工智能应用场景高峰论坛暨成果发布会即将启幕，华智未来邀您共创新世界

NVIDIA 联合团队提出长视频理解的前沿技术BREASE，新框架连接情节和语义

从噪声中提取情感：中山大学与腾讯AI实验室基于元学习的多模态情感分析新方法

微软研究院发布无代码开发工具 AUTOGEN STUDIO，简化多智能体系统的构建与调试

从目标分配到路径规划，哈工大团队提出智能仓库的多智能体深度学习解决方案

多模态多智能体心智理论MuMA-ToM：推动AI理解复杂社会互动的前沿基准

情感与情绪在决策中的力量，多准则模糊群体决策系统的应用

多智能体系统中基于策略的资源交换逻辑

《自然》期刊发布最新科学报告：人工智能技术在个性化医疗中的创新与挑战

多智能体大模型协作中的角色不一致性：一致性、虚构性和模仿性

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉