点击蓝字 关注我们
论文分享 | 智能体相关研究进展
PARTNR: A Benchmark for Planning and Reasoning in Embodied Multi-agent Tasks DynaSaur: Large Language Agents Beyond Predefined Actions Infant Agent: A Tool-Integrated, Logic-Driven Agent with Cost-Effective API Usage WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning DARD: A Multi-Agent Approach for Task-Oriented Dialog Systems
1.PARTNR: A Benchmark for Planning and Reasoning in Embodied Multi-agent Tasks
Authors: Matthew Chang, Gunjan Chhablani, Alexander Clegg, Mikael Dallaire Cote, Ruta Desai, Michal Hlavac, Vladimir Karashchuk, Jacob Krantz, Roozbeh Mottaghi, Priyam Parashar, Siddharth Patki, Ishita Prasad, Xavier Puig, Akshara Rai, Ram Ramrakhya, Daniel Tran, Joanne Truong, John M. Turner, Eric Undersander, Tsung-Yen Yang
https://arxiv.org/abs/2411.00081
论文摘要
我们提出了一个用于人机协作中的规划与推理任务基准(PARTNR),旨在研究家庭活动中的人机协调。 PARTNR 任务展示了日常任务的特征,例如空间、时间和异构智能体能力约束。我们采用了一个使用大型语言模型(LLMs)的半自动任务生成流程,并结合了仿真环节进行任务的基础验证和确认。PARTNR是同类基准中规模最大的,包含100,000个自然语言任务,涵盖60个家庭和5,819个独特物体。我们分析了最先进的LLMs在PARTNR 任务中的表现,着重于规划、感知和技能执行等方面。分析结果揭示了当前模型的显著局限性,比如协调能力差、任务跟踪失败以及从错误中恢复的困难。当LLMs与真实的人类配对时,它们所需的步骤是两个协作人类的1.5倍,比单个人人类多1.1倍,这突显了这些模型的改进潜力。我们进一步表明,通过规划数据对较小的LLMs进行微调,可以实现与大9倍模型相当的性能,同时在推理速度上快8.6倍。总体而言,PARTNR突出了协作具身智能体面临的重大挑战,并旨在推动这一方向的研究。
论文简评
PARTNR是一个旨在评估人机协作中的规划与推理的基准。该文使用LLMs生成了100,000个自然语言任务来模拟真实世界的家庭活动场景。这一举措填补了人类-机器人协同中实体AI基准的空白,并通过多代理设置分析了当前最先进的LLMs与人类合作的表现之间的性能差距。这些分析提供了对现有模型局限性的宝贵见解。总之,PARTNR为研究人机协作中的规划与推理提供了丰富的数据资源,并且对于理解先进模型与人类行为之间的差异具有重要意义。
2.DynaSaur: Large Language Agents Beyond Predefined Actions
Authors: Dang Nguyen, Viet Dac Lai, Seunghyun Yoon, Ryan A. Rossi, Handong Zhao, Ruiyi Zhang, Puneet Mathur, Nedim Lipka, Yu Wang, Trung Bui, Franck Dernoncourt, Tianyi Zhou
https://arxiv.org/abs/2411.01747
论文摘要
现有的大型语言模型(LLM)智能体系统通常在每个步骤中从一个固定预定义的动作集合中选择动作。虽然这种方法在封闭、狭窄范围的环境中有效,但我们认为在真实世界场景中部署LLM智能体时面临两个主要挑战:(1)固定的动作集合显著限制了LLM智能体的规划和行动能力;(2)这种方法需要大量人力来列举和实现所有可能的动作,而在具有大量潜在动作的复杂环境中,这变得不切实际。在本研究中,我们提出了一种LLM智能体框架,允许在在线环境中动态创建和组合动作。在该框架中,智能体通过生成和执行用通用编程语言编写的程序来与环境交互。此外,生成的动作会随着时间的推移而积累,以供未来重用。我们在GAIA基准上的广泛实验表明,该框架提供了显著更大的灵活性,并且优于之前的方法。值得注意的是,它使得LLM智能体能够在预定义集合中不存在相关动作或现有动作由于不可预见的边缘情况而失败时进行恢复。截至撰写时,我们在GAIA公共排行榜上名列第一。我们的代码可以在以下链接找到:https://github.com/adobe-research/dynasaur。
论文简评
本文《DynaSaur: A Framework for Dynamic Action Creation and Execution》提出的DynaSaur是一种用于LLM代理的框架,能够通过生成Python代码实现动态动作的创建与执行。这一方法有效解决了传统LLM代理受限于固定动作集合所面临的限制,从而增强了复杂环境中的灵活性和适应性。实验结果表明,在GAIA基准上的表现优异,显著优于现有系统,证明了其性能出众。
DynaSaur的关键特性在于其动态行动创造能力,这一创新给予了研究者新的视角来理解和解决复杂的AI问题。此外,对Python作为动作表示的整合,使得Agent能够利用广泛的库和工具集,进一步增强其功能。通过这些特性,DynaSaur不仅展示了其在实际应用中的潜力,也为更好地利用现有技术以满足未来AI需求提供了新思路。总之,DynaSaur是一个值得期待的研究成果,有望在未来的发展中发挥重要作用。
3.Infant Agent: A Tool-Integrated, Logic-Driven Agent with Cost-Effective API Usage
Authors: Bin Lei, Yuchen Li, Yiming Zeng, Tao Ren, Yi Luo, Tianyu Shi, Zitian Gao, Zeyu Hu, Weitai Kang, Qiuwu Chen
https://arxiv.org/abs/2411.01114
论文摘要
尽管大语言模型(LLMs)具有令人印象深刻的能力,但它们目前存在两个主要限制:(一)它们难以自主解决现实世界的工程问题。(二)它们在复杂逻辑问题的推理方面仍面临挑战。 为了解决这些挑战,我们开发了Infant Agent,集成了任务感知功能、操作符、层次管理系统和记忆检索机制。这些组件共同使大语言模型能够维持较长的推理过程,并高效处理复杂的多步骤任务,同时显著降低API成本。使用Infant Agent后,GPT-4o在SWE-bench-lite数据集上的准确率从0.33%提高到30%,而在AIME-2024数学竞赛中,它的准确率从13.3%提升到37%。
论文简评
《INFANT AGENT:一种增强大型语言模型解决实际工程问题和复杂逻辑推理任务能力的框架》这篇论文提出了一个名为INFANT AGENT的新框架,旨在提高大型语言模型(LLM)处理现实世界工程问题和复杂逻辑推理任务的能力。该框架整合了任务感知功能、层次化管理系统以及内存检索机制,以改进推理过程并降低API成本,显著提高了各种数据集上的性能表现。
论文的关键创新在于提出了一种新颖的方法——代理协同和内存检索机制,这些方法通过整合层次化的合作模式与内存检索策略,实现了效率和成本的有效提升。此外,实验结果表明,在多个数据集上,INFANT AGENT表现明显优于传统的LMM解决方案,特别是在处理复杂逻辑推理任务时更为显著。
总的来说,《INFANT AGENT》这篇论文不仅揭示了现有技术的局限性,还提供了新的解决方案应对这一挑战。它展示了如何利用先进技术和理念,为大规模语言模型的开发提供更高效、经济且实用的支持。未来的研究中,可以进一步探讨如何优化INFANT AGENT框架中的具体组件,以实现更高的性能和更低的成本。
4.WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning
Authors: Zehan Qi, Xiao Liu, Iat Long Iong, Hanyu Lai, Xueqiao Sun, Xinyue Yang, Jiadai Sun, Yu Yang, Shuntian Yao, Tianjie Zhang, Wei Xu, Jie Tang, Yuxiao Dong
https://arxiv.org/abs/2411.02337
论文摘要
大型语言模型(LLMs)作为自主智能体展现了显著的潜力,特别是在基于网络的任务中。然而,现有的LLM网络智能体在很大程度上依赖于昂贵的专有LLM API,而开放的LLM欠缺所需的决策能力。本文介绍了一种名为WEBRL的自我演化在线课程强化学习框架,旨在利用开放的LLM训练高性能的网络智能体。WEBRL解决了构建LLM网络智能体的三个关键挑战,包括训练任务稀缺、反馈信号稀疏以及在线学习中的策略分布漂移。具体而言,WEBRL结合了1) 自我演化课程,通过失败尝试生成新任务,2) 可靠的结果监督奖励模型(ORM),以及3) 自适应强化学习策略以确保持续改进。我们应用WEBRL将开放的Llama-3.1和GLM-4模型转变为熟练的网络智能体。在WebArena-Lite上,WEBRL将Llama-3.1-8B的成功率从4.8%提升至42.4%,将GLM-4-9B的成功率从6.1%提升至43%。这些开放模型的表现显著超越了GPT-4-Turbo(17.6%)和GPT-4o(13.9%),并且超过了在开放LLM上训练的先前最先进的网络智能体(AutoWebGLM,18.2%)。我们的研究结果展示了WEBRL在缩小开放和专有LLM基础网络智能体之间的差距的有效性,为更可访问和强大的自主网络互动系统铺平了道路。代码、模型和数据已公开发布,网址为https://github.com/THUDM/WebRL。
论文简评
该论文旨在提出一种名为WEBRL(Web-Enabling Reinforcement Learning)的自进化在线课程强化学习框架,以训练开源语言模型作为网络代理。该框架针对训练任务稀少、反馈信号不完整以及策略分布漂移等问题提出了挑战,并声称其性能显著提升,超越了专有模型。
该文的主要贡献在于提出了一个自适应任务难度的自我进化课程,能够根据代理的表现动态调整训练任务的复杂度。此外,通过一系列实验验证了这种自进化方法的有效性,证明了WEBRL框架能够在实际应用中取得良好的效果。
总的来说,该论文为开源语言模型在互联网环境中如何更好地发挥作用提供了新的思路和技术解决方案。它不仅解决了传统模型面临的训练难题,而且具有广阔的潜在应用前景。
5.DARD: A Multi-Agent Approach for Task-Oriented Dialog Systems
Authors: Aman Gupta, Anirudh Ravichandran, Ziji Zhang, Swair Shah, Anurag Beniwal, Narayanan Sadagopan
https://arxiv.org/abs/2411.00427
论文摘要
面向任务的对话系统在客户服务、个人助手等应用中至关重要,广泛应用于各个行业。然而,由于处理多种用户意图、实体类型以及跨多个领域的特定知识的复杂性,开发有效的多领域系统仍然是一个重大挑战。在本研究中,我们提出了DARD(领域指定响应委托),这是一个能够成功处理多领域对话的多智能体对话系统。DARD利用特定领域的智能体,由中央对话管理智能体进行协调。我们的 extensive 实验比较并利用了各种智能体建模方法,将较小的微调模型(Flan-T5-large和Mistral-7B)的优势与较大的语言模型(LLMs)(Claude Sonnet 3.0)结合起来。我们提供了对每种方法的优势和局限性的深入见解,强调了我们的多智能体框架在灵活性和可组合性方面的优势。我们使用公认的MultiWOZ基准对DARD进行了评估,在对话信息率提高6.6%和成功率提高4.1%的情况下,达到了最先进的性能。此外,我们讨论了MultiWOZ数据集及其评估系统中各种标注者之间的差异和问题。
论文简评
该篇论文提出了DARD(Domain Assigned Response Delegation)框架,这是一种多代理系统,旨在通过协调由中央对话管理者调度的专有代理来改进任务导向对话系统的处理能力。本文的主要目标是解决当前对话系统面临的挑战,并在MultiWOZ基准数据集上取得显著进步,特别是在对话完成率和成功率方面达到了最先进的水平。论文强调了使用专门代理为不同领域提供灵活性和可组合性的潜在价值。因此,DARD框架不仅解决了传统对话系统中普遍存在的问题,还展示了其在多域对话处理方面的巨大潜力。
我们欢迎您在评论区中留下宝贵的建议!包括但不限于:
可以提出推文中论文简评的不足! 可以分享最近更值得推荐的论文并给出理由!
END