AI 智能体(Agent)是当下大型语言模型社区中最为吸引人的研究方向之一,用户只需要提出自己的需求,智能体框架便可以调度多个LLMs并支持多智能体(Multi-agents)以协作或竞争的方式来完成用户给定的任务。目前智能体已越来越多地与大型多模态模型(MLM)相结合,支持在各种操作系统( 包括网页、桌面电脑和智能手机) 的图形用户界面( GUI) 环境中执行任务。但是目前针对这种智能体性能评估的基准(benchmarks)仍然存在很多局限性,例如构建任务和测试环境的复杂性,评价指标的单一性等。 针对这些问题,本文提出了一个全新的跨环境智能体基准测试框架 CRAB。该项目由CAMEL AI社区主导,由来自牛津、斯坦福、哈佛、KAUST、Eigent AI等机构的研究人员合作开发。CAMEL AI社区开发的CAMEL框架(https://www.camel-ai.org; https://github.com/camel-ai)是最早基于大语言模型的多智能体开源项目,因此社区成员多为在智能体领域有丰富科研和实践经验的研究者和工程师。CRAB 采用了一种基于图的细粒度评估方法,并提供了高效的任务和评估器构建工具。 本文的研究团队还基于CRAB框架开发了一个跨平台的测试数据集 CRAB Benchmark-v0,其中涵盖了可以在PC和智能手机环境中执行的100个任务,其中既包含传统的单平台任务,还包含了必须同时操作多个设备才能完成的复杂跨平台任务。作者选取了当前较为流行的四个多模态模型进行了初步实验,实验结果表明,使用GPT-4o作为推理引擎的单智能体结构拥有最高的测试点完成率35.26%。
本文的研究团队还基于CRAB框架开发了一个跨平台的测试数据集 CRAB Benchmark-v0,其中涵盖了可以在PC和智能手机环境中执行的100个任务,其中既包含传统的单平台任务,还包含了必须同时操作多个设备才能完成的复杂跨平台任务。作者选取了当前较为流行的四个多模态模型进行了初步实验,实验结果表明,使用GPT-4o作为推理引擎的单智能体结构拥有最高的测试点完成率35.26%。
论文题目:
CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents
论文地址:
https://arxiv.org/abs/2407.01511
代码仓库:
https://github.com/camel-ai/crab
一、引言
作为全新的智能体评估基准框架,CRAB(Cross-environment Agent Benchmark)主要用于评估基于多模态语言模型(MLMs)的智能体在跨环境任务中的表现。CRAB可以模拟真实世界中人类用户同时使用多个设备完成复杂任务的场景,如下图所示,CRAB可以用来评估智能体同时操纵一个Ubuntu桌面系统和一个Android手机系统完成发送信息的过程。
想象一下,如果智能体具备根据人类指令同时精确操作电脑和手机的能力,很多繁杂的软件操作就可以由智能体来完成,从而提高整体的工作效率。为了达成这个目标,我们需要为智能体构建更加全面和真实的跨平台测试环境,特别是需要支持同时操作多个设备并且能提供足够的评估反馈机制。本文的CRAB框架尝试解决以下几个实际问题:
跨环境任务评估:现有的基准测试通常只关注单一环境(如网页、Android或桌面操作系统)[1][2][3],而忽视了真实世界中跨设备协作场景的复杂性。CRAB框架支持将一个设备或应用的交互封装为一个环境,通过对多环境任务的支持,提供给智能体更丰富的操作空间,也更贴近实际应用场景。
细粒度评估方法:传统的评估方法要么只关注最终目标的完成情况(目标导向),要么严格比对操作轨迹(轨迹导向)[1][2]。这两种方法都存在局限性,无法全面反映智能体的表现。CRAB提出了基于图的评估方法,既能提供细粒度的评估指标,又能适应多种有效的任务完成路径。
任务构建复杂性:随着任务复杂度的增加,手动构建任务和评估器变得越来越困难。CRAB提出了一种基于子任务组合的方法,简化了跨环境任务的构建过程。
智能体系统结构评估:本文还探讨了不同智能体系统结构(单智能体、基于功能分工的多智能体、基于环境分工的多智能体)对任务完成效果的影响,为设计更高效的智能体系统提供了实证依据。
二、定义
2.1 任务定义
2.2 图任务分解(Graph of Decomposed Tasks, GDT)
将复杂任务分解为几个更简单的子任务是LLMs解决实际问题时非常有效的技巧[4],本文将这一概念引入到了智能体基准测试中,具体来说,本文引入了一种分解任务图(Graph of Decomposed Tasks,GDT),如下图所示,它可以将一个复杂任务表示为一个有向无环图(DAG)的结构。
三、CRAB框架
3.1 跨环境智能体交互
CRAB首次引入了跨环境任务的概念,将多个环境(如智能手机和桌面电脑)组合成一个环境集合,使智能体能够在多个设备之间协调操作完成复杂任务。
3.2 图评估器(Graph Evaluator)
四、CRAB Benchmark-v0
4.1 基准构建细节
基于提出的CRAB框架,本文构建了一个具体的基准测试集CRAB Benchmark-v0用于社区进一步开展研究。CRAB Benchmark-v0同时支持Android手机和Ubuntu Linux桌面电脑两个环境。并且为Ubuntu和Android定义了不同的动作集,用来模拟真实生活中的常见交互。其观察空间由两种环境的系统界面构成,并且使用屏幕截图形式获取环境状态。为了方便智能体在GUI中操作,作者使用GroundingDINO[5]来定位可交互图标,使用 EasyOCR 检测和标注可交互文本,为每个检测项分配一个ID,方便后续在操作空间内引用。
我们以一个具体任务举例,例如在Ubuntu系统上完成如下任务:创建一个新目录“/home/crab/assets_copy”,并将所有具有指定“txt”扩展名的文件从“/home/crab/assets”复制到目录“/home/crab/assets_copy”。
4.2 实验效果
作者随后在CRAB Benchmark-v0进行了baseline实验,智能体的核心是后端的多模态语言模型,其用来提供自然语言和图像理解、基本设备知识、任务规划和逻辑推理能力,需要支持多模态混合输入,可以同时处理多轮对话,因而作者选取了GPT-4o (gpt-4o-2024-05-13)、GPT-4 Turbo (gpt-4-turbo-2024-04-09)、Gemini 1.5 Pro (2024年5月版本)和Claude 3 Opus (claude-3-opus-20240229)作为baseline模型。
五、总结
参考资料
[1] Tianlin Shi et al. “World of Bits: An Open-Domain Platform for Web-Based Agents”. In: Proceedings of the 34th International Conference on Machine Learning. Ed. by Doina Precup and Yee Whye Teh. Vol. 70. Proceedings of Machine Learning Research. PMLR, June 2017, pp. 3135–3144. URL: https://proceedings.mlr.press/v70/shi17a.html.
[2] Mingzhe Xing et al. Understanding the Weakness of Large Language Model Agents within a Complex Android Environment. Feb. 9, 2024. URL: http://arxiv.org/abs/2402.06596. preprint.
[3] Tianbao Xie et al. OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments. Apr. 11, 2024. URL: http://arxiv.org/abs/2404.07972. preprint.
[4] Tushar Khot et al. “Decomposed Prompting: A Modular Approach for Solving Complex Tasks”. In: The Eleventh International Conference on Learning Representations. 2023. URL: https://openreview.net/forum?id=_nGgzQjzaRy.
[5] Shilong Liu et al. Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection. arXiv.org. Mar. 9, 2023.
扫码观看!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
melodybai@thejiangmen.com
或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。