同时操控手机和电脑完成任务，CAMEL联合多家机构发布首个跨系统智能体评测基准CRAB

创业 2024-08-21 08:22 北京

AI 智能体（Agent）是当下大型语言模型社区中最为吸引人的研究方向之一，用户只需要提出自己的需求，智能体框架便可以调度多个LLMs并支持多智能体（Multi-agents）以协作或竞争的方式来完成用户给定的任务。目前智能体已越来越多地与大型多模态模型(MLM)相结合，支持在各种操作系统（包括网页、桌面电脑和智能手机）的图形用户界面（ GUI）环境中执行任务。但是目前针对这种智能体性能评估的基准（benchmarks）仍然存在很多局限性，例如构建任务和测试环境的复杂性，评价指标的单一性等。
针对这些问题，本文提出了一个全新的跨环境智能体基准测试框架 CRAB。该项目由CAMEL AI社区主导，由来自牛津、斯坦福、哈佛、KAUST、Eigent AI等机构的研究人员合作开发。CAMEL AI社区开发的CAMEL框架（https://www.camel-ai.org; https://github.com/camel-ai）是最早基于大语言模型的多智能体开源项目，因此社区成员多为在智能体领域有丰富科研和实践经验的研究者和工程师。CRAB 采用了一种基于图的细粒度评估方法，并提供了高效的任务和评估器构建工具。
本文的研究团队还基于CRAB框架开发了一个跨平台的测试数据集 CRAB Benchmark-v0，其中涵盖了可以在PC和智能手机环境中执行的100个任务，其中既包含传统的单平台任务，还包含了必须同时操作多个设备才能完成的复杂跨平台任务。作者选取了当前较为流行的四个多模态模型进行了初步实验，实验结果表明，使用GPT-4o作为推理引擎的单智能体结构拥有最高的测试点完成率35.26%。

论文题目：
CRAB: Cross-environment Agent Benchmark for Multimodal Language Model Agents
论文地址：
https://arxiv.org/abs/2407.01511
代码仓库：
https://github.com/camel-ai/crab

一、引言

作为全新的智能体评估基准框架，CRAB（Cross-environment Agent Benchmark）主要用于评估基于多模态语言模型（MLMs）的智能体在跨环境任务中的表现。CRAB可以模拟真实世界中人类用户同时使用多个设备完成复杂任务的场景，如下图所示，CRAB可以用来评估智能体同时操纵一个Ubuntu桌面系统和一个Android手机系统完成发送信息的过程。

想象一下，如果智能体具备根据人类指令同时精确操作电脑和手机的能力，很多繁杂的软件操作就可以由智能体来完成，从而提高整体的工作效率。为了达成这个目标，我们需要为智能体构建更加全面和真实的跨平台测试环境，特别是需要支持同时操作多个设备并且能提供足够的评估反馈机制。本文的CRAB框架尝试解决以下几个实际问题：

跨环境任务评估：现有的基准测试通常只关注单一环境（如网页、Android或桌面操作系统）[1][2][3]，而忽视了真实世界中跨设备协作场景的复杂性。CRAB框架支持将一个设备或应用的交互封装为一个环境，通过对多环境任务的支持，提供给智能体更丰富的操作空间，也更贴近实际应用场景。
细粒度评估方法：传统的评估方法要么只关注最终目标的完成情况（目标导向），要么严格比对操作轨迹（轨迹导向）[1][2]。这两种方法都存在局限性，无法全面反映智能体的表现。CRAB提出了基于图的评估方法，既能提供细粒度的评估指标，又能适应多种有效的任务完成路径。
任务构建复杂性：随着任务复杂度的增加，手动构建任务和评估器变得越来越困难。CRAB提出了一种基于子任务组合的方法，简化了跨环境任务的构建过程。
智能体系统结构评估：本文还探讨了不同智能体系统结构（单智能体、基于功能分工的多智能体、基于环境分工的多智能体）对任务完成效果的影响，为设计更高效的智能体系统提供了实证依据。

上表展示了本文提出的CRAB框架与现有其他智能体基准框架的对比，相比其他基准，CRAB可以同时支持电脑和手机等跨平台的操作环境，可以模拟更加真实的使用场景。

二、定义

2.1 任务定义

CRAB框架将数字设备（如桌面电脑或智能手机）表示为一个具体的环境。每个环境被定义为一个无奖励的部分可观察马尔可夫决策过程（POMDP），可以使用元组表示，其中为状态空间，为动作空间，是转移函数，是观察空间。而对于跨环境任务，可以定义一个环境集合，其中是环境数量，每个环境又可以表示为。

基于以上，作者将一个具体的跨环境任务表示为元组，其中是环境集合，是以自然语言指令形式给出的任务目标，是任务的奖励函数。参与任务的智能体系统可以被建模为一个策略，这表示智能体在接收到来自环境 的观察 和动作历史 时，在环境 中采取动作 的概率。

2.2 图任务分解（Graph of Decomposed Tasks, GDT）

将复杂任务分解为几个更简单的子任务是LLMs解决实际问题时非常有效的技巧[4]，本文将这一概念引入到了智能体基准测试中，具体来说，本文引入了一种分解任务图（Graph of Decomposed Tasks，GDT），如下图所示，它可以将一个复杂任务表示为一个有向无环图（DAG）的结构。

GDT中的每个节点可以代表一个子任务，其中为子任务执行的环境，为自然语言指令，是奖励函数，用于评估环境 的状态并输出布尔值，判断子任务是否完成。GDT 中的边表示子任务之间的顺序关系。

三、CRAB框架

3.1 跨环境智能体交互

CRAB首次引入了跨环境任务的概念，将多个环境（如智能手机和桌面电脑）组合成一个环境集合，使智能体能够在多个设备之间协调操作完成复杂任务。

在CRAB框架中使用基于环境分工的多智能体系统的运行流程如上图所示。工作流程通过一个循环进行，首先通过主智能体观察环境，并对子智能体指定计划，然后所有的子智能体在各自的环境中执行操作。随后由一个图评估器（Graph Evaluator）来监视环境中各个子任务的状态，并在整个工作流程中不断更新任务的完成情况。这种评估方式可以贴近真实场景，以考验智能体的推理能力，这要求智能体能够处理复杂的消息传递，并且需要深入理解现实世界的情况。

3.2 图评估器（Graph Evaluator）

CRAB内置的图评估器同时兼顾了目标导向和轨迹导向评估的优点，其首先将复杂任务分解为多个子任务，形成一个有向无环图结构。随后定义了一种节点激活机制，即图中的节点（子任务）需要根据前置任务的完成情况逐步激活，确保任务的顺序执行。其中每个节点都关联了一个验证函数，用来检查环境中的关键中间状态。相比之前的评估基准，CRAB图评估器创新性地引入了一系列新的评价指标：

1. 完成率（Completion Ratio, CR）：完成的子任务节点数量与总节点数量的比率，。

2. 执行效率（Execution Efficiency, EE）：完成率与执行的动作数量的比值，，为指定的动作数。

3. 成本效率（Cost Efficiency, CE）：完成率与使用的模型token数量的比值，，为使用的模型token数量。

这些指标为智能体基准提供了更细粒度和更多维度的评估侧重点。

四、CRAB Benchmark-v0

4.1 基准构建细节

基于提出的CRAB框架，本文构建了一个具体的基准测试集CRAB Benchmark-v0用于社区进一步开展研究。CRAB Benchmark-v0同时支持Android手机和Ubuntu Linux桌面电脑两个环境。并且为Ubuntu和Android定义了不同的动作集，用来模拟真实生活中的常见交互。其观察空间由两种环境的系统界面构成，并且使用屏幕截图形式获取环境状态。为了方便智能体在GUI中操作，作者使用GroundingDINO[5]来定位可交互图标，使用 EasyOCR 检测和标注可交互文本，为每个检测项分配一个ID，方便后续在操作空间内引用。

我们以一个具体任务举例，例如在Ubuntu系统上完成如下任务：创建一个新目录“/home/crab/assets_copy”，并将所有具有指定“txt”扩展名的文件从“/home/crab/assets”复制到目录“/home/crab/assets_copy”。

该任务需要执行多步操作才能完成，下图展示了当使用GPT-4 Turbo作为推理模型并采用单智能体结构时的实验细节。智能体首先使用search_application命令查找终端并打开。

然后使用Linux命令“mkdir -p /home/crab/assets_copy”创建新的目标目录。

在创建好目标目录后，智能体直接在终端中执行了拷贝命令“cp /home/crab/assets/*.txt /home/crab/assets_copy”来完成任务，整个流程行云流水，没有任何失误。

4.2 实验效果

作者随后在CRAB Benchmark-v0进行了baseline实验，智能体的核心是后端的多模态语言模型，其用来提供自然语言和图像理解、基本设备知识、任务规划和逻辑推理能力，需要支持多模态混合输入，可以同时处理多轮对话，因而作者选取了GPT-4o (gpt-4o-2024-05-13)、GPT-4 Turbo (gpt-4-turbo-2024-04-09)、Gemini 1.5 Pro (2024年5月版本)和Claude 3 Opus (claude-3-opus-20240229)作为baseline模型。

实验结果如上表所示，其中GPT-4o 和 GPT-4 Turbo 模型在测试模型中实现了最高的平均测试点完成率（CR）。在执行效率（EE）和成本效率（CE）方面， GPT-4系列也相比Gemini和Claude系列模型更加优秀。

五、总结

本文介绍了一种全新的跨环境多智能体评估基准CRAB，CRAB框架通过引入跨环境任务、图评估器和基于子任务组合的任务构建方法，为自主智能体的评估提供了一个更加全面、灵活和贴近实际的基准测试平台。相比先前的智能体基准，CRAB减少了任务步骤中的手动工作量，大大提高了基准构建效率。基于CRAB，本文提出了 Crab Benchmark-v0，同时支持智能体在Ubuntu和Android系统上执行多种复杂的跨环境任务，这一基准的提出，不仅可以推动自主智能体评价体系的发展，也为未来设计更加高效的智能体系统提供全新灵感。

参考资料

[1] Tianlin Shi et al. “World of Bits: An Open-Domain Platform for Web-Based Agents”. In: Proceedings of the 34th International Conference on Machine Learning. Ed. by Doina Precup and Yee Whye Teh. Vol. 70. Proceedings of Machine Learning Research. PMLR, June 2017, pp. 3135–3144. URL: https://proceedings.mlr.press/v70/shi17a.html.

[2] Mingzhe Xing et al. Understanding the Weakness of Large Language Model Agents within a Complex Android Environment. Feb. 9, 2024. URL: http://arxiv.org/abs/2402.06596. preprint.

[3] Tianbao Xie et al. OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments. Apr. 11, 2024. URL: http://arxiv.org/abs/2404.07972. preprint.

[4] Tushar Khot et al. “Decomposed Prompting: A Modular Approach for Solving Complex Tasks”. In: The Eleventh International Conference on Learning Representations. 2023. URL: https://openreview.net/forum?id=_nGgzQjzaRy.

[5] Shilong Liu et al. Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection. arXiv.org. Mar. 9, 2023.

llustration From IconScout By IconScout Store

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信（yellowsubbj）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

▼

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

将门成立于2015年底，创始团队由微软创投在中国的创始团队原班人马构建而成，曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业，不仅想获得投资，还希望获得一系列持续性、有价值的投后服务，欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

点击右上角，把文章分享到朋友圈

点击“阅读原文”按钮，查看社区原文

http://mp.weixin.qq.com/s?__biz=MzAxMzc2NDAxOQ==&mid=2650513270&idx=2&sn=686f370706164deb8a4fb6e8af221a5d

将门创投

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器，由前微软创投在中国的创始团队于2015年底创立。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。

ECAI 2024 | 可适应点云模型：通过适应二维视觉模型进行三维点云分析

一文看懂Mamba，Transformer最强竞争者

ACL 2024 Oral | 大模型也会被忽悠？揭秘AI的信念之旅

Talk预告｜中国人民大学徐晨：推荐系统中供应商公平性的算法与理论研究

ECCV 2024 | GKGNet：多标签分类遇上图卷积网络ViG

ECCV 2024 | UCF联合亚马逊提出X-Former框架，显著提升MLLM细粒度理解能力

8卡3090可训练，Mini-Monkey解决切分策略增大分辨率导致的语义丢失

将门投资企业 | 阿里云「开学季 Ai 第一课」采用「MyTwins.ai」数字分身，为直播行业带来新场景

Talk预告｜香港大学杨丽鹤：Depth Anything V2 - 更精细更鲁棒的单目深度估计基础模型

如何分解视觉信号？一文浅谈视觉生成领域存在的若干问题

可远程！将门创投招聘实习生！

Talk预告｜清华大学诸子钰：面向具身智能的通用3D视觉语言理解

21.5万张X光、78万个问题，德州大学NIH等联合发布医学视觉问答数据集Medical-CXR-VQA

斯坦福最新理论研究：RLHF中奖励过度优化现象也存在Scaling Laws

将门月报 | 智谱发布新一代基座模型、文远知行无人驾驶扫路机S1驶入广东汕头、杉数科技携手南京鼓楼管养集团打造智能化环卫系统

IROS 2024 | 借助地形抓取“不可抓取”的物体，清华AIR和北大出品

ECCV 2024 Oral | SPLAM：基于子路径线性近似的扩散模型加速方法

Talk预告｜香港大学戚张扬：物体级别3D点云多模态大模型

ECCV 2024 | PosFormer：识别复杂手写数学表达式的位置森林变换器

Talk预告｜浙江大学&西湖大学曹淼：视频单曝光压缩成像重建算法探索

ACM MM 2024 Oral | 突破传统方法局限！用语义正确性评估视觉问答生成结果

8.27 直播预告 | 科研的使命：学术界 vs 工业界

ECCV 2024 | 南洋理工三维数字人生成新范式：结构扩散模型

Talk预告｜香港大学李卓凌：统一多场景的单目3D目标检测

同时操控手机和电脑完成任务，CAMEL联合多家机构发布首个跨系统智能体评测基准CRAB

Talk预告｜波形智能CTO周王春澍：可自主进化的AI智能体系统

ECCV 2024 | 一个Query解决所有感知任务! 单阶段多任务感知模型HQNet

近100页的LLaMA 3技术报告：模型结构及影响解析

ICML 2024 | 维度坍塌视角下的大规模推荐系统

Talk预告｜香港大学陈汐：零样本图像编辑中ID一致性与生成多样性的平衡

TKDE 2024 | 彻底摒弃人工标注，AutoAlign方法基于大模型让知识图谱对齐全自动化

Talk预告｜伊利诺伊大学香槟分校张凯风：AdaptiGraph - 材料自适应的图神经动力学模型

ACM MM 2024 | 基于掩码的注意力调整约束引导在复杂场景中的图像局部编辑

调研近400篇文献，鹏城实验室、中山大学深度解析具身智能

ACM MM 2024 | 多模态不可学习样本：保护数据免受多模态对比学习的威胁

FBI-LLM低比特基础大模型，首个完全从头训练的二值化语言模型

ACL 2024 | 基于自我规划的自动化问答智能体学习

IEEE RAL 2024 | CDM-MPC：解决人形机器人的连续跳跃难题

ECCV 2024 | 视觉优先&文本偏好？BPO缓解MLLMs幻觉，提升视觉理解力

将门创新伙伴 | 城越UrbanLab科技出海创新行启动会暨香港1.5℃峰会说明会

Talk预告｜普林斯顿大学魏博逸：通过剪枝&低秩改造揭示LLMs安全对齐的脆弱性

ICML 2024 Oral | CompeteAI：从理解竞争机制出发、探索大模型智能体如何助力社会科学研究

ECCV 2024 | 哈佛团队开发FairDomain，实现跨域医学图像分割和分类中的公平性

8.6 直播预告 | 论文背后的故事：梦“想”何时成“真” - 图形渲染 vs 图像生成

ECCV 2024 | 让GPT-4图像理解更易出错，全新策略增强VLP模型对抗迁移性

TPAMI 2024 | ProCo：无限contrastive pairs的长尾对比学习

将门月报 | 文远知行开启东莞首个无人环卫商业项目、伟景智能推出全球首款智能人形采摘机器人、墨芯荣登Silicon 100榜单

Talk预告｜北京大学于博涵：EventPS - 基于事件相机的实时光度立体视觉

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉