NeurIPS 2024 | 真实世界复杂任务，全新基准GTA助力大模型工具调用能力评测

科技 2024-11-05 10:30 江苏

点击蓝字关注我们

关注并星标

从此不迷路

计算机视觉研究院

公众号ID｜计算机视觉研究院

学习群｜扫码在主页获取加入方式

论文标题：GTA: A Benchmark for General Tool Agents
论文链接：https://arxiv.org/abs/2407.08713
代码和数据集链接: https://github.com/open-compass/GTA
项目主页: https://open-compass.github.io/GTA
Hugging Face：https://huggingface.co/datasets/Jize1/GTA

计算机视觉研究院专栏

Column of Computer Vision Institute

本篇论文已被 NeurIPS 2024 Dataset & Benchmark Track 接收，作者来自上海交通大学 IWIN 计算智能团队和上海人工智能实验室。其中，第一作者王骥泽是上海交通大学自动化系一年级博士生，研究方向涉及大模型智能体、自然语言处理。

利用语言模型调用工具，是实现通用目标智能体（general-purpose agents）的重要途径，对语言模型的工具调用能力提出了挑战。然而，现有的工具评测和真实世界场景存在很大差距，局限性主要体现在以下几个方面：

评估问题通常是 AI 生成的，形式固定；
逻辑链简单，不涉及复杂多步推理；
输入是纯文本形式，模态单一；
没有部署真实可执行的工具，无法端到端评测。

为了突破这些局限，来自上海交通大学与上海人工智能实验室的研究团队提出了 GTA（a benchmark for General Tool Agents），一个用于评估通用工具智能体的全新基准，主要特性包括：

真实的用户问题
真实部署的工具
多模态输入输出

GTA 通过设计真实世界场景的用户问题、真实部署的工具和多模态输入，建立了一个全面、细粒度的评估框架，能够有效评估大语言模型在复杂真实场景下的工具使用能力。

GTA 中的用户问题与现有工具评测的用户问题对比如下表所示。ToolBench 和 m&m's 中的问题明显地包含了需要调用的工具（蓝色字）以及步骤（红色字）。APIBench 中的问题较为简单，仅包含单个步骤。相较而言，GTA 的问题既是步骤隐含的，也是工具隐含的，并且是基于现实世界场景的、对人类有帮助的任务。

GTA 的评估结果表明，GPT-4 在面对真实世界问题时仅完成不到 50% 的任务，而大多数模型完成率低于 25%。揭示了现有模型在处理真实世界问题时面临的工具使用瓶颈，为未来的通用工具智能体提供了改进方向。

设计准则

GTA 主要有三个核心特性，来评估大语言模型在真实世界场景下的工具使用能力：

真实用户查询：包含 229 个人类撰写的问题，问题具有简单的真实世界目标，但解决步骤是隐含的，工具也是隐含的，要求模型通过推理来选择合适的工具并规划操作步骤。
真实部署的工具：GTA 提供了工具部署平台，涵盖感知、操作、逻辑和创作四大类共 14 种工具，能够真实反映智能体实际的任务执行性能。
多模态输入输出：除了文本，GTA 还引入了空间场景、网页截图、表格、代码片段、手写 / 打印材料等多模态输入，要求模型处理这些丰富的上下文信息，并给出文本或图像输出。这使得任务更加接近实际应用场景，进一步提升了评估的真实性和复杂性。

数据集构建

数据集构建流程包含两个步骤：

1. 问题构建。专家设计问题样例和标注文档，标注人员按照标注文档中的指示，进行头脑风暴，基于问题样例设计更多的问题，最终得到问题集。

2. 答案构建。标注人员手动调用部署好的工具，确保每个问题都可以用提供的工具解决。然后，标注人员根据工具调用过程和工具返回结果，对每个问题的工具调用链进行标注。

为了让评测集更全面地覆盖真实场景，研究团队采用了多样化的扩展策略，包括场景多样化、工具组合多样化等。最终得到的评测集包含多图推理、图表分析、编程、视觉交互、网页浏览、数学、创意艺术等多种场景，确保了评估任务的全面性和多样性。

问题示例

最终共得到 229 个真实场景下的任务，所有问题都隐含工具和步骤，并且包含多模态上下文输入。这些任务基于现实世界场景，目标明确且易于理解，完成任务对人类有帮助，但对于 AI 助手来说较为复杂。JSON 格式的数据示例可以在 Hugging Face 上找到。

模型评测

GTA 在两种模式下评估语言模型：

逐步模式 (step-by-step mode)。该模式旨在细粒度地评估模型的工具使用能力。在该模式下，ground truth 工具链的前 n 步作为 prompt，模型预测第 n + 1 步的操作。在逐步模式下，设计四个指标：InstAcc（指令遵循准确率）、ToolAcc（工具选择准确率）、ArgAcc（参数预测准确率）和 SummAcc（答案总结准确率）。
端到端模式 (end-to-end mode)。该模式旨在反映智能体实际执行任务时的表现。在这种模式下，模型会自主调用工具并解决问题，而无外部引导。使用 AnsAcc（最终答案准确率）来衡量执行结果的准确性。此外，还计算了工具选择方面的四个 F1 score：P、L、O、C，分别衡量感知 (Perception)、操作 (Operation)、逻辑 (Logic) 和创作 (Creativity) 类别的工具选择能力。

评测结果表明，目前的大语言模型在复杂真实场景任务的工具调用上仍存在明显的局限性。GPT-4 在 GTA 上仅能完成 46.59% 的任务，而大多数模型仅能完成不到 25% 的任务。

研究团队发现，目前语言模型在完成 GTA 任务的关键瓶颈是参数传递准确率。研究人员计算了各指标与最终结果准确率 AnsAcc 之间的皮尔森相关系数，发现 ArgAcc 的相关系数最高，说明参数传递是目前大多数模型的瓶颈。例如，Llama-3-70B-Chat 的 InstAcc，ToolAcc，SummAcc 都比 Qwen1.5-14B-Chat 高，但 ArgAcc 比 Qwen1.5-14B-Chat 低，导致最终结果准确率更低。

错因分析

为了进一步理解模型在参数传递上的失误原因，研究团队选择两个典型模型 GPT-4-1106-Preview 和 Llama-3-8B-Instruct，对它们进行了深入的错误原因分析，如下表所示。

分析显示，GPT-4 与 Llama-3 的错误分布存在显著差异。GPT-4 模型倾向于生成 “无动作”（No Action）的响应，在 38.7% 的错误中，GPT-4 尝试与用户互动，错误地认为问题表述不够明确，要求提供额外信息。而在 50% 的错误中，模型仅生成内部思考过程，而未采取实际行动。

而 Llama-3 的大部分错误来自于格式错误，特别是调用工具或生成最终答案时。45.4% 的错误是由于参数未能遵循合法的 JSON 格式。此外，在 16.5% 的情况下，Llama-3 试图同时调用多个工具，这并不被智能体系统支持。19.6% 的错误则源于生成冗余信息，导致参数解析不正确。

总结

本文构建了面向复杂真实场景的通用工具智能体（General Tool Agents）评测基准：

构建了通用工具智能体的评测数据集。问题由人类设计，是步骤隐含、工具隐含的，且立足于真实世界场景，并提供了多模态语境输入。每个问题都标注了可执行的工具链，以支持细粒度的工具使用能力评测。
提供了包含感知、操作、逻辑、创作类别工具的评测平台。针对工具调用设计了细粒度的评测指标，揭示工具增强的语言模型在真实世界场景中的推理和规划能力。
评测和分析了主流大语言模型。从多个维度评测了 16 个大语言模型，反映了目前的语言模型在真实世界场景下的工具调用能力瓶颈，为通用目标智能体的发展路径提供建议。

© THE END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入！

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域，主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架，提供论文一键下载，并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！

往期推荐

🔗

http://mp.weixin.qq.com/s?__biz=MzU0NTAyNTQ1OQ==&mid=2247539362&idx=3&sn=92cc9a4ba09812b818bb5750f1860181

计算机视觉研究院

计算机视觉研究院主要涉及AI研究和落地实践，主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架，提供论文一键下载，并分享实战项目。研究院主要着重”技术研究“和“实践落地”！

最新文章

快速学会AI核心架构，Transformer！

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

免费分享顶会的idea方法！！！

无卷积骨干网络：金字塔Transformer，提升目标检测/分割等任务精度（附源代码）

我用捡来的idea发了顶会！！！

揭示Transformer重要缺陷！北大提出傅里叶分析神经网络FAN，填补周期性特征建模缺陷

YoloV：视频中目标实时检测依然很棒（附源代码下载）

ICLR'25审稿质量历史最低？这么多全负正常么

NeurIPS 2024 | 无需训练，一个框架搞定开放式目标检测、实例分割

“计算机视觉研究院”商务合作

Yolo-Z：改进的YOLOv5用于小目标检测（附原论文下载）

多尺度特征融合：为检测学习更好的语义信息（附论文下载）

轻量级模型，重量级性能，TinyLlama、LiteLlama小模型火起来了

“计算机视觉研究院”商务合作

喜提 TPAMI 顶刊！！！

Token化一切，甚至网络！北大&谷歌&马普所提出TokenFormer，Transformer从来没有这么灵活过！

“计算机视觉研究院”商务合作

面了一个字节50k大佬，见识到了基础天花板！

PE-YOLO：解决黑夜中的目标检测难点

“计算机视觉研究院”商务合作

快速学会登上nature的热门算法，LSTM！

YOLO-S：小目标检测的轻量级、精确的类YOLO网络

OVO：在线蒸馏一次视觉Transformer搜索

2024新技术：远距离的小目标也可以准确检测

Fast YOLO：用于实时嵌入式目标检测（附论文下载）

魔改LSTM！性能直逼Transformer和Mamba

揭示Transformer重要缺陷！北大提出傅里叶分析神经网络FAN，填补周期性特征建模缺陷

改进的检测算法：用于高分辨率光学遥感图像目标检测

GitHub超火开发者路线图库有AI学习路线了！star数近30万

NeurIPS 2024 | 真实世界复杂任务，全新基准GTA助力大模型工具调用能力评测

今年顶会这情况。。。大家提前做准备吧！

取代Mamba，超越Transformer！扩展LSTM到数十亿参数

Drone-YOLO：一种有效的无人机图像目标检测

“计算机视觉研究院”商务合作

再见阿里，你好字节！

纯干货：Box Size置信度偏差会损害目标检测器（附源代码）

PE-YOLO：解决黑夜中的目标检测难点

245个目标检测开源项目合集，建议收藏！

YoloV：视频中目标实时检测依然很棒（附源代码下载）

利用先进技术保家卫国：深度学习进行小目标检测（适合初学者入门）

大型视觉语言模型OMG-LLaVA：图像级、目标级和像素级的推理和理解任务统一

PE-YOLO：解决黑夜中的目标检测难点

NeurIPS 2024 | 真实世界复杂任务，全新基准GTA助力大模型工具调用能力评测

人脸识别精度提升 | 基于Transformer的人脸识别（附源码）

YOLO-S：小目标检测的轻量级、精确的类YOLO网络

FP-DETR：通过完全预训练提升transformer目标检测器

3D大模型助力，15分钟即可训练高质量、个性化的数字人模型，代码已开放

顶会新方向！全新多模态大模型统一分割框架

微软新出框架：Transformer扩展到10亿token（附代码下载）

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉