NeurIPS 2024 | 真实世界复杂任务，全新基准GTA助力大模型工具调用能力评测

科技 2024-11-04 12:32 北京

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本篇论文已被 NeurIPS 2024 Dataset & Benchmark Track 接收，作者来自上海交通大学 IWIN 计算智能团队和上海人工智能实验室。其中，第一作者王骥泽是上海交通大学自动化系一年级博士生，研究方向涉及大模型智能体、自然语言处理。

利用语言模型调用工具，是实现通用目标智能体（general-purpose agents）的重要途径，对语言模型的工具调用能力提出了挑战。然而，现有的工具评测和真实世界场景存在很大差距，局限性主要体现在以下几个方面：

评估问题通常是 AI 生成的，形式固定；
逻辑链简单，不涉及复杂多步推理；
输入是纯文本形式，模态单一；
没有部署真实可执行的工具，无法端到端评测。

为了突破这些局限，来自上海交通大学与上海人工智能实验室的研究团队提出了 GTA（a benchmark for General Tool Agents），一个用于评估通用工具智能体的全新基准，主要特性包括：

真实的用户问题
真实部署的工具
多模态输入输出

GTA 通过设计真实世界场景的用户问题、真实部署的工具和多模态输入，建立了一个全面、细粒度的评估框架，能够有效评估大语言模型在复杂真实场景下的工具使用能力。

论文标题：GTA: A Benchmark for General Tool Agents
论文链接：https://arxiv.org/abs/2407.08713
代码和数据集链接: https://github.com/open-compass/GTA
项目主页: https://open-compass.github.io/GTA
Hugging Face：https://huggingface.co/datasets/Jize1/GTA

GTA 中的用户问题与现有工具评测的用户问题对比如下表所示。ToolBench 和 m&m's 中的问题明显地包含了需要调用的工具（蓝色字）以及步骤（红色字）。APIBench 中的问题较为简单，仅包含单个步骤。相较而言，GTA 的问题既是步骤隐含的，也是工具隐含的，并且是基于现实世界场景的、对人类有帮助的任务。

GTA 的评估结果表明，GPT-4 在面对真实世界问题时仅完成不到 50% 的任务，而大多数模型完成率低于 25%。揭示了现有模型在处理真实世界问题时面临的工具使用瓶颈，为未来的通用工具智能体提供了改进方向。

设计准则

GTA 主要有三个核心特性，来评估大语言模型在真实世界场景下的工具使用能力：

真实用户查询：包含 229 个人类撰写的问题，问题具有简单的真实世界目标，但解决步骤是隐含的，工具也是隐含的，要求模型通过推理来选择合适的工具并规划操作步骤。
真实部署的工具：GTA 提供了工具部署平台，涵盖感知、操作、逻辑和创作四大类共 14 种工具，能够真实反映智能体实际的任务执行性能。
多模态输入输出：除了文本，GTA 还引入了空间场景、网页截图、表格、代码片段、手写 / 打印材料等多模态输入，要求模型处理这些丰富的上下文信息，并给出文本或图像输出。这使得任务更加接近实际应用场景，进一步提升了评估的真实性和复杂性。

数据集构建

数据集构建流程包含两个步骤：

1. 问题构建。专家设计问题样例和标注文档，标注人员按照标注文档中的指示，进行头脑风暴，基于问题样例设计更多的问题，最终得到问题集。

2. 答案构建。标注人员手动调用部署好的工具，确保每个问题都可以用提供的工具解决。然后，标注人员根据工具调用过程和工具返回结果，对每个问题的工具调用链进行标注。

为了让评测集更全面地覆盖真实场景，研究团队采用了多样化的扩展策略，包括场景多样化、工具组合多样化等。最终得到的评测集包含多图推理、图表分析、编程、视觉交互、网页浏览、数学、创意艺术等多种场景，确保了评估任务的全面性和多样性。

问题示例

最终共得到 229 个真实场景下的任务，所有问题都隐含工具和步骤，并且包含多模态上下文输入。这些任务基于现实世界场景，目标明确且易于理解，完成任务对人类有帮助，但对于 AI 助手来说较为复杂。JSON 格式的数据示例可以在 Hugging Face 上找到。

模型评测

GTA 在两种模式下评估语言模型：

逐步模式 (step-by-step mode)。该模式旨在细粒度地评估模型的工具使用能力。在该模式下，ground truth 工具链的前 n 步作为 prompt，模型预测第 n + 1 步的操作。在逐步模式下，设计四个指标：InstAcc（指令遵循准确率）、ToolAcc（工具选择准确率）、ArgAcc（参数预测准确率）和 SummAcc（答案总结准确率）。
端到端模式 (end-to-end mode)。该模式旨在反映智能体实际执行任务时的表现。在这种模式下，模型会自主调用工具并解决问题，而无外部引导。使用 AnsAcc（最终答案准确率）来衡量执行结果的准确性。此外，还计算了工具选择方面的四个 F1 score：P、L、O、C，分别衡量感知 (Perception)、操作 (Operation)、逻辑 (Logic) 和创作 (Creativity) 类别的工具选择能力。

评测结果表明，目前的大语言模型在复杂真实场景任务的工具调用上仍存在明显的局限性。GPT-4 在 GTA 上仅能完成 46.59% 的任务，而大多数模型仅能完成不到 25% 的任务。

研究团队发现，目前语言模型在完成 GTA 任务的关键瓶颈是参数传递准确率。研究人员计算了各指标与最终结果准确率 AnsAcc 之间的皮尔森相关系数，发现 ArgAcc 的相关系数最高，说明参数传递是目前大多数模型的瓶颈。例如，Llama-3-70B-Chat 的 InstAcc，ToolAcc，SummAcc 都比 Qwen1.5-14B-Chat 高，但 ArgAcc 比 Qwen1.5-14B-Chat 低，导致最终结果准确率更低。

错因分析

为了进一步理解模型在参数传递上的失误原因，研究团队选择两个典型模型 GPT-4-1106-Preview 和 Llama-3-8B-Instruct，对它们进行了深入的错误原因分析，如下表所示。

分析显示，GPT-4 与 Llama-3 的错误分布存在显著差异。GPT-4 模型倾向于生成 “无动作”（No Action）的响应，在 38.7% 的错误中，GPT-4 尝试与用户互动，错误地认为问题表述不够明确，要求提供额外信息。而在 50% 的错误中，模型仅生成内部思考过程，而未采取实际行动。

而 Llama-3 的大部分错误来自于格式错误，特别是调用工具或生成最终答案时。45.4% 的错误是由于参数未能遵循合法的 JSON 格式。此外，在 16.5% 的情况下，Llama-3 试图同时调用多个工具，这并不被智能体系统支持。19.6% 的错误则源于生成冗余信息，导致参数解析不正确。

总结

本文构建了面向复杂真实场景的通用工具智能体（General Tool Agents）评测基准：

构建了通用工具智能体的评测数据集。问题由人类设计，是步骤隐含、工具隐含的，且立足于真实世界场景，并提供了多模态语境输入。每个问题都标注了可执行的工具链，以支持细粒度的工具使用能力评测。
提供了包含感知、操作、逻辑、创作类别工具的评测平台。针对工具调用设计了细粒度的评测指标，揭示工具增强的语言模型在真实世界场景中的推理和规划能力。
评测和分析了主流大语言模型。从多个维度评测了 16 个大语言模型，反映了目前的语言模型在真实世界场景下的工具调用能力瓶颈，为通用目标智能体的发展路径提供建议。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com

http://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650941398&idx=3&sn=fb287933d83bf4cca64a71825999717f

机器之心

专业的人工智能媒体和产业服务平台

RTX 4090可跑、完全开源，最快视频生成模型问世，实测一言难尽

RL「误人」？LeCun 在技术路线上又有何战略摇摆？

智能体零样本解决未见过人类设计环境！全靠这个开放式物理RL环境空间

研究大模型门槛太高？不妨看看小模型SLM，知识点都在这

大半年过去，主流视频生成模型们超越Sora了吗？

这才是真・开源模型！公开「后训练」一切，性能超越Llama 3.1 Instruct

阿里国际版o1来了，Marco-o1：聚焦开放式问题推理

英伟达开源福利：视频生成、机器人都能用的SOTA tokenizer

NeurIPS 2024 Oral | 还原所见！揭秘从脑信号重建高保真流畅视频

如今的智能体，已经像人一样「浏览」视频了，国内就有

仅仅一天，Gemini就夺回了GPT-4o拿走的头名

上交大o1复现新突破：蒸馏超越原版，警示AI研发"捷径陷阱"

大模型不会推理，为什么也能有思路？有人把原理搞明白了

全球十亿级轨迹点驱动，首个轨迹基础大模型来了

扣子OpenAPI突进智能语音战场！点满低延时、定制化、随时打断和音色克隆技能（内测开启！）

推理性能直逼o1，DeepSeek再次出手，重点：即将开源

诺奖得主哈萨比斯新作登Nature，AlphaQubit解码出更可靠量子计算机

神级项目训练GPT-2仅需5分钟，Andrej Karpathy都点赞

NeurIPS 2024 | 水印与高效推理如何两全其美？最新理论：这做不到

大模型代肝，自动刷《崩铁》升级材料，Claude操纵计算机还能这么用！

实测昆仑万维对话AI「Skyo」，会读诗、知晓雷军摆拍

室温超导学术不端、多次Nature撤稿，这位印度裔学者被大学解雇

德国科学家激进观点：意识是虚拟的，存在于大脑构建的梦中

媲美OpenAI事实性基准，这个中文评测集让o1-preview刚刚及格

在「最难LLM评测榜单」上，阶跃万亿参数模型拿下中国第一

登上Nature的AI芯片设计屡遭质疑，谷歌发文反击，Jeff Dean：质疑者连预训练都没做

高通的自研架构芯片，正在整合生成式AI世界

发力了，Mistral对标ChatGPT全面升级le Chat，还祭出超大杯多模态模型

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

取人类与大模型之长，人机协作式智能软件开发框架AgileGen来了

面向代码语言模型的安全性研究全新进展，南大&NTU联合发布全面综述

精度与通用性不可兼得，北大华为理论证明低精度下scaling law难以实现

Karpathy后悔了：2015年就看到了语言模型的潜力，却搞了多年强化学习

钻石冷却的GPU即将问世：温度能降20度，超频空间增加25%

可以实现零代码开发的OPPO智能体平台，到底强在哪？

继良品率低后，英伟达Blackwell又出过热问题，说好的明年初发货呢？

NeurIPS 2024 | 自我纠错如何使OpenAI o1推理能力大大加强？北大、MIT团队给出理论解释

对标o1，Kimi放出了最能打的国产模型

怎样保证你不是AGI独裁者？马斯克为何退出OpenAI？早期邮件公开了

从未见过现实世界数据，MIT在虚拟环境中训练出机器狗，照样能跑酷

扩展测试时计算是万能的吗？Scaling What成为关键

突破无规则稀疏计算边界，编译框架CROSS数倍提升模型性能

谁能进入下一轮？具身智能「练习生」的技术储备和商业路径有何异同？

传说中Ilya Sutskever精选论文清单：AI领域40大论文完整版「破解」完成

首个自主机器学习AI工程师，刚问世就秒了OpenAI o1，Kaggle大师拿到饱

LeCun 的世界模型初步实现！基于预训练视觉特征，看一眼任务就能零样本规划

NeurIPS 2024 | 无需训练，一个框架搞定开放式目标检测、实例分割

率先解决多类数据同时受损，中科大MIRA团队TRACER入选NeurIPS 2024：强鲁棒性的离线变分贝叶斯强化学习

这三家国内机构合作成果，斩获EMNLP 2024最佳论文奖，主办方：明年苏州见！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉