AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
评估问题通常是 AI 生成的,形式固定;
逻辑链简单,不涉及复杂多步推理;
输入是纯文本形式,模态单一;
没有部署真实可执行的工具,无法端到端评测。
真实的用户问题
真实部署的工具
多模态输入输出
论文标题:GTA: A Benchmark for General Tool Agents
论文链接:https://arxiv.org/abs/2407.08713
代码和数据集链接: https://github.com/open-compass/GTA
项目主页: https://open-compass.github.io/GTA
Hugging Face:https://huggingface.co/datasets/Jize1/GTA
真实用户查询:包含 229 个人类撰写的问题,问题具有简单的真实世界目标,但解决步骤是隐含的,工具也是隐含的,要求模型通过推理来选择合适的工具并规划操作步骤。
真实部署的工具:GTA 提供了工具部署平台,涵盖感知、操作、逻辑和创作四大类共 14 种工具,能够真实反映智能体实际的任务执行性能。
多模态输入输出:除了文本,GTA 还引入了空间场景、网页截图、表格、代码片段、手写 / 打印材料等多模态输入,要求模型处理这些丰富的上下文信息,并给出文本或图像输出。这使得任务更加接近实际应用场景,进一步提升了评估的真实性和复杂性。
逐步模式 (step-by-step mode)。该模式旨在细粒度地评估模型的工具使用能力。在该模式下,ground truth 工具链的前 n 步作为 prompt,模型预测第 n + 1 步的操作。在逐步模式下,设计四个指标:InstAcc(指令遵循准确率)、ToolAcc(工具选择准确率)、ArgAcc(参数预测准确率)和 SummAcc(答案总结准确率)。
端到端模式 (end-to-end mode)。该模式旨在反映智能体实际执行任务时的表现。在这种模式下,模型会自主调用工具并解决问题,而无外部引导。使用 AnsAcc(最终答案准确率)来衡量执行结果的准确性。此外,还计算了工具选择方面的四个 F1 score:P、L、O、C,分别衡量感知 (Perception)、操作 (Operation)、逻辑 (Logic) 和创作 (Creativity) 类别的工具选择能力。
构建了通用工具智能体的评测数据集。问题由人类设计,是步骤隐含、工具隐含的,且立足于真实世界场景,并提供了多模态语境输入。每个问题都标注了可执行的工具链,以支持细粒度的工具使用能力评测。
提供了包含感知、操作、逻辑、创作类别工具的评测平台。针对工具调用设计了细粒度的评测指标,揭示工具增强的语言模型在真实世界场景中的推理和规划能力。
评测和分析了主流大语言模型。从多个维度评测了 16 个大语言模型,反映了目前的语言模型在真实世界场景下的工具调用能力瓶颈,为通用目标智能体的发展路径提供建议。