点击蓝字 关注我们
关注并星标
从此不迷路
公众号ID|计算机视觉研究院
学习群|扫码在主页获取加入方式
论文标题:GTA: A Benchmark for General Tool Agents
论文链接:https://arxiv.org/abs/2407.08713
代码和数据集链接: https://github.com/open-compass/GTA
项目主页: https://open-compass.github.io/GTA
Hugging Face:https://huggingface.co/datasets/Jize1/GTA
计算机视觉研究院专栏
Column of Computer Vision Institute
评估问题通常是 AI 生成的,形式固定;
逻辑链简单,不涉及复杂多步推理;
输入是纯文本形式,模态单一;
没有部署真实可执行的工具,无法端到端评测。
真实的用户问题
真实部署的工具
多模态输入输出
真实用户查询:包含 229 个人类撰写的问题,问题具有简单的真实世界目标,但解决步骤是隐含的,工具也是隐含的,要求模型通过推理来选择合适的工具并规划操作步骤。
真实部署的工具:GTA 提供了工具部署平台,涵盖感知、操作、逻辑和创作四大类共 14 种工具,能够真实反映智能体实际的任务执行性能。
多模态输入输出:除了文本,GTA 还引入了空间场景、网页截图、表格、代码片段、手写 / 打印材料等多模态输入,要求模型处理这些丰富的上下文信息,并给出文本或图像输出。这使得任务更加接近实际应用场景,进一步提升了评估的真实性和复杂性。
逐步模式 (step-by-step mode)。该模式旨在细粒度地评估模型的工具使用能力。在该模式下,ground truth 工具链的前 n 步作为 prompt,模型预测第 n + 1 步的操作。在逐步模式下,设计四个指标:InstAcc(指令遵循准确率)、ToolAcc(工具选择准确率)、ArgAcc(参数预测准确率)和 SummAcc(答案总结准确率)。
端到端模式 (end-to-end mode)。该模式旨在反映智能体实际执行任务时的表现。在这种模式下,模型会自主调用工具并解决问题,而无外部引导。使用 AnsAcc(最终答案准确率)来衡量执行结果的准确性。此外,还计算了工具选择方面的四个 F1 score:P、L、O、C,分别衡量感知 (Perception)、操作 (Operation)、逻辑 (Logic) 和创作 (Creativity) 类别的工具选择能力。
构建了通用工具智能体的评测数据集。问题由人类设计,是步骤隐含、工具隐含的,且立足于真实世界场景,并提供了多模态语境输入。每个问题都标注了可执行的工具链,以支持细粒度的工具使用能力评测。
提供了包含感知、操作、逻辑、创作类别工具的评测平台。针对工具调用设计了细粒度的评测指标,揭示工具增强的语言模型在真实世界场景中的推理和规划能力。
评测和分析了主流大语言模型。从多个维度评测了 16 个大语言模型,反映了目前的语言模型在真实世界场景下的工具调用能力瓶颈,为通用目标智能体的发展路径提供建议。
转载请联系本公众号获得授权
计算机视觉研究院学习群等你加入!
ABOUT
计算机视觉研究院
往期推荐
🔗
Drone-YOLO:一种有效的无人机图像目标检测 机场项目:解决飞行物空间大小/纵横比、速度、遮挡等问题引起的实时目标检测问题 2PCNet:昼夜无监督域自适应目标检测(附原代码) YOLO-S:小目标检测的轻量级、精确的类YOLO网络 大改Yolo框架 | 能源消耗极低的目标检测新框架(附论文下载) 改进的检测算法:用于高分辨率光学遥感图像目标检测 小米平板6 Max-Yolo:在便携终端上实时检测不再是难题 旋转角度目标检测的重要性!!!(附源论文下载) PE-YOLO:解决黑夜中的目标检测难点