标准化多模态操作环境
XML 模式。专为文本输入的 LLMs 设计,通过压缩 XML 信息传递界面状态,模型直接选择元素执行操作。这种方法优化了 XML 数据的压缩和解析流程,减少信息冗余,提高了交互效率。每个操作前后,他们通过解析 UI 树结构,确保操作的精确性和一致性。 SoM 模式。针对 LMMs 的设计,采用 Set-of-Mark 方法,将屏幕截图与标记信息结合,模型选择带有编号的标记元素进行操作。每个可点击元素都有一个独特的标记编号,确保模型在多模态输入下能够精确地选取目标。SoM 模式为多模态模型提供了完整的视觉和文本上下文,优化了模型的任务执行能力。
ReAct 框架。基于逐步推理和操作输出。模型不仅输出操作,还展示中间推理过程。这一框架在复杂任务中表现优越,因为它鼓励模型先思考,再执行操作,减少了无效或错误步骤。 SeeAct 框架。推理与操作分离,分两轮交互进行。第一轮模型生成详细的推理步骤,第二轮执行具体操作。这种框架在多模态环境中应用效果有限,但在特定任务中能够提升精度。
基准测试
操作任务:例如,打开设置并调整系统时间、在浏览器中打开特定网页、或在社交媒体应用中发布消息。这类任务包含多个操作步骤,要求 Agent 具备良好的任务规划与执行能力。 查询任务:例如,从日历中查找事件详情、在图库中获取特定照片的描述等。这类任务评估 Agent 探索环境并获取信息的能力。
任务完成率(SR):衡量 Agent 完成任务的成功次数,作为直接的任务完成指标。每个任务仅在所有子目标均成功完成时计为成功。 子目标成功率(Sub-SR):他们将任务拆分为多个子目标,逐步评估模型在每个步骤上的表现。此指标鼓励模型分阶段成功执行任务,特别适用于复杂操作任务的细粒度评估。 反向冗余率(RRR):比较模型的操作路径与人类最优路径的长度,计算冗余操作的程度。该指标的数值越高,代表模型路径越接近最优路径,操作更高效。 合理操作比率(ROR):评估每次操作是否合理,判断屏幕是否发生变化。无效操作(如点击无效区域)视为不合理,计算所有操作中合理操作的比例。
数据集
任务生成与扩展:初期使用学术数据集的任务指令进行生成,之后使用大语言模型自动扩展,确保指令多样性并覆盖常见应用场景。所有生成的任务均需人工审查,确保其可行性。 自动化探索:采用 LLMs 和 LMMs 自动探索任务场景,模型在操作完成后输出“finish”,记录其完成的操作路径。他们使用奖励模型对这些路径进行筛选,剔除低效或错误操作。 人工标注与校验:采用专门的标注工具进行详细标注,记录每个操作的前后页面状态。标注过程包括:任务可行性审查、界面探索与操作记录、操作轨迹记录及交叉验证,确保标注的准确性和一致性。
实验结果
在 XML 模式下,GPT-4-1106-Preview 表现最优,任务成功率高达 31.16%,而子目标成功率为 38.21%,显示出在处理文本输入任务时的出色表现。GPT-4o 在任务成功率上略低于 GPT-4-1106-Preview,但在操作路径的优化方面表现突出,其反向冗余率达 107.45,显著减少了不必要的操作步骤。开源模型方面,Llama-3.1-8B-Instruct、GLM-4-9B-Chat 和 Qwen2-7B-Instruct 在微调后实现了明显提升,任务成功率分别从 2.17%、4.59% 和 4.35% 提升至 23.91%、21.01% 和 19.57%。 在 SoM 模式下,GPT-4o 依然展现了最强的整体表现,任务成功率达到 31.16%,子目标成功率为 35.02%。Claude-3.5-Sonnet 在优化操作路径上超过了 GPT-4o,其反向冗余率达到 113.40,显示出更高的任务执行效率。多模态开源模型如 Llama-3.2-11B-Vision-Instruct 和 Qwen2-VL-7B-Instruct,通过微调后,合理操作比率分别提升至 92.57% 和 88.29%,操作更精准且冗余更少。
如需转载或投稿,请直接在公众号内留言