清华、北大团队推出「安卓智能体」训练评估新框架 AndroidLab

学术   2024-11-08 08:08   北京  

在手机、笔记本电脑等移动设备普及的背景下,开发能够自主完成复杂任务的 Agent 意义重大。

尤其是,安卓(Android)系统在全球移动操作系统中广泛应用,设计和训练 Android Agent 以完成复杂任务,已经成为人工智能(AI)领域的热门研究方向。

然而,现有的 Android Agent 多基于闭源语言模型,虽然具备不错的自然语言理解和推理能力,但在动态任务应对、环境交互和开源适配性等方面存在局限,且对 Android Agent 的训练与评估研究缺乏对开源和闭源模型的系统研究。

如今,来自清华大学与北京大学的研究团队推出了一个集成文本和图像模态操作环境、统一操作空间及可重现的基准测试的框架——AndroidLab,为 Android agent 的研究和开发提供了强有力的支持。AndroidLab 特别整合了 Android Instruct 数据集,显著提升了开源模型在任务执行中的表现

论文链接:
https://arxiv.org/abs/2410.24024
Github 地址:
https://github.com/THUDM/Android-Lab

结果显示,经过指令微调的开源模型在任务处理能力上明显缩小了与闭源模型的差距,将 LLM 的平均成功率从 4.59% 提高到 21.50%,LMM 的平均成功率从 1.93% 提高到 13.28%,为 Agent 的研究和应用开辟了新的路径。


标准化多模态操作环境


AndroidLab 定义了一个标准化的操作环境,能够支持 LLMs 和 LMMs 在相同的操作空间内进行交互从而支持不同模型间的公平比较。为了满足不同模型的需求,他们设计了以下两种操作模式:

  • XML 模式。专为文本输入的 LLMs 设计,通过压缩 XML 信息传递界面状态,模型直接选择元素执行操作。这种方法优化了 XML 数据的压缩和解析流程,减少信息冗余,提高了交互效率。每个操作前后,他们通过解析 UI 树结构,确保操作的精确性和一致性。
  • SoM 模式。针对 LMMs 的设计,采用 Set-of-Mark 方法,将屏幕截图与标记信息结合,模型选择带有编号的标记元素进行操作。每个可点击元素都有一个独特的标记编号,确保模型在多模态输入下能够精确地选取目标。SoM 模式为多模态模型提供了完整的视觉和文本上下文,优化了模型的任务执行能力。

为进一步提升模型在任务中的表现,他们实现了两种新颖的高级操作框架:

  • ReAct 框架。基于逐步推理和操作输出。模型不仅输出操作,还展示中间推理过程。这一框架在复杂任务中表现优越,因为它鼓励模型先思考,再执行操作,减少了无效或错误步骤。
  • SeeAct 框架。推理与操作分离,分两轮交互进行。第一轮模型生成详细的推理步骤,第二轮执行具体操作。这种框架在多模态环境中应用效果有限,但在特定任务中能够提升精度。

图|SoM 模式与 XML 模式以及两种模式下的 ReAct 和 SeeAct 框架(a)。闭源模型在 AndroidLab 评价基准的表现。在 XML 模式下,GPT-4-1106-Preview 的成功率最高,为 31.16%,与 SoM 模式下的 GPT-4o 相同(b)。

图|训练数据收集流程(a),经过训练后,开源模型能力接近闭源模型(b)



基准测试


研究团队设计了一个覆盖 9 个常见应用的 AndroidLab 基准测试,共包含 138 个任务,覆盖多样化的真实世界复杂交互场景。任务类型包括操作任务和查询任务两大类:

  • 操作任务:例如,打开设置并调整系统时间、在浏览器中打开特定网页、或在社交媒体应用中发布消息。这类任务包含多个操作步骤,要求 Agent 具备良好的任务规划与执行能力。
  • 查询任务:例如,从日历中查找事件详情、在图库中获取特定照片的描述等。这类任务评估 Agent 探索环境并获取信息的能力。

图|任务设计示例和任务类别分布图

每个任务都设计了多个子目标,以便细化任务评估。他们使用 XML 树结构匹配来验证每个子目标的完成情况,从而确保结果准确性和操作的高效性。为了保证结果的可重现性,他们在环境中使用固定的设备状态、离线测试和预定义答案验证。

图|一个 agent 完成整个任务的所有子目标的例子

为精准评估 Agent 的任务表现,AndroidLab 基准测试还引入以下评价指标:

  • 任务完成率(SR):衡量 Agent 完成任务的成功次数,作为直接的任务完成指标。每个任务仅在所有子目标均成功完成时计为成功。
  • 子目标成功率(Sub-SR):他们将任务拆分为多个子目标,逐步评估模型在每个步骤上的表现。此指标鼓励模型分阶段成功执行任务,特别适用于复杂操作任务的细粒度评估。
  • 反向冗余率(RRR):比较模型的操作路径与人类最优路径的长度,计算冗余操作的程度。该指标的数值越高,代表模型路径越接近最优路径,操作更高效。
  • 合理操作比率(ROR):评估每次操作是否合理,判断屏幕是否发生变化。无效操作(如点击无效区域)视为不合理,计算所有操作中合理操作的比例。



数据集


为进一步增强模型在多模态与文本输入任务中的表现,研究团队构建了一个包含 726 条操作轨迹和 6k 步骤的 Android Instruct 数据集作为高效的训练与优化工具。

该数据集结合自动化探索与人工标注,生成高质量的操作数据,极大提升了开源模型在任务完成率和操作效率,确保覆盖范围广且操作路径清晰准确。

具体而言,数据集的构建包括以下步骤:

  • 任务生成与扩展:初期使用学术数据集的任务指令进行生成,之后使用大语言模型自动扩展,确保指令多样性并覆盖常见应用场景。所有生成的任务均需人工审查,确保其可行性。
  • 自动化探索:采用 LLMs 和 LMMs 自动探索任务场景,模型在操作完成后输出“finish”,记录其完成的操作路径。他们使用奖励模型对这些路径进行筛选,剔除低效或错误操作。
  • 人工标注与校验:采用专门的标注工具进行详细标注,记录每个操作的前后页面状态。标注过程包括:任务可行性审查、界面探索与操作记录、操作轨迹记录及交叉验证,确保标注的准确性和一致性。

图|Android Instruct 数据集统计信息,如任务步数分布、指令长度和常用词汇分布



实验结果


研究团队在多种开源和闭源模型上测试了 AndroidLab 基准,得到以下主要结果:

  • 在 XML 模式下,GPT-4-1106-Preview 表现最优,任务成功率高达 31.16%,而子目标成功率为 38.21%,显示出在处理文本输入任务时的出色表现。GPT-4o 在任务成功率上略低于 GPT-4-1106-Preview,但在操作路径的优化方面表现突出,其反向冗余率达 107.45,显著减少了不必要的操作步骤。开源模型方面,Llama-3.1-8B-Instruct、GLM-4-9B-Chat 和 Qwen2-7B-Instruct 在微调后实现了明显提升,任务成功率分别从 2.17%、4.59% 和 4.35% 提升至 23.91%、21.01% 和 19.57%。
  • 在 SoM 模式下,GPT-4o 依然展现了最强的整体表现,任务成功率达到 31.16%,子目标成功率为 35.02%。Claude-3.5-Sonnet 在优化操作路径上超过了 GPT-4o,其反向冗余率达到 113.40,显示出更高的任务执行效率。多模态开源模型如 Llama-3.2-11B-Vision-Instruct 和 Qwen2-VL-7B-Instruct,通过微调后,合理操作比率分别提升至 92.57% 和 88.29%,操作更精准且冗余更少。

图|主实验结果表,展示不同模型在 XML 和 SoM 模式下的成功率及操作效率

此外,他们还在不同屏幕尺寸的设备上进行了性能测试,包括 Pixel 3a(小屏)、Pixel 7 Pro(标准屏)、Pixel 8 Pro(标准屏)和 Pixel Fold(大屏)。

图|四种模型在四种不同设备类型上的性能

实验结果显示,Agent 在 Pixel 7 Pro 和 Pixel 8 Pro 等常规尺寸设备上表现最佳,成功率和操作效率都高于其他设备。而在 Pixel 3a 和 Pixel Fold 上,成功率明显下降,主要原因在于小屏设备需要频繁滚动,而大屏设备在横屏模式下增加了操作复杂性。

除了探索不同屏幕尺寸的设备对性能的影响,他们还对 ReAct 和 SeeAct 框架的效果进行了详细分析。

结果显示,在 XML 模式下,ReAct 框架显著提高了任务完成率,帮助模型更好地分步推理和操作,特别是在复杂任务中表现优越。然而,在多模态的 SoM 模式下,SeeAct 框架的效果有限,主要因为多模态输入在推理与操作分离过程中增加了难度。

图|ReAct 和 SeeAct 框架对任务成功率结果的影响

实验还发现,使用 ReAct 框架的模型在细化任务理解方面表现更佳,但操作效率稍有降低。

图|不同模式的平均生成 token

总的来说,实验结果表明开源模型在经过指令微调后,可以显著缩小与闭源模型的性能差距,未来可进一步探索最小化冗余和提高任务效率,增强 Android Agent 的实际可部署性。

如需转载或投稿,请直接在公众号内留言


学术头条
致力于学术传播和科学普及,重点关注AI4Science/大模型等前沿科学进展。
 最新文章