多模态移动智能体基础与最新趋势调研：评估基准、核心组件、技术路线、发展趋势

文摘 2024-11-14 07:04 美国

在智能手机和平板电脑等移动设备上，能够理解和执行复杂任务的智能体变得越来越重要。这些智能体需要能够实时适应不断变化的环境，并处理来自摄像头、麦克风和触摸屏等多种传感器的数据。本文的研究有助于推动智能体技术的发展，使它们更加智能和自适应，从而在日常生活中提供更多帮助。

移动智能体对于自动化复杂和动态的移动环境中的任务至关重要。随着基础模型的发展，对于能够实时适应并处理多模态数据的智能体的需求不断增长。本调查提供了移动智能体技术的全面回顾，重点关注最近的进步，这些进步增强了实时适应性和多模态交互。最近开发的评估基准测试更好地捕捉了移动任务的静态和交互环境，提供了对智能体性能更准确的评估。然后我们将这些进步归类为两种主要方法：基于提示的方法，利用大型语言模型（LLMs）执行基于指令的任务；以及基于训练的方法，为移动特定应用微调多模态模型。此外，我们探索了增强智能体性能的补充技术。通过讨论关键挑战和概述未来研究方向，本调查为推进移动智能体技术提供了宝贵的见解。

欢迎加入自动驾驶实战群

1 引言

移动智能体在处理复杂移动环境中取得了显著的成功，实现了各种应用中任务执行的自动化，最小化了人为干预（Zhang et al., 2023a; Li et al., 2024; Bai et al., 2024）。这些智能体旨在动态环境中感知、规划和执行，使它们非常适合要求实时适应性的移动平台。多年来，移动智能体的研究有了显著的发展，从简单的基于规则的系统发展到能够处理多模态和动态设置中的复杂任务的更复杂模型（Shi et al., 2017; Rawles et al., 2023）。在最初的阶段，移动智能体主要侧重于通过为移动设备上特定任务量身定制的轻量级、基于规则的系统执行预定义的工作流程。这些早期的智能体通常受到硬件的计算和内存限制，严重依赖基本的交互模式和静态过程。然而，移动技术的快速发展为更先进的智能体架构铺平了道路，使其能够执行更丰富的任务。评估移动智能体提出了独特的挑战，因为传统的静态评估方法往往无法捕捉现实世界移动任务的动态和交互性质。为了解决这个问题，最近的基准测试，如AndroidEnv（Toyama et al., 2021）和Mobile-Env（Zhang et al., 2023a），提供了交互式环境，以评估智能体在现实条件下的适应性和性能。这些基准测试不仅衡量任务完成情况，还评估智能体对变化的移动环境的反应，从而提供了对它们能力的更全面评估。最近在移动智能体研究中的进步可以分为两种方法：基于提示的方法和基于训练的方法。基于提示的方法利用大型语言模型（LLMs），如ChatGPT（OpenAI, 2023）和GPT-4（OpenAI, 2023），通过使用指令提示和思维链（CoT）推理来处理复杂任务。值得注意的工作，如OmniAct（Kapoor et al., 2024）和AppAgent（Yang et al., 2023）已经在交互式移动环境中展示了基于提示系统的潜力，尽管可扩展性和鲁棒性仍然是持续的挑战。另一方面，基于训练的方法专注于微调多模态模型，如LLaVA（Liu et al., 2023a）和Llama（Touvron et al., 2023），特别是针对移动应用。这些模型可以通过整合视觉和文本输入来处理丰富的多模态数据，提高了它们执行界面导航和任务执行等任务的能力（Ma et al., 2024; Dorka et al., 2024）。本调查深入分析了移动智能体技术，重点关注感知、规划、行动和记忆这些基本组成部分。我们将现有研究归类为基于提示和基于训练的方法。此外，我们探讨了用于评估移动智能体性能的评估基准和指标，并讨论了补充技术在增强智能体与移动环境交互中日益增长的作用。通过这次回顾，我们旨在识别当前的挑战和未来的机会，以推进移动智能体研究。

2 移动智能体的基准测试

基准测试为评估和比较多个移动智能体的性能建立了标准化的测试环境，涵盖了用户界面自动化、任务完成和现实世界应用场景等领域。目前，许多GUI交互的基准测试依赖于静态数据集（Sun et al., 2022; Deng et al., 2024; Niu et al., 2024; Roßner et al., 2020），这些数据集提供了固定的真值注释，并通过比较它们的行动序列与预定义的解决方案来评估模型。这种方法有问题，因为它惩罚了替代的有效方法，即使任务成功完成，也将它们标记为失败。交互式基准测试，如AndroidArena（Xing et al., 2024），也使用行动序列相似性作为主要评估指标，导致对智能体性能的评估不充分。虽然最近关于基于LLM的GUI智能体的研究（Yang et al., 2023; Wang et al., 2024a; Zhang et al., 2024a）结合了LLM或人类评估，但这些实验通常在不受控制的开放环境中进行，导致结果的可复制性和可比性问题。

2.1 静态数据集

静态数据集提供了一个受控和预定义的任务集，带有注释的真值解决方案，使它们成为评估移动智能体在固定环境中性能的关键。这些数据集主要用于评估任务自动化，其中智能体需要遵循预定的行动或命令来完成特定任务。早期的研究将引用表达式与屏幕上的UI元素联系起来，每个实例包含一个屏幕、一个低级命令和相应的UI元素。例如，RicoSCA数据集（Deka et al., 2017）使用合成命令，而MiniWoB++（Liu et al., 2018）包括多步骤任务的低级命令序列。最近的研究转向了面向任务的指令，其中每个情节包含行动-观察对，包括屏幕截图和树状结构表示，如Android的视图层次结构或Web环境中的文档对象模型。例如，PixelHelp（Li et al., 2020a）数据集包含来自Pixel Phone帮助页面的187个高级任务目标和逐步指令，而UGIF（Venkatesh et al., 2022）数据集将类似的查询扩展到多种语言。与此同时，MoTIF（Burns et al., 2021）包括4.7k任务演示，平均每个任务有6.5个步骤和276个独特的任务指令。AITW（Rawles et al., 2024b）要大得多，包含715,142个情节和30,378个独特的提示，其中一些受到其他数据集的启发。

2.2 交互式环境

交互式环境提供了动态平台，智能体与环境实时互动，接收反馈并相应调整其行动。与静态数据集不同，这些环境允许连续的、适应性的互动，这对于评估智能体在更复杂、不断演变的场景中至关重要。在基于LLM的智能体出现之前，研究主要集中在基于强化学习（RL）的智能体上。一个突出的例子是AndroidEnv（Toyama et al., 2021），它为RL智能体提供了一个环境，通过预定义的行动和奖励与移动应用互动。然而，随着LLMs的进步，焦点转向了能够使用自然语言理解和生成来执行更灵活、适应性任务的智能体（Liu et al., 2024; Sun et al., 2024b,a）。

封闭环境是当前基于LLM的智能体研究的一个关键焦点，特别是在它们通过与环境的互动自主探索决策路径的能力（Liu et al., 2024; Sun et al., 2024b,a）。在移动设置中，这些智能体旨在处理复杂的多步骤任务并模拟人类行为以实现应用自动化（Wen et al., 2023a,b; Liu et al., 2023c; Yao et al., 2022a; Shvo et al., 2021）。一个值得注意的例子是Mobile-Env（Zhang et al., 2023a），它被创建来评估智能体在移动环境中管理多步骤互动的能力。最终，这项研究旨在提高基于LLM的智能体的适应性和灵活性，使它们能够在动态的现实世界环境中运行，最小化对预定义脚本或手动输入的依赖。

开放世界环境为解决封闭强化学习环境的主要限制之一提供了重要机会：它们无法完全捕捉现实世界互动的复杂性和可变性。虽然受控环境对于训练和测试智能体很有用，但它们经常错过现实世界场景中的动态元素，如变化的内容、不可预测的用户行为和多样化的设备配置至关重要。为了克服这些挑战，研究人员越来越多地探索开放的现实世界环境，用于基于LLM的GUI智能体，使它们能够学习和适应实时系统和不断演变的情况的复杂性（Gao et al., 2023a; Wang et al., 2024b; Zhang et al., 2024a; Yang et al., 2023）。然而，在开放世界设置中部署智能体引入了几个风险。这些包括安全问题、不可复制的结果和潜在的不公平比较。为了减轻这些问题并确保公平、可复制的评估，研究人员提倡采用策略，如固定动态在线内容和在评估期间使用重放机制（Liu et al., 2018; Shi et al., 2017; Zhou et al., 2023）。这些方法有助于在更广泛的开放世界部署范围内创建更受控的测试环境。

2.3 评估方法

在评估智能体性能时，轨迹评估和结果评估是两种主要方法。轨迹评估侧重于智能体行动与预定义路径的对齐程度。相比之下，结果评估强调智能体是否实现了其最终目标，关注结果而不是具体过程。以下部分将探讨这两个领域的最新研究进展，突出更全面的评估策略如何增强我们对智能体在复杂环境中性能的理解。

过程评估在最近的GUI交互基准测试中有了显著改进，重点是逐步评估，将预测行动与参考行动轨迹进行比较，以评估智能体性能的有效性（Rawles et al., 2024b; Zhang et al., 2021）。虽然这种方法在许多情况下都是有效的，但任务完成通常有多个有效的解决方案，智能体可能会探索不同的路径，这些路径不一定遵循预定义的轨迹。为了增强这些评估的灵活性和鲁棒性，可以更多地强调最终结果而不是过程本身（Zhang et al., 2023a）。

结果评估通过评估智能体是否达到期望的最终状态来确定智能体的成功，将任务目标视为隐藏状态的子集，而不考虑实现它们的路径。这些最终状态可以通过各种系统信号来识别。依赖单一信号类型可能无法捕捉所有相关的状态转换，因为某些行动，如表单提交，可能只在GUI中可见，而不是在系统日志（Toyama et al., 2021）或数据库（Rawles et al., 2024a）中。转向基于结果的评估并使用多个信号可以使GUI交互基准测试更可靠、适应性更强，允许智能体在各种场景中展示其全部能力（Wang et al., 2024c; Rawles et al., 2024a）。

3 移动智能体的组成部分

如图1所示，本节概述了移动智能体的四个基本组成部分：感知、规划、行动和记忆。这些组成部分共同使智能体能够在动态移动环境中感知、推理和执行，动态适应其行为以提高任务效率和鲁棒性。

3.1 感知

感知是移动智能体从周围环境中收集和解释多模态信息的过程。在移动智能体中，感知组件专注于处理来自不同环境的多模态信息，提取相关信息以帮助规划和任务执行。早期关于移动智能体的研究（Zhang et al., 2021; Sunkara et al., 2022; Song et al., 2023）主要依赖于简单的模型或工具将图像或音频转换为文本描述。然而，这些方法经常产生不相关和冗余的信息，阻碍了有效的任务规划和执行，特别是在内容繁重的界面中。此外，LLMs的输入长度限制进一步放大了这些挑战，使得智能体在任务处理期间难以过滤和优先考虑信息。现有的视觉编码器大多在一般数据上预训练，对移动数据中的交互元素不敏感。为了解决这个问题，Seeclick（Cheng et al., 2024）和CogAgent（Hong et al., 2024）最近的研究引入了移动特定数据集，增强了视觉编码器检测和处理移动环境中关键交互元素（如图标）的能力。在API调用可访问的上下文中，Mind2Web（Deng et al., 2024）引入了一种处理基于HTML的信息的方法。这种方法对HTML数据的关键元素进行排名并过滤关键细节，以改善LLM对交互组件的感知（Li et al., 2024）。与此同时，Octopus v2（Chen and Li, 2024）利用专门的功能标记来简化功能调用，显著提高了设备上语言模型的效率，并减少了计算开销。

3.2 规划

规划是移动智能体的核心，使它们能够根据任务目标和动态环境制定行动策略。与静态环境中的智能体不同，移动智能体必须适应不断变化的输入，同时处理多模态信息。移动智能体中的规划可以是程序化的，也可以使用自然语言进行。像AiTW（Rawles et al., 2024b）中的程序化格式适合精确的系统执行。另一方面，自然语言格式，如CoCo-Agent（Ma et al., 2024）中看到的，弥合了任务指令和智能体现有对话技能之间的差距，使智能体更容易适应并泛化到不同领域的任务。规划策略可以被归类为动态或静态。在动态规划中，智能体将任务分解为子目标，但如果发生错误则不重新规划（Zhang et al., 2024b）。相比之下，静态规划根据实时反馈调整计划，使智能体能够返回到早期状态并重新规划（Gao et al., 2023b; Wang et al., 2024a）。最近在提示工程方面的进步进一步增强了移动智能体的规划。OmniAct（Kapoor et al., 2024）采用基于提示的技术来构建多模态输入并提高推理能力。这种方法允许智能体集成外部工具并动态高效地调整输出格式。

3.3 行动

行动部分展示了智能体如何在移动环境中执行任务，通过三个关键方面：屏幕交互、API调用和智能体交互。通过屏幕交互，智能体在GUI上点击、滑动或输入，模仿人类行为以导航应用。它们还通过API调用访问更深层次的系统功能，例如发布命令以自动化超出GUI的任务。此外，通过与其他智能体合作，它们增强了适应复杂任务的能力，确保在多样化环境中有效执行任务。

屏幕交互在移动环境中，交互通常涉及在虚拟界面上点击、滑动或输入等动作。像AiTW、AITZ和AMEX中的智能体（Rawles et al., 2024b; Chai et al., 2024; Zhang et al., 2024b）通过模仿人类交互执行基于GUI的行动，确保它们与原生应用顺利工作。这些行动超越了简单的手势，包括需要智能体动态适应变化或新输入的复杂多步骤过程（Lee et al., 2021; Wang et al., 2022）。

API调用对于移动智能体至关重要，因为它们与GUI互动并执行需要与移动操作系统深度集成的任务（Chen and Li, 2024; Kapoor et al., 2024）。除了API调用，智能体还可以使用HTML和XML数据来访问底层功能，修改设备设置，检索传感器数据，并在不完全依赖基于GUI的输入的情况下自动化应用导航（Chai et al., 2024; Deng et al., 2024; Li et al., 2024）。通过结合这些方法，智能体可以有效地完成任务，同时全面理解环境。

智能体交互超越了基本的屏幕动作和API调用，需要决策、环境适应和多任务处理。像Octo-planner这样的移动智能体（Chen et al., 2024c）与行动智能体如Octopus V2合作，需要动态处理任务，如解释用户命令、管理应用状态和适应变化的输入。通过将规划与执行分开，Octo-planner增强了专业化和灵活性。

3.4 记忆

记忆机制对于移动智能体至关重要，使它们能够在不同任务中保留和使用信息。当前的研究将上下文学习映射到短期和长期记忆以外部向量存储。

短期记忆涉及临时存储信息并对其进行推理，类似于人类的工作记忆，使其能够有效地管理任务连续性和适应性。最近的进步集中在增强移动智能体的记忆能力。例如，Auto-UI（Zhan and Zhang, 2023）结合历史文本信息通过保留过去上下文来改善决策，而UI-VLM（Dorka et al., 2024）采用基于图像的记忆存储。与单模态智能体不同，多模态智能体需要管理短期记忆中的各种类型的数据，包括文本、图像和交互。这确保了来自不同来源的重要信息得以保留。

长期记忆更为复杂。虽然外部向量存储允许检索过去的经历，但其功能与人类长期记忆大相径庭，后者是结构化的且高度互联的。目前，参数记忆和向量数据库的结合可以模仿人类长期记忆，参数记忆保存隐性和语义记忆，而向量数据库存储更近期的语义和情景记忆。为了解决高效记忆管理的需求，一些方法将多模态输入转换为统一的文本格式进行存储，简化了任务执行期间的检索和集成（Yang et al., 2023; Wang et al., 2024b; Wen et al., 2024）。

4 移动智能体的技术路线

本节介绍了移动智能体的分类，将它们分为两种主要类型：基于提示的方法和基于训练的方法。基于提示的智能体利用LLMs的进步来解释和执行自然语言处理的指令，通常侧重于需要与GUI动态交互的任务。另一方面，基于训练的方法涉及明确的模型优化。这些智能体通过收集多模态指令遵循数据或访问API以获取指令信息来微调大型语言模型，如LLama（Zhang et al., 2023b），或多模态模型，如LLaVA（Liu et al., 2023a）。这种增强使这些模型能够作为推理和规划的核心“大脑”并执行这些计划。

4.1 基于提示的方法

最近在LLMs的进步展示了在开发自主GUI智能体方面的巨大潜力，特别是在需要遵循指令（Sanh et al., 2022; Taori et al., 2023; Chiang et al., 2023）和思维链（CoT）提示（Nye et al., 2022; Wei et al., 2022）的任务中。CoT提示（Wei et al., 2022; Kojima et al., 2022; Zhang et al., 2023d）特别有效，使LLMs能够处理逐步流程、做出决策和执行行动。这些能力在涉及GUI控制的任务中被证明是非常有益的（Rawles et al., 2023）。

GUI工具对于使LLMs与图形用户界面互动至关重要，因为这些模型主要设计用于处理自然语言而不是视觉元素。为了弥合这一差距，GUI工具将视觉元素转换为基于文本的格式，LLMs可以解释。这种多模态集成显著提高了移动智能体在复杂环境中的效率和灵活性。使用图标识别和OCR（Zhang et al., 2021; Sunkara et al., 2022; Song et al., 2023）等技术解析GUI元素，然后将解析的元素转换为HTML布局。然而，这种方法在很大程度上依赖于外部工具（Rawles et al., 2023; Wen et al., 2023a）和应用特定的API（Zhou et al., 2023; Gur et al., 2023），在推理期间经常导致低效和错误。尽管一些研究已经研究了处理不同类型的输入的多模态架构（Sun et al., 2022; Yan et al., 2023），但这些方法仍然依赖于详细的环境解析以获得最佳性能。鉴于准确的GUI定位的重要性，新的研究（Cheng et al., 2024; Hong et al., 2023）开始探索预训练方法以提高智能体在GUI任务中的性能。

记忆机制在增强基于提示的方法中的任务执行中起着关键作用。在AppAgent等智能体中（Yang et al., 2023），智能体采用记忆的探索阶段，允许它通过存储先前探索中的交互来学习和适应新应用。这种方法使智能体能够在不需要额外训练数据的情况下保留知识。Mobile-Agent（Wang et al., 2024b,a）通过使用视觉工具分析屏幕截图来自动化移动应用操作，避免依赖系统代码。它在操作期间规划任务并使用自我反思机制纠正错误。Omniact（Kapoor et al., 2024）通过将图像转换为文本并创建多模态空间来增强感知，以更好地推理。

复杂推理智能体系统中的能力指的是模型处理、分析和整合来自多个来源的信息以解决复杂任务的能力。这种能力通过使智能体能够在动态环境中绘制不同数据输入之间的联系、评估各种结果并执行知情行动来增强决策、规划和适应性。CoAT（Zhang et al., 2024b）通过整合语义信息来增强GUI智能体的性能。

4.2 基于训练的方法

与基于提示的方法相比，基于训练的方法涉及明确的模型优化。这些智能体通过收集多模态指令遵循数据或访问API以获取指令信息来微调大型语言模型，如LLama（Zhang et al., 2023b），或多模态模型，如LLaVA（Liu et al., 2023a）。这种增强使这些模型能够作为推理和规划的核心“大脑”并执行这些计划。

预训练的VLMs已成为移动环境中决策和交互的强大工具。像LLaVA（Liu et al., 2023a）和Qwen-VL（Bai et al., 2023）这样的模型，在大规模通用数据集上预训练，有效地捕获视觉和语言信息。然而，它们在移动设置中的适用性受到对移动数据中特定交互元素缺乏敏感性的限制。为了提高预训练模型对移动数据中交互元素的响应性，CogAgent（Hong et al., 2023）收集了大规模移动数据集进行预训练表示。CogAgent（Hong et al., 2023）整合了视觉和文本输入，使用VLMs改善了与复杂移动UI的交互。Spotlight（Li and Li, 2022）是一款针对移动UI任务的视觉-语言模型，仅依赖于屏幕截图和特定区域，支持多任务和少样本学习，在大规模数据集上训练。VUT（Li et al., 2021）采用了双塔Transformer进行多任务UI建模，实现了较少模型和降低计算成本的同时具有竞争力的性能。

通过大规模移动数据集，如AitW（Rawles et al., 2024b），通过视觉指令调整方法，促进了具有常识推理能力的预训练VLMs的微调。移动数据高度结构化且信息丰富，准确识别特定元素的位置尤其具有挑战性，特别是在密集排列的图像中。ScreenAI（Baechler et al., 2024）使用LLMs生成合成数据进行屏幕注释，识别UI元素的类型和位置，为任务如问题回答和UI导航创建大型数据集。相比之下，AMEX（Chai et al., 2024）采用了多级注释，包括GUI元素定位、功能描述和复杂的自然语言指令，为移动AI智能体提供了更详细的训练数据。这两种方法都通过使用构建的合成数据集来增强模型性能。Auto-GUI（Zhan and Zhang, 2023）通过直接界面交互引入了自主GUI控制，使用链式行动技术进行改进的预测。UI-VLM（Dorka et al., 2024）利用多模态数据生成图像-文本序列，以增强任务性能。COCOAgent（Ma et al., 2024）通过修改指令和元素布局来简化定位任务。Octo-planner（Chen et al., 2024c）将规划与执行分开，而AutoDroid（Wen et al., 2024）通过将应用探索数据转换为可操作的知识来自动化任务，通过微调和功能匹配增强自动化。

强化学习为训练移动智能体提供了一种动态方法，允许它们从与真实环境的互动中学习。这种方法在智能体必须适应变化的上下文或根据奖励优化其行动的场景中特别有效。WoB（Shi et al., 2017）平台通过允许智能体使用类似人类的动作与网站互动，促进了真实网络环境中的强化学习。这项工作（Shi et al., 2017）通过众包将网络任务转换为问答任务，改善了不同环境之间的任务泛化。MiniWoB++（Liu et al., 2018）引入了工作流引导的探索，将专家工作流与特定任务的行动整合，加速了学习和提高了基于网络的任务的效率。DigiRL（Bai et al., 2024）结合了离线和在线强化学习来训练设备控制智能体。它使用基于VLM的评估器扩展了在线训练，支持与64个Android模拟器的实时互动，提高了基于RL的智能体训练的效率。

5 未来工作

在这项调查中，我们展示了移动智能体领域的最新进展。虽然已经取得了重大进展，但仍有几个挑战尚未解决。基于当前的研究状态，我们提出以下未来研究方向：

安全性和隐私性：移动智能体在开放环境中面临安全风险。未来的工作应该优先考虑更强的安全机制，以防范恶意行为和数据泄露。还必须开发保护隐私的技术，以确保敏感数据在智能体互动期间保持安全。
适应动态环境：增强移动智能体适应动态和不可预测环境的能力至关重要。未来的研究应该探索实时行为调整的方法，以应对变化的条件和资源可用性。
多智能体协作：改善多个移动智能体之间的协作仍然是一个关键挑战。未来的研究应该关注高效的通信和协作机制，使智能体能够动态地形成联盟并更有效地完成任务。

6 结论

这项调查提供了移动智能体技术的全面概述。首先，我们回顾了移动智能体基准测试的进步，这些进步改善了移动智能体评估，但仍需要更全面的方法来捕捉现实世界的动态。接下来，我们讨论了使移动智能体能够适应其环境的核心组成部分——感知、规划、行动和记忆，它们构成了其功能的基础。然后，我们提出了移动智能体的分类，区分了基于提示和基于训练的方法，每种方法在可扩展性和适应性方面都有其优势和挑战。最后，我们强调了未来的研究方向，重点关注安全性、适应性和多智能体协作，以推进移动智能体的能力。

最后别忘了，帮忙点“在看”。

您的点赞，在看，是我创作的动力。

AiFighing是全网第一且唯一以代码、项目的形式讲解自动驾驶感知方向的关键技术。

长按扫描下面二维码，加入知识星球。

http://mp.weixin.qq.com/s?__biz=Mzg2Mzg5MzI5NA==&mid=2247487464&idx=2&sn=bda8d6046316455b0b55e384f08355d0

Ai fighting

全网第一且唯一分享自动驾驶实战，以代码、项目的形式讲解自动驾驶感知方向的关键技术，从算法训练到模型部署。主要致力于3D目标检测，3D目标追踪，多传感器融合，Transform，BEV，OCC，模型量化，模型部署等方向的实战。