AutoGLM-图形用户界面操作自主基础智能体技术详解

文摘 2024-11-09 16:59 广东

我们介绍了AutoGLM，这是ChatGLM家族[11]中的新成员，旨在作为通过图形用户界面（GUI）自主控制数字设备的基础智能体。虽然基础模型在获取人类知识方面表现出色，但在动态现实世界环境中的决策制定方面常常遇到困难，限制了它们向人工通用智能的发展。这一限制强调了开发能够通过自主环境交互学习的基础智能体的重要性，以加强现有模型。专注于Web浏览器和手机作为代表性的GUI场景，我们开发了AutoGLM作为实际的基础智能体系统，用于现实世界的GUI交互。我们的方法整合了一系列技术和基础设施，以创建适合用户交付的可部署智能体系统。通过这一发展，我们得出了两个关键见解：首先，为GUI控制设计适当的“中间接口”至关重要，它使得规划和定位行为的分离成为可能，这些行为需要分别为灵活性和准确性进行优化。其次，我们开发了一种新颖的渐进式训练框架，使得AutoGLM能够进行自我进化的在线课程强化学习。我们的评估表明AutoGLM在多个领域都具有有效性。在Web浏览方面，AutoGLM在VAB-WebArena-Lite上取得了55.2%的成功率（第二次尝试提高到59.1%），在OpenTable评估任务上达到了96.2%。在Android设备控制方面，AutoGLM在AndroidLab（VAB-Mobile）上获得了36.2%的成功率，在流行的中国APP中的常见任务上达到了89.7%。AutoGLM的部分能力现在可以通过Qingyan浏览器插件用于Web应用程序，并通过表单应用程序邀请进行Android测试。

我们翻译解读最新论文：AutoGLM，文末有论文信息。作者：张长旺，图源：旺知识

1 引言

包括大型语言模型（LLMs）[5; 27; 7; 2; 42; 11]和大型多模态模型（LMMs）[20; 25; 26; 1]在内的基础模型因其卓越的语言理解和生成能力而受到广泛关注。通过在互联网规模的语料库上进行广泛的自监督[22]预训练，这些模型不仅获得了知识和语言能力，还获得了类似人类的推理和规划能力，使得LLMs作为智能体[21; 28]的崛起。这些智能体已经在多个领域证明了它们的实用性，包括编码[35; 16; 44]、数据分析[14; 21]和游戏[34; 18]，为通过开发多模态基础智能体[23]作为多个任务和环境的通才，为人工通用智能（AGI）的发展指明了充满希望的路径。

数字设备的普遍性为GUI能力智能体[13; 46; 43; 17]提供了独特的机会。这个领域提供了几个优势：GUI模拟器可以并行部署用于数据注释和在线强化学习（RL）；GUI环境为基于基础模型的智能体提供了丰富的文本和视觉输入，但与具体环境相比，在更安全和可控的环境中；GUI智能体由于其广泛的潜在用户基础而具有广泛的实际吸引力。它们成功的发展可以根本改变人机交互。

然而，GUI基础智能体的发展面临着一个关键挑战：现有预训练集中决策制定数据的稀缺。虽然互联网包含了大量的人类知识，但它主要由静态信息组成，这些信息不足以充分捕捉人类的决策制定和环境交互。构建有能力的基础智能体需要通过直接与现实世界环境交互或通过学习合成轨迹来丰富它们，这些基础智能体随后可以在数字世界中自我进化，逐步改进以实现真正的通用智能。

至关重要的是，这些系统必须以渐进式用户部署为发展目标。自主智能体旨在增强而非取代人类能力。用户部署既服务于教授智能体有效的人类辅助，也允许人类适应智能助手。这种方法还使研究人员能够在开发过程中系统地理解、发现和检查自主基础智能体的潜在利益和风险。

针对这些机会和挑战，我们介绍了AutoGLM，这是基于ChatGLM[11]模型家族构建的一系列基础智能体。AutoGLM代表了开发Web浏览器和Android两个基本GUI场景的基础智能体原型的开创性尝试。为了解决数据稀缺的挑战，我们采用了一套全面的培训技术和开发关键基础设施，以实现用户部署。这个过程产生了两个关键见解：

• 中间接口设计：我们发现设计一个中间接口对于分离基础GUI智能体中的规划和定位行为至关重要。它们提出了不同的要求——规划需要灵活性和错误恢复，而定位强调行动准确性。它们的分离使得更灵活的开发和提高性能成为可能。

• 自我进化的在线课程RL[30]：我们认识到错误恢复[23]对于强大和可部署的智能体应用至关重要，但仅通过离线训练很难获得。此外，指令和轨迹的短缺阻碍了训练进展。我们通过在线方式根据从弱到强的课程时间表实施自我进化RL来解决这一挑战。

基于这些见解，AutoGLM在各种基准测试和现实世界测试中展现出卓越的能力。在Web浏览方面，AutoGLM在具有挑战性的VAB-WebArena-Lite[47; 23]上实现了55.2%的任务成功率（第二次尝试提高到59.1%），大大超过了GPT-4o的18.2%。在OpenTable现实世界预订任务上，AutoGLM实现了96.2%的成功率，超过了GPT-4o（62.6%成功率）和Agent Q[29]（81.7%）。AutoGLM的部分Web能力已通过Qingyan浏览器插件在Chrome和Edge插件商店公开提供。参见图2中的实际示例。

对于Android控制，AutoGLM在AndroidLab[37]（之前称为VAB-Mobile[23]）上实现了36.2%的成功率，这是一个全面的交互式Android评估框架。这一性能超过了GPT-4o（31.2%成功率）和Claude-3.5-Sonnet（29.0%成功率）。我们还在Android上通过AccessibilityService实现了一个实用的应用程序，用于自主设备控制。在人类评估中，AutoGLM在流行的中国APP中的常见任务上取得了令人印象深刻的89.7%成功率（例如，“请从最近的咖啡店为我订购一大杯半糖冰美式咖啡，送到我的公司”）。Android客户端目前正在通过表单应用程序邀请内部测试。参见图1中的实际示例。

2 AutoGLM：技术和见解

在本节中，我们将概述开发AutoGLM所涉及的技术。特别是，我们将讨论两个重要的见解，这些见解使AutoGLM与现有的基于LLM或LMM的GUI智能体相比有了显著的改进。

2.1 重要技术

训练智能体与训练普通的LLM或LMM不同。一个关键障碍在于缺乏包含决策过程的高质量轨迹数据。以下是我们在项目中实现的一些有用技术。

预训练。通常，互联网文本语料库中几乎没有与智能体相关的数据，这使得LLMs无法有效地作为智能体。此外，现有的LMM预训练主要是“视觉指令调整”，模型了文本和图像之间的对齐，而没有充分从顺序多模态数据中学习[4; 10]。因此，适当利用现有的在线数据，利用弱监督决策信号进行预训练实际上会有帮助。此外，对于多模态感知，高分辨率视觉输入非常重要，根据CogAgent[13]和我们的观察，特别是在使用定位策略，如Set-of-Marks（SoM）提示[38]时。

大型多模态模型（LMMs）。LMMs对GUI理解和操作至关重要。传统上，在机器人流程自动化（RPA）中，范式是使用光学字符识别（OCR）捕获器匹配人类手工制作的自动化程序中的关键元素，这无法扩展和泛化。相反，LMMs可以执行模糊匹配，并得益于其强大的对常识和GUI环境的把握，从预训练中进行长期规划。然而，LMMs仍然需要大量训练以获得执行智能体任务所需的强大规划和推理能力。

行为克隆（监督微调）。行为克隆（BC）是从头开始用高质量的专家轨迹训练智能体的关键策略。该策略也已验证对基于LLM和LMM的智能体训练有效[24; 41; 6; 13;17; 23]。然而，收集专家轨迹的成本和时间极高。此外，使用BC的一个基本问题是智能体只学习模仿专家的行为，而没有完全理解其目标。当专家轨迹是神谕（大多数情况下为了保持训练稳定性）时，智能体未能培养从错误中恢复的能力[23]。

课程学习。智能体任务通常难度差异很大。因此，明智的做法是随着课程时间表逐步增加训练难度。例如，AutoWebGLM[17; 15]采用多阶段课程，智能体模型依次用单步任务、简单的几步任务和复杂的长期任务进行训练。DigiRL[3]还提出了一个简单的课程，根据特定时间戳对应的智能体能力，从固定指令集中过滤适当的任务。我们发现这种策略对于构建具有复杂目标实现能力的基礎智能体非常有用。

奖励建模（RM）。要使在线RL与基础智能体一起使用，需要适当的RM以提供监督。传统上，许多RL智能体都是用有限的任务和精确的基于规则的奖励函数进行训练的。然而，基于LLM和LMM的基础智能体针对的是开放世界中的通用任务完成，这与特定任务奖励函数的能力相矛盾。因此，构建可处理广泛现实世界智能体任务的可泛化RM至关重要。具体来说，RM可以分为结果监督ORM和过程监督PRM[19; 8; 40]，它们提供不同粒度的有效监督。

强化学习（RL）。与BC相比，从狭义上讲，RL可以更好地从失败中学习。这对于基础智能体训练尤为重要，因为获得高质量的专家轨迹非常困难[24]。然而，将RL应用于基础智能体训练的挑战在于环境采样的低效率。这个问题可以从两个方面理解：1）模拟器：当智能体在Web或Android环境中探索时，它们的效率受到互联网连接速度和最大并行度的限制。像Android虚拟设备这样的环境非常耗费内存[23]。2）样本多样性：LLM和LMM被训练以输出某些基于功能的行动。严格的功能格式化通常需要过度拟合训练与模型，导致即使在高温度下进行推理，也会产生固执的单调采样结果[33]。

尽管存在挑战，我们认为扩大RL和对基础模型的后期训练对于构建强大的基础智能体至关重要，这一点由OpenAI o1的成功所表明。如果不让它从与现实世界环境的交互中学习，就不可能构建通用智能。

表1：在VAB-WebArena-Lite[47; 23]上中间接口设计的实验。

2.2 见解1：中间接口设计

在开发过程中，我们发现中间接口设计对于分离基础智能体中的规划和定位行为至关重要。通过将它们分成不同的模块，可以从灵活性和准确性两个维度改进基础智能体，而不会相互干扰。

直觉很简单：我们发现现有的LLM和LMM在执行现有基准上的智能体任务时，在规划方面比在定位方面更有能力。虽然规划还有很大的改进空间，但大多数当前错误源于定位期间的错误元素识别[23]。例如，在VAB-WebArena-Lite进行视觉输入测试时生成的典型动作可能是：

其中元素可能指的是Reddit上的“提交”按钮。如果我们将格式更改为以下内容：

通过这种方式，可以分别改进规划器和定位器的能力。实际上，从无监督环境观察中自动构建大量的定位数据要容易得多。在我们的实验中（参见表1），我们发现使用我们训练的定位器的策略对于改进专有的LLM/LMM API基础规划器非常有用。我们的观察与另一项并发工作[12]相似，该工作探索了GUI智能体的通用定位模型。

2.3 见解2：自我进化的在线课程RL

虽然中间接口设计有助于缓解定位不准确的问题，但规划仍然是一个问题。许多现有的智能体工作在文献中基于专有的LLM/LMM API构建其框架，因此规划能力未能通过训练得到改进。

图3：VAB-WebArena-Lite[47; 23]，所有方法都使用GLM-4-9B-Base[11]进行训练。

因此，我们决定探索通过RL训练内部规划器。这非常具有挑战性，因为缺乏足够的用户任务或专家轨迹。我们为从头开始训练基础智能体开发了一种自我进化的在线课程RL框架——WebRL[30]。以WebArena[47]环境为例，我们采用演员-评论家RL框架进行训练。简而言之，我们确定了将课程RL应用于问题时最困难的问题——任务数据稀缺和策略分布漂移。

任务数据稀缺。利用VisualAgentBench[23]提供的大约1,000个BC数据，我们将GLM-4-9B初始化为22.4% SR。此时，我们已经用尽了任务指令或神谕轨迹。因此，我们应用自我进化技术，在在线滚动期间扩充失败的任务指令，变异指令变得更复杂或更简单。这些自我进化的指令由评论家过滤，然后用于下一个迭代训练阶段的滚动。

策略分布漂移。课程学习的一个显著问题是在渐进式课程时间表期间策略分布漂移。我们为智能体训练开发了KL约束的策略更新，以及演员信心过滤的经验回放。消融研究表明，这些设计对于在迭代训练期间持续改进性能是不可或缺的。

3 结果

在本节中，我们报告了AutoGLM在Web和Android导向任务上的评估。

3.1 在Web上评估

我们采用了三个交互式基准：VAB-WebArena-Lite[47; 23]和一个在线人类评估数据集OpenTable[29]。AutoGLM在这些环境中经历了训练优化。

VAB-WebArena-Lite[47; 23]。VAB-WebArena-Lite1是原始812个任务WebArena[47]的精炼165个任务子集，手动验证了答案和裁判功能。其设计意图是加快WebArena的评估速度并确保判断正确性。我们评估了代表性的专有LLM/LMM API、开放模型[9]、最近的智能体框架[36; 45]和AutoGLM。图4中的结果显示，AutoGLM在基准测试上取得了显著进步，缩小了自主智能体和人类之间的性能差距。

图5：OpenTable Eval[29]。

OpenTable Eval[29]。按照Agent Q[29]，我们还评估了AutoGLM在提供在线开放预订服务的真实网站OpenTable上的表现。由于[29]的测试集未公开，我们根据其论文中提供的例子（“在OpenTable上为Cecconi’s餐厅预订5月22日2024年7:00 PM的4人餐位”）重建了一个200个样本的测试集，并在真实的OpenTable网站上进行了人类评估。结果如图5所示。AutoGLM在该真实网站上的表现超过了gpt-4o和Agent Q。

3.2 在Android上评估

我们在学术基准AndroidLab[37]（即VAB-Mobile[23]）和常见中国移动APP上的Android上评估了AutoGLM的Android能力。

AndroidLab[37]（VAB-Mobile[23]）。AndroidLab是一个交互式Android基准和开发环境，支持可重复评估，涵盖了系统和一些离线部署的英文APP。与AITW[32]等现有基准相比，其交互性质允许对Android基础智能体进行更实际的评估，并通过RL进行改进。我们评估了代表性的专有LLM/LMM API、在提供的BC数据上微调的开放模型[9]和AutoGLM。结果如图6所示。AutoGLM实现了36.2%的成功率，是所有比较的智能体中表现最好的。

在中国Android APP上的人类评估。为了测试AutoGLM被部署为公共用户使用的实际性，我们仔细检查了它在7个常见中国Android APP上的表现，包括微信、美团、淘宝、大众点评、高德地图、小红书和12306。

我们为评估AutoGLM的真实性能策划了一个测试查询集（参见表2），最终成功率由人类对整个执行轨迹的评估确定。与AndroidLab和先前的工作[31; 39]中的Android虚拟设备（AVD）评估不同，我们的评估是在安装了AccessibilityService应用程序的实体Android手机上进行的，以反映基础智能体用于手机使用的实际场景。结果如图7所示。我们将结果分类为3种类型，以更好地理解AutoGLM：

• 成功：任务完全成功，满足了用户指令中的所有要求。

• 部分：任务部分完成，正确方向但没有完成一些后续程序以满足用户要求。

• 失败：任务过早终止，中途卡住或走向错误方向。

正如我们观察到的，AutoGLM在评估的APP上表现不错。虽然目前它无法完美解决所有任务，但未完成的任务能够半完成，这在实际场景中仍然可以协助用户加快GUI操作。

4 结论

通过这项工作，我们介绍了AutoGLM，这是基于ChatGLM模型家族构建的一系列基础智能体，它在Web浏览和Android环境中的GUI操作中展现出强大的能力。我们的主要贡献包括设计了一个有效分离规划和定位行为的中间接口，以及开发了一种自我进化的在线课程RL方法，使强大的错误恢复和性能改进成为可能。在各种基准测试中的强劲实证结果，包括在VAB-WebArena-Lite上的55.2%成功率和在AndroidLab上的36.2%，以及通过浏览器插件和Android应用程序成功部署到现实世界，证明了AutoGLM作为发展实际GUI交互基础智能体的重要一步的潜力。

作者：张长旺，图源：旺知识

参考资料

标题：AutoGLM: Autonomous Foundation Agents for GUIs

作者：Xiao Liu, Bo Qin, Dongzhu Liang, Guang Dong, Hanyu Lai, Hanchen Zhang, Hanlin Zhao, Iat Long Iong, Jiadai Sun, Jiaqi Wang, Junjie Gao, Junjun Shan, Kangning Liu, Shudan Zhang, Shuntian Yao, Siyi Cheng, Wentao Yao, Wenyi Zhao, Xinghan Liu, Xinyi Liu, Xinying Chen, Xinyue Yang, Yang Yang, Yifan Xu, Yu Yang, Yujia Wang, Yulin Xu, Zehan Qi, Yuxiao Dong, Jie Tang

单位：Zhipu AI, Tsinghua University

标签：人工智能、自主智能体、图形用户界面、强化学习、多模态模型

概述：AutoGLM是一个新的基础智能体系列，旨在通过图形用户界面（GUI）实现数字设备的自主控制。

链接：https://arxiv.org/abs/2411.00820

旺知识

AI技术最新进展、发展趋势、研发经验、从业经验

最新文章

大语言模型图形用户界面智能体全面综述：背景、架构、数据、模型、评估、应用、挑战

WWW24-大语言模型个性化多模态生成技术：从千篇一律到量身定制

AI Agents 技术栈图谱与分析

智能体信息检索技术：定义、应用、挑战、趋势

学习计算广告，我为什么从推荐系统转向计算广告？

大众汽车，会成为下一个诺基亚吗？

2025年生成式人工智能革命：八大趋势开启智能新纪元！

大推理模型Marco-o1详细解读：开启开放式问题解决新能力

AI在广告投放上的应用正在大爆发

面向检索增强生成应用的最佳搜索和检索技术

历史性一刻！在东南亚，OPPO超过三星

多模态大模型能力评测基准全面综述：理解、推理、生成、应用、趋势

LLM-ESR@NeurIPS 2024: 大语言模型破解推荐系统的长尾难题

17岁高中生写了个神级Prompt，直接把Claude强化成了满血o1。

个性化大语言模型全面综述：背景、定义、分类、基础、技术、评估、数据、应用、挑战

京东探索：大模型在电商搜索中的生成式检索与优化实践

秘塔AI上线"知识库"，他们直接超进化成AI搜索完全体了。

迈向下一代大语言模型驱动的推荐系统：综述与展望

抖音集团数据血缘深度应用：架构、指标与优化实践

川普归来与战后国际秩序的瓦解

多模态移动智能体基础与最新趋势调研：评估基准、核心组件、技术路线、发展趋势

目标导向交互式智能体复杂任务调研：背景、分类、范畴、评估、趋势

川普上台后的赢家和输家

大模型图形用户界面操作智能体(GUI Agents)综述：数据、架构、分类、应用、挑战

AutoGLM-图形用户界面操作自主基础智能体技术详解

川普归来与战后国际秩序的瓦解

苹果语义索引(Semantic Index)技术调研：关键技术、隐私安全、应用效果、发展趋势

解码智能推荐：多模态大模型在网易云音乐的创新应用

智谱AI的AutoGLM后，Google和微软也下场来做“贾维斯”了。

小红书搜索：生成式检索的探索与实践

「深度」学习计算广告，我为什么从推荐系统转向计算广告？

AI自动操作电脑：AutoWebGLM-大语言模型的Web导航智能体技术详细翻译解读

算法工程师的未来之路：大模型还是搜广推？

未来已来：智谱AI的AutoGLM，让智能手机变身你的私人智能体

RLChina2024-AI Agent业界进展和发展趋势：简史、进展、难题、分级、趋势

揭秘Llama 3.1：我如何消化这份92页的AI大模型技术盛宴

朝韩冲突和中东局势

UniIR：通用多模态信息检索模型训练和评测标准

LECCR：多模态大语言模型增强的跨语言跨模态检索技术

黎以战争、美国大选和财政政策

检索增强生成(RAG)与相关技术综述：问题、分类、数据、模型、挑战

首个大推理模型(LRM) - OpenAI o1规划任务能力评测

黎以战争、美国大选和财政政策

大语言模型统一偏好学习技术综述：定义、数据、反馈、算法、评估、趋势

MMSearch：大型模型多模态搜索引擎

2024，平台型互联网公司的增长打法变了

开源语音实时交互新突破：LLaMA-Omni实现大语言模型无缝语音交互

Google广告点击率预估实践经验总结：在线学习、内存优化、模型评估、置信估计、校准预测、特征管理

从穷小子到公司估值10亿，清华小哥的“双杠杆”方法论

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉