AI 的「phone use」竟是这样练成的，清华、智谱团队发布 AutoGLM 技术报告

学术 2024-11-08 08:08 北京

在 CNCC2024 大会上，智谱推出了 GLM 第一个产品化的智能体（Agent）——AutoGLM，只需接收简单的文字/语音指令，它就可以模拟人类操作手机，进而帮你：

在微信上「给老板的朋友圈点赞并写评论」，
在淘宝上「购买某一款历史订单产品」，
在携程上预订酒店，
在 12306 上购买火车票，
在美团上点个外卖，
......

另外，AutoGLM 也可以对网页进行操作，比如“检索知识图谱最新的学术期刊发表内容且只看北大核心”。

AutoGLM 的出现，让 AI「phone use」与网页操作不再是设想。

日前，智谱和清华团队在预印本网站 arXiv 上发布了 AutoGLM 的技术报告。

论文链接：

https://arxiv.org/abs/2411.00820

项目地址：

https://xiao9905.github.io/AutoGLM/

技术报告主要内容如下：

AutoGLM 是 ChatGLM 系列中的一个新产品，旨在作为基础智能体，通过图形用户界面（GUI）自主控制数字设备，实现更进一步的 AI「phone use」。
研究主要贡献包括：设计了一个「基础智能体解耦合中间界面」，有效解耦规划和执行行为；开发了一种「自进化在线课程强化学习框架」，实现了鲁棒的错误恢复和性能提升。
在安卓设备控制方面，AutoGLM 在 AndroidLab（VAB-Mobile）上的成功率为 36.2%，在流行 APP 的常见任务上的成功率为 89.7%。揭示了基础智能体技术在未来人机交互中的广泛潜力。
在网页浏览方面，AutoGLM 在 VAB-WebArena-Lite 上取得了 55.2% 的成功率（第二次尝试后成功率提高到 59.1%），在 OpenTable 评估任务中取得了 96.2% 的成功率。

AutoGLM 是如何炼成的？

在开发过程中，AutoGLM 团队采用了多项先进技术，以克服基础模型在真实环境中执行任务的挑战。

预训练。通常，互联网上的文本语料库中缺乏智能体相关的数据，使得 LLM 难以有效地充当智能体。此外，现有的多模态大模型（LMM）预训练主要集中于“视觉指令微调”，未能充分从序列多模态数据中学习。因此，合理利用在线数据中的弱监督决策信号来进行预训练能够提供帮助。此外，在多模态感知方面，高分辨率视觉输入非常重要，尤其是在使用 SoM 提示等定位策略时。
多模态大模型。LMM 对于理解和操控 GUI 至关重要。传统的机器人过程自动化（RPA）使用光学字符识别（OCR）工具来匹配手工编写的自动化程序中的关键元素，但难以扩展和泛化。而 LMM 则能够利用常识和 GUI 环境，进行模糊匹配和长程规划。当然，LMM 仍然需要大量训练，以获得智能体任务所需的强大规划和推理能力。
行为克隆（监督微调）。行为克隆是从头开始使用高质量专家轨迹数据训练智能体的关键策略，被验证了对基于 LLM 和 LMM 的智能体训练有效。当然，值得注意的是，该策略存在两个主要缺陷：采集专家轨迹成本高昂且耗时、当专家轨迹为理想解时智能体出错后难以有效纠正。
课程学习。智能体任务通常难度差异显著，因此通过课程计划逐步增加训练难度非常关键，这一策略对构建具有复杂目标实现能力的基础智能体非常有用。例如，AutoWebGLM 采用了多阶段课程，在此过程中智能体模型依次接受单步任务、简单多步任务和复杂的长程任务的训练。
奖励建模（RM）。为了让基础智能体能够通过在线强化学习（RL）获得监督，适当的奖励建模至关重要。此前许多 RL 智能体使用带有精确规则的奖励函数进行有限任务的训练。然而，基于 LLM 和 LMM 的基础智能体面向开放世界中的通用任务，这与任务专属奖励函数的能力相悖。因此，研究团队建立了能够适应广泛现实任务的通用奖励模型，包括结果监督 ORM 和过程监督 PRM，提供了不同粒度上的有效监督。
强化学习。相比于行为克隆，狭义的 RL 能更好地从失败中学习。对于基础智能体训练来说，这尤为重要，因为高质量的专家轨迹非常难获得。然而，将 RL 应用于基础智能体训练的挑战在于采样效率低。这个问题可以从两个方面理解：1）模拟器：当智能体在网页或安卓环境中进行探索时，其效率受限于网络连接速度和并行度上限。安卓虚拟设备等环境非常耗费内存。2）样本多样性：LLMs 和 LMMs 经过训练以输出特定的功能性动作。这种严格的功能格式通常要求模型进行过度拟合训练，采样结果单一。

在开发过程中，研究团队发现中间接口设计对于在基础智能体中解耦规划和执行（grounding）行为至关重要。通过将两者分离为不同模块，基础智能体可以从灵活性和准确性两个维度分别优化，且不会互相干扰。

通过这种方式，可以分别提高智能体的规划和执行的能力，实验显示，训练的执行模块显著提升了基于专有 LLM/LMM API 的规划器的性能。

图｜VAB-WebArena-Lite 上中间界面设计实验。

他们还发现，虽然中间接口设计有助于减轻执行中的错误问题，但如何良好规划仍然是一个挑战。许多现有的智能体工作基于专有的 LLM/LMM API，其规划能力无法通过训练进一步提升。

因此，他们决定通过 RL 探索自有规划器的训练，并开发了一个自进化的在线课程 RL 框架——WebRL 来缓解 RL 面临的用户任务或专家轨迹数据不足、策略分布漂移的问题，用于从头开始训练基础智能体。

评估结果

安卓端评估

他们在 AndroidLab（即 VAB-Mobile）和常见的安卓 APP 上的高频任务中评估了 AutoGLM 的能力。

AndroidLab 是一个互动式安卓基准测试环境，支持系统性评估，涵盖了一些离线可部署的英语 APP。相比于其他如 AITW 的现有基准测试，其互动性允许对安卓智能体进行更具实际意义的评估并通过强化学习进行改进。他们评估了代表性的专有 LLM/LMM API、在提供的行为克隆数据上微调的开放模型以及 AutoGLM。

结果表明，AutoGLM 在 AndroidLab 上的成功率为 36.2%，在所有对比的智能体中表现最佳。

图｜AndroidLab 上不同智能体的成功率。

为了测试 AutoGLM 在公共用户环境中的实际部署能力，他们还在 7 款常见的安卓 APP（包括微信、美团、淘宝、大众点评、高德地图、小红书和12306）上仔细评估了其高频任务表现。

他们为每个 APP 定制了一组测试查询，并在人类评估的全程执行轨迹中确定最终的成功率。他们的评估在安卓手机上进行，利用 Accessibility Service 应用程序反映实际的使用场景。

图｜在 APP 上评估 AutoGLM 的测试查询示例。

结果显示，AutoGLM 在这些应用中的表现令人满意，尽管尚未完全解决所有任务，未完成的任务也能部分完成，从而在实际场景中为用户提供操作速度上的帮助。

图｜AutoGLM 在 APP 上的人工评估成功率。

网页端评估

他们使用 VAB-WebArena-Lite 和在线人类评估数据集 OpenTable 进行了交互式基准测试，在这些环境中优化训练 AutoGLM。

VAB-WebArena-Lite 是原始 WebArena 的一个精简版，包含 165 个任务，并对答案和判定功能进行了人工验证。其设计意图是加速 WebArena 上的评估过程并确保评判的准确性。

他们评估了代表性的专有 LLM/LMM API、开放模型、最近的智能体框架以及 AutoGLM。实验结果显示，AutoGLM 在该基准测试上显著提升了表现，缩小了自主智能体与人类之间的性能差距。

图｜不同智能体在 VAB-WebArena-Lite 上的成功率。

与 Agent Q 的评估方法类似，他们也在真实网站 OpenTable 上对 AutoGLM 进行了测试。由于 Agent Q 的数据集未公开，研究团队根据其论文中的示例（“为 4 人预订 2024 年 5 月 22 日晚上 7 点在 Cecconi's 的餐厅座位”）重新构建了一个包含 200 个样本的测试集，并在真实的 OpenTable 网站上进行了人类评估。

结果显示，AutoGLM 在此真实世界场景中超越了 GPT-4o 和 Agent Q。

图｜不同智能体在 OpenTable 上的成功率。

未来，AutoGLM 将进一步完善其模型和应用场景，加速智能助手在数字化生活中的普及。

作者：阮文韵审核：学术君

如需转载或投稿，请直接在公众号内留言

http://mp.weixin.qq.com/s?__biz=Mzg4MDE3OTA5NA==&mid=2247593304&idx=1&sn=fa49a642b1648354b28e1524ca9f4633

学术头条

致力于学术传播和科学普及，重点关注AI4Science/大模型等前沿科学进展。

深度访谈｜AI 如何改变预测科学？看看统计学家怎么说

AI斩获6枚金牌！华为Kaggle大师级智能体诞生，自主解决数据科学难题

OpenAI官方指南：12条实用建议，手把手教学生用ChatGPT写作

Stability AI出官方教程了，带你轻松玩转Stable Diffusion 3.5

哈佛、MIT提出「精度感知」Scaling Laws；首个金融LLM综合双语基准｜大模型日报

OpenAI首位投资者《时代》刊文：AI将重新定义「人类的意义」

华为科学智能体 Agent K v1.0已达 Kaggle 大师水平；Meta团队提出自一致性偏好优化ScPO｜大模型日报

终于，AlphaFold3 开源了！代码免费下载，可用于非商业用途

OpenAI大改下代大模型方向，scaling law撞墙？AI社区炸锅了

清华、国科大、智谱团队提出LongReward：利用AI反馈改进长文本大语言模型

创纪录！首幅人形机器人绘制作品拍出108万美元；王慧文回归美团，带队探索AI应用｜一周热门

智谱「新清影」是怎样炼成的？CogVideoX+CogSound 技术详解

AI 的「phone use」竟是这样练成的，清华、智谱团队发布 AutoGLM 技术报告

清华、北大团队推出「安卓智能体」训练评估新框架 AndroidLab

Nature重磅：AI化学家再升级！大幅提升实验效率，推动化学合成进入“智能化”新阶段

研究实锤：别让大模型「想」太多，OpenAI o1准确率竟下降36.3%

清华、北大团队推出「安卓智能体」训练评估框架AndroidLab；Meta提出视频生成加速方法AdaCache｜大模型日报

科研人神器！接入5000万篇正版文献，知乎直答「专业搜索」太能打了

Meta 推出全新视频扩散模型 MarDini；周靖人团队：扩散 Transformer 的上下文 LoRA｜大模型日报

NeurIPS 2024｜清华、加州理工重磅研究：强化自训练方法 ReST-MCTS*，让大模型持续“升级”

港大打造 LightRAG：让大模型 RAG 高效又便宜

深夜重磅！ChatGPT可以“AI搜索”了，但并不完美

OpenAI最新研究：「打假高手」大模型事实性基准SimpleQA来了，已开源

小语言模型SLM综述｜大模型论文日报

大模型已过时、小模型SLM才是未来？苹果正在研究这个

超出人类思维的「系统0」：AI正在创造一种新的思维方式吗？

中国AI大模型出海，如何应对美国管制？最新报告给出了5个建议｜附下载链接

Nature封面：“揭穿”一切！Google DeepMind为AI大模型添加了“隐形指纹”

困扰18亿人的“全球干旱”，被AI更准确预测了

OpenAI又有高管走了，还发了篇长文

前OpenAI研究员：我必须离开；a16z创始合伙人：当前AI发展就像“卖大米”｜一周热门

刚刚，智谱推出情感语音模型 GLM-4-Voice，懂你的情绪，人人可用

不止 computer use，AI 的「phone use」也来了

今天，把电脑交给大模型

清华、腾讯团队提出预训练语言模型知识蒸馏框架 MiniPLM｜大模型论文日报

来了！Stability AI 推出 Stable Diffusion 3.5

深夜重磅！Anthropic 推出 Claude 3.5 Sonnet 升级版和 Claude 3.5 Haiku

刚刚，OpenAI最强竞对官宣：大模型可以使用电脑了

DeepMind创始人最新访谈：今年的诺贝尔奖，就像是AI的分水岭

微软提出新型注意力机制SeerAttention；清华、智谱团队提出“预训练蒸馏”｜大模型日报

OpenAI o1 模型推理模式的比较研究｜大模型论文日报

哈佛重磅突破！AI确定17000多种疾病候选药物，罕见病“孤儿药”不再遥远？

132年未解开的李雅普诺夫函数谜题，被Symbolic Transformer攻克了

Meta被斥：他们污染了“开源”一词；李开复：零一万物绝不放弃预训练模型｜一周热门

“AI调解员”登上Science！Google DeepMind打造，“劝架”水平远超人类

Meta提出思维偏好优化TPO；谷歌推出可穿戴基础模型LSM｜大模型论文日报

美国FDA：警惕AI大模型带来的未知问题，亟需监管创新

3B 超越 7B，Mistral AI 推出端侧模型 Ministral 3B 和 8B

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉