不止 computer use，AI 的「phone use」也来了

学术 2024-10-25 15:41 北京

相比于电脑，“放不下”的手机陪伴我们的时间更长，离我们的生活更近。

如果说「computer use」开启了人机交互的新范式，那么「phone use」则更进一步，解锁更多应用的可能性，让 AI 真正惠及每一个人。

今天，智谱在 CNCC2024 大会上，基于在语言模型、多模态模型和工具使用方面的努力和研究成果，推出了 GLM 第一个产品化的智能体（Agent）——AutoGLM，只需接收简单的文字/语音指令，它就可以模拟人类操作手机，进而帮你：

在微信上「给老板的朋友圈点赞并写评论」，在淘宝上「购买某一款历史订单产品」，以及在携程上预订酒店、在 12306 上购买火车票、在美团上点个外卖......

AutoGLM 的应用场景还远不止于此，先看两个短片：

项目地址：https://xiao9905.github.io/AutoGLM/

理论上，通过对 GUI 的深刻理解，AutoGLM 可以完成人类在可视化电子设备（电脑，手机，平板……）上能做的任何事。它不受限于简单的任务场景或 API 调用，也不需要用户手动搭建复杂繁琐的工作流，操作逻辑与人类类似，真正做到在日常生活、工作中辅助人类。

AutoGLM 基于智谱自研的「基础智能体解耦合中间界面」和「自进化在线课程强化学习框架」，克服了大模型智能体任务规划和动作执行存在的能力拮抗、训练任务和数据稀缺、反馈信号稀少和策略分布漂移等智能体研究和应用难题，加之自适应学习策略，能够在迭代过程中不断改进、持续稳定地提高自身性能。就像一个人，在成长过程中，不断获取新技能。

AI 的「Phone & Web Browser Use」

让 AI agent 能够像人类一样直接与手机进行交互，并自动化地帮助人类完成一些日常任务，将进一步催生人机交互的新范式。

据介绍，AutoGLM 解决了大模型作为智能体时的两个关键挑战：

挑战一：“动作执行”不够精确

训练大模型智能体的一大难题，在于如何让模型学会精准地操作屏幕上显示的元素。端到端训练联合训练“动作执行”和“任务规划”能力，受制于轨迹数据获取成本高昂，数据总量严重不足，导致需要高精度的动作执行能力训练不充分。

为了解决这一问题，AutoGLM 引入了「基础智能体解耦合中间界面」设计，将“任务规划”与“动作执行”两个阶段通过自然语言中间界面进行解耦合，实现了智能体能力的极大提升。例如，在手机上点外卖，需要点击“提交订单”按钮时，对比传统和“中间界面”方案如下：

挑战二：“任务规划”不够灵活

另一个主要挑战在于，GUI 智能体训练轨迹数据极其有限和成本高昂。而且在面对复杂任务和真实环境时，智能体需要具备灵活的即时规划和纠正能力。这并非能通过例如模仿学习（Imitation Learning）和有监督微调（SFT）等传统大模型训练方法所能轻易获得。为此，我们以 Web 浏览器作为实验环境，研发了一种「自进化在线课程强化学习框架」以在真实在线环境中，从头开始学习和提升大模型智能体在 Web 和 Phone 环境中的能力。

通过引入自进化学习策略，模型不断自我考察、鞭策、提升。通过课程强化学习方法，该框架根据智能体当前迭代轮次的能力水平，动态调整学习的任务难度，以最大程度利用模型潜能。而通过 KL 散度控制的策略更新以及智能体置信度经验回放，我们减轻和避免了迭代训练中出现模型遗忘先前学习任务的问题。基于该方法训练的开源版 GLM-4-9B，就可以在 WebArena-Lite 评测基准中相对 GPT-4o 提升超过 160%，达到总体 43% 的任务成功率。

通过综合应用智谱自研的「基础智能体解耦合中间界面」和「自进化在线课程强化学习框架」策略，AutoGLM 在 Phone Use 和 Web Browser Use 上都取得了大幅的性能提升。例如，在 AndroidLab 评测基准上，AutoGLM 就显著超越了 GPT-4o 和 Claude-3.5-Sonnet 的表现。

在 WebArena-Lite 评测基准中，AutoGLM 更是相对 GPT-4o 取得了约 200% 的性能提升，大大缩小了人类和大模型智能体在 GUI 操控上的成功率差距。

AutoGLM 现以通过安卓应用的方式，在真实的安卓手机支持多个应用上的自动化任务执行。在简单任务的人工评测中，AutoGLM 表现令人满意。

发布即上线

这一次，智谱依旧不发“期货”——

在手机端，AutoGLM 已首批开放给部分清言用户（暂时仅支持安卓系统），欢迎大家提交内测申请。据了解，智谱也与荣耀等手机厂商基于 AutoGLM 开展了深度合作。

另外，AutoGLM 的 Web 能力也已经通过「智谱清言」插件对外公开使用。「智谱清言」插件是一个能模拟用户访问网页、点击网页的浏览器助手，大模型可以根据用户指令在网站上自动完成高级检索、总结与内容生成。

有了 AutoGLM 的「Phone & Web Browser Use」，未来的电子产品应用将充满想象力，AI 技术也将真正惠及千万家。

http://mp.weixin.qq.com/s?__biz=Mzg4MDE3OTA5NA==&mid=2247592670&idx=2&sn=61dcd0036ad331b94b4a6b378c31e424

学术头条

致力于学术传播和科学普及，重点关注AI4Science/大模型等前沿科学进展。

深度访谈｜AI 如何改变预测科学？看看统计学家怎么说

AI斩获6枚金牌！华为Kaggle大师级智能体诞生，自主解决数据科学难题

OpenAI官方指南：12条实用建议，手把手教学生用ChatGPT写作

Stability AI出官方教程了，带你轻松玩转Stable Diffusion 3.5

哈佛、MIT提出「精度感知」Scaling Laws；首个金融LLM综合双语基准｜大模型日报

OpenAI首位投资者《时代》刊文：AI将重新定义「人类的意义」

华为科学智能体 Agent K v1.0已达 Kaggle 大师水平；Meta团队提出自一致性偏好优化ScPO｜大模型日报

终于，AlphaFold3 开源了！代码免费下载，可用于非商业用途

OpenAI大改下代大模型方向，scaling law撞墙？AI社区炸锅了

清华、国科大、智谱团队提出LongReward：利用AI反馈改进长文本大语言模型

创纪录！首幅人形机器人绘制作品拍出108万美元；王慧文回归美团，带队探索AI应用｜一周热门

智谱「新清影」是怎样炼成的？CogVideoX+CogSound 技术详解

AI 的「phone use」竟是这样练成的，清华、智谱团队发布 AutoGLM 技术报告

清华、北大团队推出「安卓智能体」训练评估新框架 AndroidLab

Nature重磅：AI化学家再升级！大幅提升实验效率，推动化学合成进入“智能化”新阶段

研究实锤：别让大模型「想」太多，OpenAI o1准确率竟下降36.3%

清华、北大团队推出「安卓智能体」训练评估框架AndroidLab；Meta提出视频生成加速方法AdaCache｜大模型日报

科研人神器！接入5000万篇正版文献，知乎直答「专业搜索」太能打了

Meta 推出全新视频扩散模型 MarDini；周靖人团队：扩散 Transformer 的上下文 LoRA｜大模型日报

NeurIPS 2024｜清华、加州理工重磅研究：强化自训练方法 ReST-MCTS*，让大模型持续“升级”

港大打造 LightRAG：让大模型 RAG 高效又便宜

深夜重磅！ChatGPT可以“AI搜索”了，但并不完美

OpenAI最新研究：「打假高手」大模型事实性基准SimpleQA来了，已开源

小语言模型SLM综述｜大模型论文日报

大模型已过时、小模型SLM才是未来？苹果正在研究这个

超出人类思维的「系统0」：AI正在创造一种新的思维方式吗？

中国AI大模型出海，如何应对美国管制？最新报告给出了5个建议｜附下载链接

Nature封面：“揭穿”一切！Google DeepMind为AI大模型添加了“隐形指纹”

困扰18亿人的“全球干旱”，被AI更准确预测了

OpenAI又有高管走了，还发了篇长文

前OpenAI研究员：我必须离开；a16z创始合伙人：当前AI发展就像“卖大米”｜一周热门

刚刚，智谱推出情感语音模型 GLM-4-Voice，懂你的情绪，人人可用

不止 computer use，AI 的「phone use」也来了

今天，把电脑交给大模型

清华、腾讯团队提出预训练语言模型知识蒸馏框架 MiniPLM｜大模型论文日报

来了！Stability AI 推出 Stable Diffusion 3.5

深夜重磅！Anthropic 推出 Claude 3.5 Sonnet 升级版和 Claude 3.5 Haiku

刚刚，OpenAI最强竞对官宣：大模型可以使用电脑了

DeepMind创始人最新访谈：今年的诺贝尔奖，就像是AI的分水岭

微软提出新型注意力机制SeerAttention；清华、智谱团队提出“预训练蒸馏”｜大模型日报

OpenAI o1 模型推理模式的比较研究｜大模型论文日报

哈佛重磅突破！AI确定17000多种疾病候选药物，罕见病“孤儿药”不再遥远？

132年未解开的李雅普诺夫函数谜题，被Symbolic Transformer攻克了

Meta被斥：他们污染了“开源”一词；李开复：零一万物绝不放弃预训练模型｜一周热门

“AI调解员”登上Science！Google DeepMind打造，“劝架”水平远超人类

Meta提出思维偏好优化TPO；谷歌推出可穿戴基础模型LSM｜大模型论文日报

美国FDA：警惕AI大模型带来的未知问题，亟需监管创新

3B 超越 7B，Mistral AI 推出端侧模型 Ministral 3B 和 8B

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉