老美远远落后！国产的AI 的「Phone Use」时刻也来了！自动帮忙开房叫外卖。

科技 2024-10-27 21:20 江苏

相比于电脑，「放不下」的手机陪伴我们的时间更长，离我们的生活更近。

如果说「Computer Use」开启了人机交互的新范式，那么「Phone Use」则更进一步，解锁更多应用的可能性，让 AI 真正惠及每一个人。

今天，基于 GLM 技术团队在语言模型、多模态模型和工具使用方面的努力和研究成果，我们推出 GLM 第一个产品化的智能体（Agent）—— AutoGLM，只需接收简单的文字/语音指令，它就可以模拟人类操作手机，进而帮你：

在微信上「给老板的朋友圈点赞并写评论」……
在淘宝上「购买某一款历史订单产品」……
在携程上预订酒店……
在 12306 上购买火车票……
在美团上点个外卖......

先看一个短片：

AutoGLM 的应用场景还远不止于此。

理论上，通过对 GUI 的深刻理解，AutoGLM 可以完成人类在可视化电子设备（电脑，手机，平板……）上能做的任何事。

它不受限于简单的任务场景或 API 调用，也不需要用户手动搭建复杂繁琐的工作流，操作逻辑与人类类似，真正做到在日常生活、工作中辅助人类。

项目地址：https://xiao9905.github.io/AutoGLM

体验

这一次，我们依旧不发「期货」，大家可以通过：

Chrome 或 Edge 安装「智谱清言」插件，来体验 AutoGLM-Web。「智谱清言」插件是一个能模拟用户访问网页、点击网页的浏览器助手，大模型可以根据用户指令在网站上自动完成高级检索、总结与内容生成。
在手机端，首批开放给部分清言用户（暂时仅支持安卓系统），欢迎大家提交内测申请。值得一提的是，我们也与荣耀等手机厂商基于 AutoGLM 开展深度合作。

AI 的「phone use」时刻，让我们在通往通用人工智能（AGI）的道路上，再次向前迈了一小步。

AutoGLM 技术

AutoGLM 基于智谱自研的「基础智能体解耦合中间界面」和「自进化在线课程强化学习框架」，克服了大模型智能体任务规划和动作执行存在的能力拮抗、训练任务和数据稀缺、反馈信号稀少和策略分布漂移等智能体研究和应用难题，加之自适应学习策略，能够在迭代过程中不断改进、持续稳定地提高自身性能。就像一个人，在成长过程中，不断获取新技能。

AutoGLM 解决了大模型作为智能体时的两个关键挑战：

挑战一：「动作执行」不够精确

训练大模型智能体的一大难题，在于如何让模型学会精准地操作屏幕上显示的元素。端到端训练联合训练「动作执行」和「任务规划」能力，受制于轨迹数据获取成本高昂，数据总量严重不足，导致需要高精度的动作执行能力训练不充分。

为了解决这一问题，AutoGLM 引入了「基础智能体解耦合中间界面」设计，将「任务规划」与「动作执行」两个阶段通过自然语言中间界面进行解耦合，实现了智能体能力的极大提升。例如，在手机上点外卖，需要点击「提交订单」按钮时，对比传统和「中间界面」方案如下：

挑战二：「任务规划」不够灵活

另一个主要挑战在于，GUI 智能体训练轨迹数据极其有限和成本高昂。而且在面对复杂任务和真实环境时，智能体需要具备灵活的即时规划和纠正能力。这并非能通过例如模仿学习（Imitation Learning）和有监督微调（SFT）等传统大模型训练方法所能轻易获得。为此，我们以 Web 浏览器作为实验环境，研发了一种「自进化在线课程强化学习框架」以在真实在线环境中，从头开始学习和提升大模型智能体在 Web 和 Phone 环境中的能力。

通过引入自进化学习策略，模型不断自我考察、鞭策、提升。通过课程强化学习方法，该框架根据智能体当前迭代轮次的能力水平，动态调整学习的任务难度，以最大程度利用模型潜能。而通过 KL 散度控制的策略更新以及智能体置信度经验回放，我们减轻和避免了迭代训练中出现模型遗忘先前学习任务的问题。基于该方法训练的开源版 GLM-4-9B，就可以在 WebArena-Lite 评测基准中相对 GPT-4o 提升超过 160%，达到总体 43% 的任务成功率。

通过综合应用智谱自研的「基础智能体解耦合中间界面」和「自进化在线课程强化学习框架」策略，AutoGLM 在 Phone Use 和 Web Browser Use 上都取得了大幅的性能提升。例如，在 AndroidLab 评测基准上，AutoGLM 就显著超越了 GPT-4o 和 Claude-3.5-Sonnet 的表现。

在 WebArena-Lite 评测基准中，AutoGLM 更是相对 GPT-4o 取得了约 200% 的性能提升，大大缩小了人类和大模型智能体在 GUI 操控上的成功率差距。

AutoGLM 现以通过安卓应用的方式，在真实的安卓手机支持多个应用上的自动化任务执行。在简单任务的人工评测中，AutoGLM 表现令人满意。

更详细的技术报告将在之后公布。

http://mp.weixin.qq.com/s?__biz=Mzk0MzYxMjgwNw==&mid=2247487957&idx=1&sn=f4f61acfb11760a7a2ade0743d71747c

AI科技之窗

全网最懂AI的科技博主！200万科技爱好者都关注的公众号。全面解读全球AI新闻。未来是人工智能提升生产效率的时代，2024年AIGC，智能驾驶，量子计算机，万物互联，虚拟现实等等应用爆发的一年，当下正在经历第四次科技革命。

最新文章

寒武纪！为所欲为？快哉！

蓝色光标：什么是真正的All in AI？

港大孵化“独角兽”，赴港上市遭疯抢！公开认购超5000倍。

什么原因？OpenAI o1准确率竟下降36.3%！

【重要通知】智算技术与算力规划设计及部署方案与实践在南京开班了！！！

国产GPU龙头千卡集群大突破，性能提升近一倍！

真恶心！寒武纪又爆雷亏7个亿。（文中有惊喜）

老美远远落后！国产的AI 的「Phone Use」时刻也来了！自动帮忙开房叫外卖。

OpenAI新技术提效50倍

GLM-4-Voice：智谱新一代端到端语音大模型，同步开源。

大超越GPT-4,讯飞星火4.0 Turbo发布，首发11项技术及应用

4年亏损100亿，估值1000亿！特朗普垂涎三尺的独角兽即将香港上市。

拜登寐以求封杀的“中国独角兽”，寒武纪遭骂，谁之过？

9月全球代表作学术排名——量子物理与医学研究新突破，材料科学与跨学科创新成就

逆袭传奇！国产大模型黑马杀出重围，直逼腾讯宝座，73.56高分不得不服！

奥迪“臣服”国产智驾？特斯拉坐不住了，商汤解密背后真相！

“寒王”把黄阿姨推倒：“服不服？”

AI双杀诺贝尔奖！难道霍金预言成真了？

太硬了！忍了44年，那个男人终于憋不住了！发射！

焦虑了！大厂连夜紧急开会！GPT-5高达5万亿参数。比GPT-4强大100倍。GPT Next？

不可思议！龙芯GPU逆袭！英伟达黄急跳墙，算力提高10倍。

开创“寒武纪” 陈天石：“未来无处不在的AI应用的垫脚石”。

从“冷门”中诞生，“寒武纪”是怎样炼成的？ | 科技自立自强之路

谷歌T G6芯片曝光：台积电2nm，三星良率不足10%。TPU能否撼动苹果的地位？

英特尔斩获再获35亿美元补贴，美军国防芯片生产成关键转折点。

历史记录！甲骨文豪掷13万块Blackwell GPU，打造全球最大的算力集群。总投资200亿美元。

不为人知的秘密！OpenAI 草莓o1大模型，急需10万颗B200集群算力。

眼前一黑！国产GPU大地震！“华夏芯”白菜价破产，起拍价不到30000元！

麻雀变凤凰！联想美国市场份额达到14%，联想到底做对了什么？

《冰封王座》——中科寒武纪屁股做空。

离了大谱！国产GPU龙头轰然倒下，哭着：“我们到底做错了什么？”

扬眉吐气！国产高铁“芯片”打破50年垄断，西方慌了：立马降价

菲律宾飘了？前脚挑衅我国，后脚又想强卖5.4万吨榴莲，中方：白日做梦！

向全世界宣布！我国科学家新突破：打破欧美垄断，万元洋货大跌85%

3000万钻石豪车出圈，河南5位数高定钻排单紧俏，富豪：想要得靠抢

为什么说海光才是国产AI PC黑马？

坚决“去中国”到底！反华弹丸小邦外债470亿将破产，我方：再拆200条铁轨

宁愿报废也不卖给中国！俄方撕毁4.6万吨级核潜艇订单，背后留有一手？

正面硬刚！国产时间科技打破美日20年垄断，美媒崩溃：能不能别卷了

AI算力全场景应用，国产DCU加速卡卖疯了！

谷歌前CEO警告：AI控制权=世界霸权？中国想做老大！——失控的AI竞赛

又一个美国科技巨头趴窝，1000名精英被裁，想不到的竟然是。。。

"科技战升级！美国重拳出击：42家中企入'黑名单'总数量已超1300家。全球科技版图震动！

狂跌97%，中国造出首台1.9ATA“时光舱”，欧美哀叹：往后高价卖给谁？

两个宇航员都没回来，美国还想定月球时间？结局大快人心

靠一辆自行车,征服任正非的天才少年稚晖君！发布了0元模块化机器人。碾压特斯拉！

拦不住了？ 4款战机齐上舰，福建号“四试”蓄势待发，直捣美国家门

惹不起俄方，转身挑衅中国？弹丸小国千里来犯，6000吨战舰直逼东海

美国防部认怂！中国雷达巨头被移出黑名单，获胜手段很少人看懂

挑衅不成反自损？菲律宾又来碰瓷，被撞出1米大洞，中方发出最后通牒

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

老美远远落后！国产的AI 的「Phone Use」时刻也来了​！自动帮忙开房叫外卖。

体验

AutoGLM 技术

挑战一：「动作执行」不够精确

老美远远落后！国产的AI 的「Phone Use」时刻也来了！自动帮忙开房叫外卖。