启明星 | 智谱AI推出GLM首个产品化智能体AutoGLM,迎接AI的“Phone Use”时刻

企业   2024-10-29 10:59   上海  


日前,基于GLM技术团队在语言模型、多模态模型和工具使用方面的努力和研究成果,启明创投投资企业智谱AI推出GLM第一个产品化的智能体(Agent)—— AutoGLM,只需接收简单的文字/语音指令,它就可以模拟人类操作手机。

相比于电脑,手机陪伴用户的时间更长,离生活更近。如果说“Computer Use”开启了人机交互的新范式,那么“Phone Use”则更进一步,解锁更多应用的可能性,让AI真正惠及每一个人。


除了视频中展示的朋友圈点赞写评论、购买某一款历史订单产品、购买火车票、点外卖等,AutoGLM的应用场景还远不止于此。理论上,通过对GUI的深刻理解,AutoGLM可以完成人类在可视化电子设备(电脑、手机、平板……)上能做的任何事。

它不受限于简单的任务场景或API调用,也不需要用户手动搭建复杂繁琐的工作流,操作逻辑与人类类似,真正做到在日常生活、工作中辅助人类。

01/

体验


用户可以通过以下方法,扫描图中二维码,体验AI的“Phone Use”时刻:

1. 在Chrome或Edge安装“智谱清言”插件,来体验AutoGLM-Web。“智谱清言”插件是一个能模拟用户访问网页、点击网页的浏览器助手,大模型可以根据用户指令在网站上自动完成高级检索、总结与内容生成。


2. 在手机端,首批开放给部分清言用户(暂时仅支持安卓系统),欢迎提交内测申请。值得一提的是,智谱AI也与荣耀等手机厂商基于AutoGLM开展深度合作。



AI的“Phone Use”时刻,让智谱AI在通往通用人工智能(AGI)的道路上,再次向前迈了一小步。

02/

AutoGLM技术


AutoGLM基于智谱AI自研的“基础智能体解耦合中间界面”和“自进化在线课程强化学习框架”,克服了大模型智能体任务规划和动作执行存在的能力拮抗、训练任务和数据稀缺、反馈信号稀少和策略分布漂移等智能体研究和应用难题,加之自适应学习策略,能够在迭代过程中不断改进、持续稳定地提高自身性能。就像人在成长过程中,不断获取新技能。

AutoGLM解决了大模型作为智能体时的两个关键挑战:

挑战一:“动作执行”不够精确


训练大模型智能体的一大难题,在于如何让模型学会精准地操作屏幕上显示的元素。端到端训练联合训练“动作执行”和“任务规划”能力,受制于轨迹数据获取成本高昂,数据总量严重不足,导致需要高精度的动作执行能力训练不充分。

为了解决这一问题,AutoGLM引入了“基础智能体解耦合中间界面”设计,将“任务规划”与“动作执行”两个阶段通过自然语言中间界面进行解耦合,实现了智能体能力的极大提升。例如,在手机上点外卖,需要点击“提交订单”按钮时,对比传统和“中间界面”方案如下:


挑战二:“任务规划”不够灵活

另一个主要挑战在于,GUI智能体训练轨迹数据极其有限和成本高昂。而且在面对复杂任务和真实环境时,智能体需要具备灵活的即时规划和纠正能力。这并非能通过例如模仿学习(Imitation Learning)和有监督微调(SFT)等传统大模型训练方法所能轻易获得。为此,智谱AI以Web浏览器作为实验环境,研发了一种“自进化在线课程强化学习框架”,以在真实在线环境中,从头开始学习和提升大模型智能体在Web和Phone环境中的能力。

通过引入自进化学习策略,模型不断自我考察、鞭策、提升。通过课程强化学习方法,该框架根据智能体当前迭代轮次的能力水平,动态调整学习的任务难度,以最大程度利用模型潜能。而通过KL散度控制的策略更新以及智能体置信度经验回放,智谱AI减轻和避免了迭代训练中出现模型遗忘先前学习任务的问题。基于该方法训练的开源版GLM-4-9B,就可以在WebArena-Lite评测基准中相对GPT-4o提升超过160%,达到总体43%的任务成功率。

通过综合应用智谱AI自研的“基础智能体解耦合中间界面”和“自进化在线课程强化学习框架”策略,AutoGLM在Phone Use和Web Browser Use上都取得了大幅的性能提升。例如,在AndroidLab评测基准上,AutoGLM就显著超越了GPT-4o和Claude-3.5-Sonnet的表现。


在WebArena-Lite评测基准中,AutoGLM更是相对GPT-4o取得了约200%的性能提升,大大缩小了人类和大模型智能体在GUI操控上的成功率差距。


AutoGLM现以通过安卓应用的方式,在真实的安卓手机上支持多个应用的自动化任务执行。在简单任务的人工评测中,AutoGLM表现令人满意。


请复制下方网址在浏览器打开,获取AutoGLM的更多信息。

https://xiao9905.github.io/AutoGLM


往 期 回 顾


启明星 | 智谱AI携手高通,GLM-4V多模态技术落地端侧
启明·硬科技 | 启明创投周志峰:生成式AI产业将从超级模型转向超级应用
启明星 | 多家启明创投投资企业入选2024年上海市专精特新中小企业名单及创新型中小企业名单(第二批)

启明创投成立于2006年。目前,启明创投旗下管理11只美元基金,7只人民币基金,已募管理资产总额达到95亿美元。自成立至今,专注于投资科技及消费(Technology and Consumer, T&C)、医疗健康(Healthcare)等行业早期和成长期的优秀企业。

截至目前,启明创投已投资超过530家高速成长的创新企业,其中有超过200家分别在美国纽交所、纳斯达克,香港交易所,上交所及深交所等交易所上市,或通过并购等方式退出,有70多家企业成为行业公认的独角兽或超级独角兽企业。

启明创投投资企业中,很多已经成长为各自领域中最具影响力的公司,包括小米集团(01810.HK)、美团(03690.HK)、哔哩哔哩(NASDAQ:BILI, 09626.HK)、知乎(NYSE:ZH, 02390.HK)、石头科技(688169.SH)、优必选(09880.HK)、文远知行(NASDAQ:WRD)、甘李药业(603087.SH)、泰格医药(300347.SZ, 03347.HK)、再鼎医药(NASDAQ:ZLAB, 09688.HK)、康希诺生物(688185.SH, 06185.HK)、Schrödinger(NASDAQ:SDGR)、惠泰医疗(688617.SH)、诺辉健康(06606.HK)、三友医疗(688085.SH)、艾德生物(300685.SZ)、贝瑞基因(000710.SZ)、神州细胞(688520.SH)、圆心科技、康缔亚、信念医药、壁仞科技等。


启明创投
成立于2006年,启明创投以卓越的投资业绩在中国风险投资界享有盛誉。
 最新文章