近日,北京智谱华章科技有限公司宣布推出其基于GLM大模型技术打造的首个产品化智能体——AutoGLM。
这款智能体旨在通过接收简单的文本或语音指令来模拟人类操作手机,从而实现多种日常任务的自动化处理。
AutoGLM的应用范围广泛,涵盖了社交媒体互动、在线购物、旅行预订等多个领域。
例如,用户可以使用AutoGLM在微信上为特定朋友圈动态点赞并留言。
在淘宝上重购历史订单中的商品。
在携程上预定酒店住宿。
在12306平台上购买火车票。
或是在美团上订购外卖餐食等。
据智谱方面介绍,AutoGLM不仅能够处理上述提到的具体任务,其潜在的应用场景更加丰富。
理论上,只要是对GUI(图形用户界面)有深刻理解,AutoGLM几乎可以完成人们在各种可视化电子设备上所做的一切事情。
它无需受限于单一的API调用或复杂的工作流程设置,而是通过模仿人类的操作逻辑来辅助人们的日常生活与工作。
为了使AutoGLM能够更好地服务于用户,智谱团队开发了“基础智能体解耦合中间界面”与“自进化在线课程强化学习框架”。
前者解决了“动作执行”的精确性问题,后者则提高了“任务规划”的灵活性。
通过这两个关键技术手段,AutoGLM克服了大模型智能体在任务规划与动作执行方面的固有问题,包括能力拮抗、训练数据不足、反馈信号缺乏及策略分布漂移等。
在实际操作层面,AutoGLM通过自然语言中间界面将任务规划与动作执行分离,使得智能体能够更有效地理解和执行用户的命令。
此外,“自进化在线课程强化学习框架”允许AutoGLM在真实环境中不断学习并提升自身性能,确保其在迭代过程中持续改进。
目前,AutoGLM已经在多个评测基准上展示了卓越的表现,包括AndroidLab与WebArena-Lite等。
相较于其他同类产品,AutoGLM在成功率上有显著提高。
例如,在WebArena-Lite评测基准上,AutoGLM相对于GPT-4o提升了约200%,达到了较高的任务成功率。
为了让用户能够亲身体验AutoGLM带来的便利,智谱提供了多种体验方式。
用户可以在Chrome或Edge浏览器上安装名为“智谱清言”的插件来体验AutoGLM-Web版本。
AutoGLM 现以通过安卓应用的方式,在真实的安卓手机支持多个应用上的自动化任务执行,在简单任务的人工评测中,AutoGLM 表现令人满意。
针对安卓系统的手机用户,AutoGLM也开放了内测申请,并与荣耀等手机厂商展开深度合作。
值得注意的是,尽管AutoGLM已经展示出强大的功能与潜力,但其背后的技术细节仍有待进一步揭示。
AutoGLM的推出标志着AI技术在移动端应用上的一个重要里程碑,也为通向通用人工智能(AGI)的道路增添了新的可能性。
直达链接:https://new-front.chatglm.cn/webagent/landing/index.html