像人类一样感知环境、规划任务、执行动作(如使用工具/软件),最终完成特定任务,是人工智能行业的下一个前沿发展方向,也是迈向通用人工智能(AGI)、超级智能(Super Intelligence)的必由之路。
现在奇点已经临近。
我们基于在大语言模型(GLM 系列模型)、多模态模型和工具使用(Cog 系列模型)等方面的探索,在由自主智能体(Agent)驱动的人机交互新范式方面取得了一些阶段性成果:
基于CogAgent的应用:
基于AutoGLM-Web的应用:
上面这些工作,主要基于以下两项研究:
1、CogAgent:一个替代终端用户理解、使用图形用户界面(GUI),完成信息获取和功能触发的智能体,更具泛化性和拟人性,目前支持在 Windows、macOS 软件上进行自然语言交互(包括打字输入和语音输入)、截图交互和划词交互;
2、AutoGLM-Web:一个能模拟用户访问网页、点击网页的浏览器助手,可以根据用户指令在私域网站上完成高级检索并总结信息、模拟用户看网页的过程进行批量、快速的浏览并总结多个网页,结合历史邮件信息回复邮件。
目前,CogAgent 已经在智谱公司内部和部分合作伙伴中使用,AutoGLM-Web 已经通过「智谱清言」插件对外开放使用。
CogAgent 和 AutoGLM-Web 是智谱构建 GLM-OS(以大模型为中心的通用计算系统)的不同尝试,尽管基于不同的技术路线,但两者均瞄向同样一个目标:实现模仿人类的 Plan-Do-Check-Act 循环,形成自我反馈和自我提升——恰如人类自己所做的一样。
CogAgent:Our Computer Use
论文:https://arxiv.org/abs/2312.08914
Demo:http://36.1 03.203.44:7861/
代码:https://github.com/THUDM/CogVLM
模型:
Huggingface:
https://huggingface.co/THUDM/cogagent-chat-hf
魔搭社区:
https://modelscope.cn/models/ZhipuAI/cogagent-chat
CogAgent 具备视觉问答、视觉定位(Grounding)、GUI Agent 等多种能力,可以在不依赖 API 调用的条件下,实现跨应用、跨网页的功能调用来执行任务。
基于我们推出的多模态模型 CogVLM,可以在不牺牲任何 NLP 任务性能的情况下,实现视觉语言特征的深度融合。
图|CogAgent 的模型架构
在现有研究基础上,我们力求突破。目标是以CogAgent为核心,打造一个能全面理解并使用通用GUI的模型,实现现有应用到新型交互界面的自动转换。
发布于CVPR (2024年6月)
目前,CogAgent 已经可以通过串联GUI信息的收集、处理、分发流程,提供多轮、跨应用、上下文相关的服务,来协助用户处理以下事项:
1、用户“不想做”的事:包括重复繁琐的GUI操作(如批量信息收集、会议预定)和复杂认知活动(如界面内容总结)。
2、用户“不知道”的事:涵盖困难或不熟悉的GUI操作(如首次使用应用或功能)及超出用户认知能力的任务(如界面内容翻译)。
此外,我们还为CogAgent开发了“虚拟屏幕”功能,确保在信息搜集过程中不干扰用户使用电脑,并避免采集主屏幕信息,以保护用户隐私。
整体而言,相比于传统方法,CogAgent 能够感知多模态交互信息、并据此执行对应的 GUI 任务,同时打破信息间的隔离,串联信息的收集、处理和分发,极大地降低了终端用户的交互负担。
一句话操控电脑的时代,即将到来。