今天，把电脑交给大模型

学术 2024-10-24 11:53 北京

像人类一样感知环境、规划任务、执行动作（如使用工具/软件），最终完成特定任务，是人工智能行业的下一个前沿发展方向，也是迈向通用人工智能（AGI）、超级智能（Super Intelligence）的必由之路。

现在奇点已经临近。

我们基于在大语言模型（GLM 系列模型）、多模态模型和工具使用（Cog 系列模型）等方面的探索，在由自主智能体（Agent）驱动的人机交互新范式方面取得了一些阶段性成果：

基于CogAgent的应用：

基于AutoGLM-Web的应用：

上面这些工作，主要基于以下两项研究：

1、CogAgent：一个替代终端用户理解、使用图形用户界面（GUI），完成信息获取和功能触发的智能体，更具泛化性和拟人性，目前支持在 Windows、macOS 软件上进行自然语言交互（包括打字输入和语音输入）、截图交互和划词交互；

2、AutoGLM-Web：一个能模拟用户访问网页、点击网页的浏览器助手，可以根据用户指令在私域网站上完成高级检索并总结信息、模拟用户看网页的过程进行批量、快速的浏览并总结多个网页，结合历史邮件信息回复邮件。

目前，CogAgent 已经在智谱公司内部和部分合作伙伴中使用，AutoGLM-Web 已经通过「智谱清言」插件对外开放使用。

CogAgent 和 AutoGLM-Web 是智谱构建 GLM-OS（以大模型为中心的通用计算系统）的不同尝试，尽管基于不同的技术路线，但两者均瞄向同样一个目标：实现模仿人类的 Plan-Do-Check-Act 循环，形成自我反馈和自我提升——恰如人类自己所做的一样。

CogAgent：Our Computer Use

早在去年 12 月，我们便提出 CogAgent：

论文：https://arxiv.org/abs/2312.08914
Demo：http://36.1 03.203.44:7861/
代码：https://github.com/THUDM/CogVLM
模型：
Huggingface：
https://huggingface.co/THUDM/cogagent-chat-hf
魔搭社区：
https://modelscope.cn/models/ZhipuAI/cogagent-chat

CogAgent 具备视觉问答、视觉定位（Grounding）、GUI Agent 等多种能力，可以在不依赖 API 调用的条件下，实现跨应用、跨网页的功能调用来执行任务。

基于我们推出的多模态模型 CogVLM，可以在不牺牲任何 NLP 任务性能的情况下，实现视觉语言特征的深度融合。

图｜CogAgent 的模型架构

在现有研究基础上，我们力求突破。目标是以CogAgent为核心，打造一个能全面理解并使用通用GUI的模型，实现现有应用到新型交互界面的自动转换。

发布于CVPR （2024年6月）

目前，CogAgent 已经可以通过串联GUI信息的收集、处理、分发流程，提供多轮、跨应用、上下文相关的服务，来协助用户处理以下事项：

1、用户“不想做”的事：包括重复繁琐的GUI操作（如批量信息收集、会议预定）和复杂认知活动（如界面内容总结）。

2、用户“不知道”的事：涵盖困难或不熟悉的GUI操作（如首次使用应用或功能）及超出用户认知能力的任务（如界面内容翻译）。

此外，我们还为CogAgent开发了“虚拟屏幕”功能，确保在信息搜集过程中不干扰用户使用电脑，并避免采集主屏幕信息，以保护用户隐私。

整体而言，相比于传统方法，CogAgent 能够感知多模态交互信息、并据此执行对应的 GUI 任务，同时打破信息间的隔离，串联信息的收集、处理和分发，极大地降低了终端用户的交互负担。

一句话操控电脑的时代，即将到来。

AutoGLM-Web：帮你网上冲浪

长久以来，人们已经习惯于通过搜索框来查找资料。

我们能否提出需求后，让大模型帮我们去执行所有网页操作？

我们最近研发了 AutoGLM 模型，该模型能够在仅接收简单的文字/语音指令，就可以模拟人类与电子设备的交互方式，完成给定任务。

例如在GitLab上，搜索项目，并自动给项目的merge request进行评论；在小红书/知乎/知网等平台进行检索、筛选、打开网页、阅读并总结；一次性快速浏览多个网页等。

AutoGLM-Web 基于「自进化在线课程强化学习框架 WEBRL」，克服了训练任务稀缺、反馈信号稀少和策略分布漂移等网页智能体研究和应用难题，加之自适应学习策略，能够在迭代过程中不断改进、持续稳定地提高自身性能。

据我们所知，WEBRL 是第一个能够让 LLM 网页智能体在在线网络环境中从初始化开始就进行有效强化学习的系统性框架。

理论上，基于 WEBRL 的强大能力，AutoGLM-Web 可以完成人类在电子设备上可以做的任何事，它不受限于简单的任务场景或 API 调用，也不需要用户手动搭建复杂繁琐的工作流，操作逻辑与人类类似，真正做到在日常，生活、工作中辅助人类。

作为其能力的体现，我们将 AutoGLM-Web 嵌入到「智谱清言」插件对外开放使用。

http://mp.weixin.qq.com/s?__biz=Mzg4MDE3OTA5NA==&mid=2247592616&idx=1&sn=ed09a3b402101591cd1850075ca207ef

学术头条

致力于学术传播和科学普及，重点关注AI4Science/大模型等前沿科学进展。

深度访谈｜AI 如何改变预测科学？看看统计学家怎么说

AI斩获6枚金牌！华为Kaggle大师级智能体诞生，自主解决数据科学难题

OpenAI官方指南：12条实用建议，手把手教学生用ChatGPT写作

Stability AI出官方教程了，带你轻松玩转Stable Diffusion 3.5

哈佛、MIT提出「精度感知」Scaling Laws；首个金融LLM综合双语基准｜大模型日报

OpenAI首位投资者《时代》刊文：AI将重新定义「人类的意义」

华为科学智能体 Agent K v1.0已达 Kaggle 大师水平；Meta团队提出自一致性偏好优化ScPO｜大模型日报

终于，AlphaFold3 开源了！代码免费下载，可用于非商业用途

OpenAI大改下代大模型方向，scaling law撞墙？AI社区炸锅了

清华、国科大、智谱团队提出LongReward：利用AI反馈改进长文本大语言模型

创纪录！首幅人形机器人绘制作品拍出108万美元；王慧文回归美团，带队探索AI应用｜一周热门

智谱「新清影」是怎样炼成的？CogVideoX+CogSound 技术详解

AI 的「phone use」竟是这样练成的，清华、智谱团队发布 AutoGLM 技术报告

清华、北大团队推出「安卓智能体」训练评估新框架 AndroidLab

Nature重磅：AI化学家再升级！大幅提升实验效率，推动化学合成进入“智能化”新阶段

研究实锤：别让大模型「想」太多，OpenAI o1准确率竟下降36.3%

清华、北大团队推出「安卓智能体」训练评估框架AndroidLab；Meta提出视频生成加速方法AdaCache｜大模型日报

科研人神器！接入5000万篇正版文献，知乎直答「专业搜索」太能打了

Meta 推出全新视频扩散模型 MarDini；周靖人团队：扩散 Transformer 的上下文 LoRA｜大模型日报

NeurIPS 2024｜清华、加州理工重磅研究：强化自训练方法 ReST-MCTS*，让大模型持续“升级”

港大打造 LightRAG：让大模型 RAG 高效又便宜

深夜重磅！ChatGPT可以“AI搜索”了，但并不完美

OpenAI最新研究：「打假高手」大模型事实性基准SimpleQA来了，已开源

小语言模型SLM综述｜大模型论文日报

大模型已过时、小模型SLM才是未来？苹果正在研究这个

超出人类思维的「系统0」：AI正在创造一种新的思维方式吗？

中国AI大模型出海，如何应对美国管制？最新报告给出了5个建议｜附下载链接

Nature封面：“揭穿”一切！Google DeepMind为AI大模型添加了“隐形指纹”

困扰18亿人的“全球干旱”，被AI更准确预测了

OpenAI又有高管走了，还发了篇长文

前OpenAI研究员：我必须离开；a16z创始合伙人：当前AI发展就像“卖大米”｜一周热门

刚刚，智谱推出情感语音模型 GLM-4-Voice，懂你的情绪，人人可用

不止 computer use，AI 的「phone use」也来了

今天，把电脑交给大模型

清华、腾讯团队提出预训练语言模型知识蒸馏框架 MiniPLM｜大模型论文日报

来了！Stability AI 推出 Stable Diffusion 3.5

深夜重磅！Anthropic 推出 Claude 3.5 Sonnet 升级版和 Claude 3.5 Haiku

刚刚，OpenAI最强竞对官宣：大模型可以使用电脑了

DeepMind创始人最新访谈：今年的诺贝尔奖，就像是AI的分水岭

微软提出新型注意力机制SeerAttention；清华、智谱团队提出“预训练蒸馏”｜大模型日报

OpenAI o1 模型推理模式的比较研究｜大模型论文日报

哈佛重磅突破！AI确定17000多种疾病候选药物，罕见病“孤儿药”不再遥远？

132年未解开的李雅普诺夫函数谜题，被Symbolic Transformer攻克了

Meta被斥：他们污染了“开源”一词；李开复：零一万物绝不放弃预训练模型｜一周热门

“AI调解员”登上Science！Google DeepMind打造，“劝架”水平远超人类

Meta提出思维偏好优化TPO；谷歌推出可穿戴基础模型LSM｜大模型论文日报

美国FDA：警惕AI大模型带来的未知问题，亟需监管创新

3B 超越 7B，Mistral AI 推出端侧模型 Ministral 3B 和 8B

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉