智谱放大招：大模型从「Chat」走向「Act」

科技 2024-11-29 18:33 北京

只有对话功能的 Chatbot，正在进化为「有手、有脑、有眼睛」的自主 Agent。

作者 | 连冉
编辑 | 郑玄

每次不知道吃什么的时候，都会羡慕古代的富贵人家，不用自己想，比你自己还懂你的管家就安排的明明白白——今天随着 AI 的发展，这样的场景正在成为现实。

业内普遍认为，2025 年将是 Agent 爆发之年。Gartner 近期将 agentic AI 列为 2025 年十大技术趋势之一，并预测 2028 年至少有 15% 的日常工作决策将由 agentic AI 自主完成。

与 GenAI（生成式人工智能）不同，Agent 是目标驱动型的，能够完全执行工作流程，适应、学习、迭代、与其他系统和人类协作，并端到端地完成任务。在智谱 CEO 张鹏看来，Agent 可以看作是大模型通用操作系统 LLM-OS 的雏形。

此前在 10 月，智谱就推出了自主智能体——AutoGLM。AutoGLM 不仅能够模拟用户的屏幕操作，如点击手机应用，还能在浏览网页时有效辅助用户，涵盖了日常生活中广泛需用的多个领域，包括社交、网购、地图导航和火车票订购等。

今天，在其最新的「Agent OpenDay」活动中，智谱展示了 AutoGLM 多项进展，展示了大模型技术如何将「对话」从简单的互动提升为具有高度自主性的操作系统：可自主完成超过 50 步的复杂操作，并能跨应用程序协作执行任务；支持数十个网站的「无人驾驶」；此外，基于视觉多模态模型的 GLM-PC 也进入内测阶段，致力于探索通用智能体技术，实现像人类一样操控计算机。

在 Agent OpenDay 现场，智谱 CEO 张鹏通过在现场下达语音指令，让 AutoGLM 面对面建群，给现场数百位嘉宾发送了总共 2 万元的微信红包，并且演示了手机远程指挥电脑自动发送文件。

AutoGLM ：挑战变更复杂了，

也「变强」了

在活动上，智谱重点展示了其最新升级的 AutoGLM，它能够自主执行复杂且多步骤的任务，跨应用处理需求，甚至在全程无人干预的情况下自动操作多平台。

AutoGLM 能够高效完成超长任务链，比如呀在购买火锅食材的场景中，AutoGLM 无需人工干预即可执行 54 步任务，且速度超越人工操作；支持跨应用任务执行，用户仅需发出简短指令，系统便能自动调度并完成多个应用间的任务；简化了操作流程，用户可通过简单语音命令启动复杂操作，如一句「点咖啡」便能自动完成从选择到购买咖啡的全部流程。

为了提升个性化体验，AutoGLM 还引入了「随便模式」，通过分析用户偏好和历史行为，主动为用户做出决策，进一步优化使用体验。

同时，智谱宣布 AutoGLM 启动大规模内测，并将尽快上线成为面向 C 端用户的产品；「10 个亿级 APP 免费 Auto 升级」的计划也已启动；支持核心场景和核心应用的 AutoGLM 标品 API，则会在两周内上线到智谱 maas 开放平台试用。

此外，智谱清言插件也上线了 AutoGLM 功能，支持搜索、微博、知乎、Github 等数十个网站的「无人驾驶」。

智谱清言插件上线 AutoGLM 功能｜图片来源：智谱

GLM-PC ：

一次关于 PC「无人驾驶」的探索

除了手机和浏览器，智谱还带来了基于 PC 的自主 Agent——GLM-PC。这是智谱在「无人驾驶」PC 领域的技术探索，基于其多模态模型 CogAgent 开发。

GLM-PC 目前已经开始第一阶段的内测，提供多项核心功能，包括帮助用户预定和参与会议，并自动发送会议总结；支持文档处理，如下载、发送、理解和总结文档；在指定平台（如微信公众号、知乎、小红书等）进行关键词搜索并完成总结；具备远程和定时操作功能，支持远程发指令并执行电脑任务，或在设定时间自动完成任务；此外，GLM-PC 还引入「隐形屏幕」模式，能够在用户工作时自主完成任务，释放屏幕使用空间。

「无人驾驶」电脑｜视频来源：智谱

GLM-PC 的设计理念是模拟人类的电脑使用方式——眼睛观察屏幕、脑海中进行规划，再通过手部操作执行指令。

凭借这一设计，GLM-PC 能够完成复杂的 PC 任务，甚至可以自主学习和执行所有为人类设计的应用，表现出跨平台的强大能力。这是一种系统级、跨平台的能力，不依赖于 HTML、API，具备更高的能力上限。

不过，智能体在执行复杂业务流程时，通常需要调动大量数据和应用程序，但由于许多网站和 APP 的 API 缺乏统一标准，这就会让企业在集成智能体时面临一些挑战。

对于这一点，智谱 AutoGLM 技术负责人刘潇指出，AutoGLM 通过图形化用户交互界面来解决这一问题，而非依赖传统的API调用。

与传统 API 集成容易因应用更新而导致失效不同，AutoGLM 模拟人类的操作方式，只要应用界面保持用户可理解并且易于使用，智能体就能够在该界面上顺利执行任务，从而规避了 API 标准化不足带来的问题。

由于 PC 任务的复杂性，目前 GLM-PC 还需要用户输入精准指令，距离全面替代人工办公还有一定差距。但随着技术的不断进步，GLM-PC 的能力将进一步增强，未来有望为用户提供更为高效、直观的 PC 操作体验。

大模型应用新阶段：从 Chat 走向 Act

关于最近热议的 Scaling Law 是否放缓，张鹏认为，Scaling Law 放缓只是一个表面现象，背后可能存在更深层次的原因。

他指出，尽管在语言处理领域可能接近人类认知的极限，但仍有可能通过大量数据和大规模处理突破这一瓶颈。在多模态应用和智能体等领域，Scaling 仍然有很大的探索空间。

在张鹏看来，计算量和有效信息可能是关键因素，预训练阶段的放缓并不意味着整体进展停滞。事实上，后训练阶段仍然存在 Scaling 效果，尽管这种效果不再像预训练时那样简单地依赖数据量和参数量的增加，而是更加复杂和精细。

这种突破正是当前 AI 技术发展的核心之一——如何将大模型从单纯的「理解」层面提升到「行动」的能力。大模型的价值不应只是作为 chatbot 存在，它的真正价值在于其强大的「理解」与「预测」能力。

这种能力使得大模型能够深度解析和理解人类的复杂语义、情感以及抽象概念，进而进行精准的推理和预测。如何将这些强大的能力从单纯的文本交互中解放出来，应用到更广泛、更实际的场景中，就要从现在的「Chat」走向「Act」。

Act，即行动，代表着大模型技术从理解和预测到实际行动的跨越。这不仅意味着模型能够根据输入的信息作出反应，更意味着它能在更复杂的动态环境中进行决策，解决问题，甚至创造新的价值。

在张鹏看来，「现阶段，AutoGLM 相当于在人与应用之间添加一个执行的调度层，很大程度上改变人机的交互形式。更重要的是，我们看到了 LLM-OS 的可能，基于大模型智能能力（从 L1 到 L4 乃至更高），未来有机会实现原生的人机交互。将人机交互范式带向新的阶段。」

AutoGLM 和 GLM-PC 是智谱对 AI 智能操作系统的一次重要尝试。它们的出现源于智谱在大语言模型、多模态模型、逻辑推理和工具使用等方面的技术积累。

从 2023 年 4 月的 AgentBench 开始，到 8 月的 CogAgent 模型，智谱针对 AutoGLM，和 GLM-PC 的模型 CogAgent 的研发工作进行了一年半的时间。

与 OpenAI 有所不同，智谱定义了大模型发展的五个阶段：L1 语言能力、L2 逻辑能力（多模态能力）、L3 使用工具的能力、 L4 自我学习能力、 L5 探究科学规律。

智谱定义的大模型发展五个阶段｜图片来源：智谱

理论上，随着 Agent 能力持续提升，它们将能够驾驭越来越多的应用程序，适配多样化的操作系统，并执行日益复杂的自主操作。这被认为是大模型通用操作系统 LLM-OS 的初步形态。

为此，智谱已在芯片、操作系统 OS 、模型侧和应用 app 侧，进行了一段时间的探索。

在终端层面，智谱已经和手机厂商、PC 厂商实现深度合作，在 AIPC、智能助手 Agent 等领域有诸多成果。智谱也与高通、英特尔等芯片厂商展开密切协作，联合调教端侧大模型，以发挥最新芯片的性能。

通过端侧芯片性能优化和端云一体架构，Agent 不仅在操作系统 OS 和应用 app 上实现用户体验变革，还能将其推广到各类智能设备上，实现基于大模型的互联互通。

这种扩展，具体到当下的各种设备，从手机到电脑，再到汽车、眼镜、家居和各种 edge side 设备，理论上是没有边界限制的。

随着 Agent 技术的发展，AI 与人类的互动模式将不再局限于简单的对话，未来的机器将不仅能听懂人类的指令，还能够主动思考、决策并执行任务。

2025 年或许会成为 Agent 技术爆发的关键年份，Agent 将进一步改变我们与机器的关系，带来更加智能化、个性化和高效的生活与工作方式。

*头图来源：智谱

本文为极客公园原创文章，转载请联系极客君微信 geekparkGO

极客一问

一句话操作电脑和手机，

你心动了吗？

热点视频

雷军谈初代小米手机：卖多少无所谓，好产品要打磨。

点赞关注极客公园视频号，

观看更多精彩视频

极客公园

用极客视角，追踪你最不可错过的科技圈。欢迎同步关注极客公园视频号👇

最新文章

智谱放大招：大模型从「Chat」走向「Act」

售价百万鸿蒙尊界 48 小时预订 2108 台；快手停用「仅退款」；马斯克 xAI 将推出独立 App | 极客早知道

市值超 300 亿，中国版 Waymo 美股 IPO 了

小马智行美股敲钟；攻击大模型训练，前实习生被字节起诉并索赔 800 万元；拼多多放宽商家「自动跟价」限制 | 极客早知道

《永夜星河》掀起追剧潮，成为商业价值最高的剧集之一，恒星引力做对了什么？

烧光了 1000 亿，欧洲版「宁德时代」是如何破灭的？

华为 Mate70 发布，5499 元起；国行 Switch 将停服；支付宝推「碰一下开门」方便骑手进小区 | 极客早知道

华为首款百万豪车正式亮相，「打」完 BBA，又要对标劳斯莱斯？

5499 元起，华为 Mate70 系列能再掀起华为风暴吗？

特斯拉「急了」，紧急降价 1 万冲刺年底销量

离了 AI，车企不会说话了

网易云音乐喊话 QQ 音乐：停止剽窃式「创新」； Model Y 年底降价1万元；蔚来发内部信：2026实现盈利｜极客早知道

你们先找工作吧，我先去面试老板了

叮咚！您有一条创新大会招募消息来啦～

我，机器人艺术家，一幅画卖 700 万

云端之旅，从大湾区到全球的物流传奇

大选后马斯克身家增至 3480 亿美元；欧洲议会：中欧将就电动车关税争端达成协议；孙东旭重回东方甄选直播间 | 极客早知道

可口可乐全 AI 广告，只有 30s，却给人留下终生阴影

华为徐直军：已有超过15000个鸿蒙原生应用和元服务上架；微信PC版内测支持发布朋友圈；小米精英驾校预计下月开业 | 极客早知道

几十年后，披头士用 AI 发了一首「新歌」

比亚迪否认收购蔚来；新功能上线，微信或迎「史诗级瘦身」；传特斯拉推动赛博皮卡入华 | 极客早知道

拿下游戏界「人民选择奖」的《黑神话：悟空》，年底还有更多惊喜

OpenAI 与全世界最新锐的团队，想要用 AI 完成对浏览器的「复兴」

贝壳三季度财报：推动生态优化及运营提效，GTV 达 7,368 亿元

特朗普考虑设职位负责加密货币政策；阿里整合国内外电商业务，蒋凡任 CEO；红米更新品牌标识，樊振东任品牌大使 | 极客早知道

「半价理想」，为何成为今年增长最快的车企？

马斯克加码诉讼 OpenAI ；可灵 AI 用户超 500 万；淘宝上线「去谈价」功能 | 极客早知道

权威榜单登顶国内第一，阶跃星辰Step-2是如何炼成的

SpaceX星舰第六次试飞成功，特朗普现场观看；余承东首秀华为Mate 70 Pro+真机；索尼收购老头环开发商｜极客早知道

AI 最好的载体，为什么只能是 AR 眼镜？

和水滴聊聊，怎么用大模型造一个接近 99% 真人水平的「Sales Agent」

美国司法部勒令谷歌出售 Chrome；卢伟冰：小米15涨价但销量好于14；《黑神话：悟空》获TGA四项提名 | 极客早知道

直击 2024 广州车展吉利展台，全球新一代新能源技术究竟新在哪？

OPPO 智能体平台助力 C4，加速智能体生态建设

比亚迪 30 周年，王传福：信仰技术、敢想敢干是真正的「商业机密」

减重版司美格鲁肽正式在中国上市；爆马斯克或调整 X 算法支持保守派；英伟达新款 AI 芯片存在服务器过热问题 | 极客早知道

大模型褪去野蛮生长后，百度的新思考

川普赢了，马斯克能当上 AI 部部长吗？

雷军：SU7 Ultra 10% 预定用户是女性；马斯克再谈约架扎克伯格；月之暗面发新模型对标 OpenAI o1 |极客早知道

涂鸦中东探险记：不要以为中东人保守，他们最喜欢新鲜东西

马斯克 xAI 融资 60 亿美元，估值达500亿美元；郑州市共享单车暂停运营；卡西欧将推「手表戒指」，919元 | 极客早知道

对话百度智能云：LLM两年，我们找到了做AI应用的正确范式

2025 年最大的风口：AR 与 AI 谁才是智能眼镜的未来？

百度推出的自由画布会成为AI创作新物种吗？

马斯克将成「马部长」，Altman 主动示好；曝字节将早于 Sora 上线视频生成模型；B站上市后首次季度盈利 | 极客早知道

扩招 3000 余人，腾讯「瘦身」结束？

10 万台SU7 下线，雷军微博秀睡姿；华为首款百万豪车曝光；国区 Windows 正式支持安卓 App | 极客早知道

INS 排名第一的网红餐厅：有美食照、有故事、有好评，只是没有这个餐厅

2025 假期出炉，取消超长调休；李子柒消失 3 年正式复出；奇瑞首次年内出口 100 万辆车 | 极客早知道

日调用一年涨 30 倍，发布 AI 眼镜、无代码工具和图像 RAG，李彦宏：AI 应用时代到来

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉