Agent交互新体验。
作者|赵健
想象这样一个场景:在你的手机上有一个AI助手,只要你发出一个指令,它就可以在微信上给老板的朋友圈点赞并写评论,在淘宝上购买某一款历史订单产品,在携程上预订酒店,在12306上购买火车票,在美团上点外卖......
这一场景已经不再是想象,而是变成了现实。
今天,在ChatGPT发布两周年的前一天,智谱举办OpenDay,发布了用AI替代人类执行任务的三款智能体Agent,分别是面向手机的phone use——AutoGLM,面向电脑的compute use——GLM PC,以及面向网页的GLM-Web能力。
在此之前,业内的Agent有很多进展,但更多是以普通人不好理解的技术框架的形态出现。
今天,智谱真正将这背后的技术落地为人人可以感知的产品。用一句话就能操作电脑和手机的时代即将到来了。
1.一句话操作电脑和手机
什么是AutoGLM?
只需接收简单的文字/语音指令,它就可以模拟人类操作手机。理论上,通过对GUI的深刻理解,AutoGLM可以完成人类在可视化电子设备(电脑,手机,平板……)上能做的任何事。它不受限于简单的任务场景或API调用,也不需要用户手动搭建复杂繁琐的工作流,操作逻辑与人类类似,真正做到在日常生活、工作中辅助人类。
这并非智谱第一次发布相关能力。2024年1月,智谱在技术开放日上发布了All Tools工具;2024年10月,智谱发布第一个产品化的Agent——AutoGLM 。本次OpenDay,智谱在Agent 技术方面的布局继续拓展。
「甲子光年」也在第一时间体验了AutoGLM。
AutoGLM有点像Siri,但是Siri最多帮你打开某个App,而AutoGLM则可以进一步像人类那样操作手机。只需要发出一个相对简单的指令,AutoGLM就会自动去执行。
比如,可以让AutoGLM订外卖点咖啡:
也可以让AutoGLM订火车票、机票,甚至可以在不同的App之间比价:
目前,AutoGLM能够操作的App如下:
AutoGLM是一个非常早期的技术,目前还有一些明显的不足之处。
第一,每一个步骤之间的间隔延迟较大,可能要停留好几秒的时间,达不到人类操作般丝滑。不过,随着技术的进步,这种延迟并不是一个很大的技术难题。
第二,AutoGLM有时会被手机弹窗干扰。比如点咖啡时,美团App可能会推送“天降红包”弹窗,AutoGLM有时不由自主地点击去,从而会打断任务。
第三,AutoGLM有时也会出错。比如当我让它订火车票时,它会询问我选择的车次。当我告诉它选择用时最短的一列时,它并没有执行该指令,而是选择了用时更久的车次。
AutoGLM还有很大的提升空间。但不得不说,它可能已经表现出了贾维斯那样的AI助手的早期雏形。
在被AutoGLM丝滑的“类人”操作震惊到的同时,很快另一种感受也随之而来,那就是“担忧”。如果AI助手可以自动操作我的手机,是否会造成数据或隐私泄漏的风险?
对此,智谱表示,AutoGLM严格尊重用户隐私,所有页面信息的获取均围绕用户向AutoGLM主动发起的任务进行,AutoGLM本身并不会主动获取用户的个人隐私信息,对于授权范围以外的任务会主动提示用户获取用户同意,涉及交易、支付等重要操作的步骤也会向用户进一步询问是否执行。每次关闭应用在后台再次启动AutoGLM功能,都会重新向用户申请无障碍权限,用户想退出使用的,也可以选择在手机设置页面进行手动关闭。
隐私与数据安全是一道红线。如果这一问题被很好地解决,那么可以想象的是,未来的AI应用与智能设备将充满想象力,AI技术也将真正惠及千万家。
2.从Chat到Act
在ChatGPT横空出世两年后,我们终于看到了一个不止于写诗作画,而是真正在手机或电脑上带来人机交互体验革新的AI Agent的样子。
智谱CEO张鹏表示,AutoGLM展现了大模型从对话(Chat)走向操作(Act),从生成式AI迈向代理式AI的演进趋势。
AI Agent是过去一年非常火的话题。Gartner已将代理式AI列为2025年十大技术趋势之一,并预测到2028年,至少有15%的日常工作决策将由代理式Al自主完成。
值得关注的是,在大模型技术到来之前,没有任何方法能够替代人类实现智能的与机器交互的方式。
过去的键盘、鼠标、多点触控这样的物理交互形式,到dos、图形界面和iOS这样的操作系统,本质上还是让人来适应机器。以至于今天用户仍然需要花费大量的时间去学习形形色色等我软件操作界面。现实中复杂的企业软件界面让人无所适从,跨多个的应用来完成复杂的工作流,这中间有大量的重复机械性交互,但却依然必须都由人来手动操作。
去年大模型出现之后,微软第一时间发布了Copilot,即副驾驶形态,是人机交互改变的第一步。但Copilot就是最终答案吗?或许,它只是一种过渡形态。
2024年3月,红杉资本在其AI Ascent主题活动上预测,2024年人工智能趋势的第一条就是:Copilot将逐渐向Agent转变,也就是从“副驾驶”转向“主驾驶”。
过去一年里,我们看到业内的科技公司都在Agent上积极布局,包括苹果的Apple Intelligence,谷歌的Jarvis,Anthropic的Computer Use,智谱的AutoGLM,以及OpenAI即将发布的Operator等等。
在技术进步的推动下,今天大模型加持的Agent可以做到像人一样,理解界面、规划任务、使用工具、完成任务,甚至能实现人类的PDCA(Plan-Do-Check-Act)循环,自我提升。总的来说,Agent已经初步具备了模仿人类与物理世界互动的能力。
如何理解Agent?在智谱看来,“机器智能”的本质在于对世界的理解能力以及预测能力,但理解与预测不限于ChatGPT式的语言文本,也不限于Sora式的图像视频,它还可以预测“操作序列”——操作序列的预测就是AI Agent,它代表了一种未来真正的人机交互方式,就是让机器来适应人。
Agent是通往AGI的重要一步。智谱定义了大模型发展的五个阶段,与OpenAI的定义有所不同,其中,L1代表语言能力,L2代表逻辑思维能力与多模态能力,L3代表使用工具(Agent)的能力,L4代表自我学习的能力,L5代表全面超越人类、探究科学规律的能力。
3.智能设备的Agent未来
(封面图来源:智谱)
END.