首发体验| AI学会发红包了!国产Agent一句话控制手机电脑,我看到了「摸鱼自由」的未来

科技   2024-11-29 13:05   广东  
2024 年,AI 圈最火的关键词非 Agent 莫属。
从 GPTs 到能够自主行动的 computer use,再到最近 AI 初创公司 /dev/agents 凭借 Agent 操作系统估值 5 亿美元,厂商们都在寻找 AI 下一个明确的落地方向。
而在国内,上个月智谱 AI 也带来了自己的答案——AutoGLM。
如果掏出手机、打开应用、点击搜索、输入关键词...完成这些操作往往要经过四五步,而有了 AI,这些操作真就变成了一句话的事儿。
到了今天,智谱 AI 在北京也推出了一系列囊括多终端的 Agent 产品。
用户只需输入指令,GLM 即可理解指令,规划任务,然后识别界面中的窗口、图形、文字等,并且实现自动操作。
在 Agent OpenDay 现场,智谱 AI CEO 张鹏更是利用 AutoGLM 面对面建群,给数百位与会者发送了微信红包,以及线上的口令红包。

AutoGLM:移动端(暂时向 Android 开放),可自主执行超 50 步的长步骤操作,适用于比价、导航、超话打卡等复杂操作

GLM-PC:PC 端(暂时向 Mac 系统开放),适用于解放打工人双手的生产力工具,手机也能远程操作电脑

AutoGLM-Web:网页端,支持百度搜索、知乎、Github 等数十个网站的无人驾驶
AI 无处不在, Agent 同样也无处不在。换言之,替我们思考我们做事,Agent 正在重新定义智能设备。
附上体验跳转链接:

AutoGLM:https://agent.aminer.cn/

GLM-PC:https://cogagent.aminer.cn/home

AutoGLM-Web:https://new-front.chatglm.cn/webagent/landing/index.html?channel=ads\_news\_openday
别人家的 AI 都在聊天,这些 AI 却能帮我摸鱼
之前的文章中,我们已经体验过智谱 AutoGLM 是如何接管我们的手机。
全自动发微信、逛淘宝……以往我们要自己动手的事情,现在都被 AutoGLM 包圆。并且,这位 AI 打工人今天还升级了,本事妥妥地见长。
我们也提前体验上了这些最新的 AI 工具。
我们的消费观是可以买贵的,但不能买贵了。
比如说,前不久,《人类简史》的作者尤瓦尔·赫拉利出版了《智人之上》,那为什么不让 AI 帮我在拼多多和淘宝上逛逛,看看哪家划算。

我只需要动动嘴,AI 就帮我跑断腿,不过如果仔细看,把书名弄混还是有点小瑕疵的。
不用担心你在嘈杂环境下不方便说话。
AutoGLM 还配了个「静音模式」,打字也能发号施令。而且在执行任务之前,AutoGLM 也给用户留了 3 秒后悔时间,让你随时能喊停,并调整执行任务。
追星族有个好消息,全新升级的 AutoGLM 连超话签到打卡都能搞懂。
以给李行亮的超话打卡为例,只需对着 AutoGLM 悬浮窗输入我的指令,AI 就会全程代劳,而我只需要遇到敏感信息时「露个面」就行,一键告别错过打卡的焦虑。

对了,这些日常任务还能设置快捷指令,一键搞定。
可不要小看这个功能,作为天选打工人,下午定时点的咖啡堪称「续命神器」,不需要每天反复设置,只需要保留下单咖啡的指令,妥妥省去不少功夫。
选择随便模式,所有步骤则是让 AI 为你决策,开启咖啡盲盒,但当涉及到发送,下单付款等重要操作时,AutoGLM 会主动将选择权重新交回给你。
跨应用协作是本次升级的重大亮点。
苹果牌 AI 已经向我们展示了系统级 AI 打通应用墙的重要性,而现在借助 AutoGLM,我们同样能够实现类似的效果。
比如我让 AI 去小红书搜个蒜蓉菜心的教程,接着成功转发朋友圈。

新增的 AI 导航功能也很实用。
想去广州塔?轻轻和 AutoGLM 说一声,AI 就把你安排得明明白白。

比较遗憾的是,AutoGLM 仅支持 Android 系统。但智谱即日起也将放开 AutoGLM 的用户内测名额,预计尽快面向广大用户开放。
智谱清言的插件 AutoGLM-Web 即日也同样起新上线 AutoGLM 功能。支持百度搜索、微博、知乎、Github 等数十个网站的无人驾驶。
在官方演示 demo 中,没有任何人干预,AutoGLM-Web 自动完成了「在百度搜索芒果 TV,打开再见爱人,播放最新一集,发弹幕」等一连串任务。
给王心凌微博点赞
从手机到电脑,让 AI 替我当打工人
与 AutoGLM 相比,GLM-PC 则在电脑端提供了更多面向职场场景的功能体验。
GLM-PC 当前专为搭载 M 系列芯片的 Mac 电脑打造,其中以 M1 和 M3 系列设备最为推荐。在对话框中输入你想进行的操作,GLM-PC 就会评估工具并决定操作计划。
当然,遇到敏感操作时,GLM-PC 就会自动暂停,等待用户操作或者进行确认。
想了解 B 站热门内容?GLM-PC 三下五除二就帮你找到「入站必刷」第一条,帮你省去不少漫无目的的划水时间。

要约张三开会?发条微信的事儿,交给 AI。甚至在有页面的遮挡的情况下,也能精准定位到微信的搜索框里。

它还能帮你预定腾讯会议,顺带把会议邀请发给参会人。建议完事后,把这套「操作秘籍」收藏起来,通过流程化来提升工作效率。
作为编辑,我个人最爱的功能是让它帮我梳理海外的 AI 新闻。发出指令后,AI 就会打开浏览器,输入网址,然后一份清晰的新闻总结就能到手。

对了,如果你是刚从 Win 转到 Mac 系统的新人,你多少会因为系统的变化弄到手忙脚乱。
现在 GLM-PC 就是你的「救命稻草」,无论是调整显示模式,还是其他设置,将你的诉求通通交给它。把麻烦的事情甩给 AI,把快乐留给自己,这才是人生赢家的正确打开方式。
GLM-PC 还有一个堪称「王炸」的功能。
先在 GLM-PC 设置中打开「挂起模式」,然后在手机上通过验证码登陆「https://cogagent.aminer.cn/m」,你的手机甚至可以远程遥控电脑。
具体来说,你可以远程给 GLM-PC 发指令消息,让 GLM-PC 进行电脑操作。GLM-PC 每执行一步就会返回操作时的屏幕截图,而如果有敏感操作,则会等用户进行确认后再操作。
在现场的演示中,张鹏也通过手机上 GLM-PC 网页对 cogagent 发布指令,成功通过电脑端的微信发送文件。
可以说,从 Chat 走向 Act,当 AI 真正开始解决日常琐事,它就从玩具变成了生产力工具。而这或许才是 AI 技术最该有的样子。
Phone Use 时刻
在这两个月手机圈密集发布了多款新品,其中有一个趋势值得留意。
虽然 AI 手机还没得到消费者的广泛认同,系统级 AI 成了各家厂商 OS 主打的亮点,其实这也是一种 Agent 落地普及的前兆。
无论是 vivo 的蓝心小 V 和发布会展示可以 AI 订餐的 「Phone GPT」,华为鸿蒙的小艺和意图框架,还是荣耀的 YOYO 智能体,都和智谱今天发布的 Agent 的本质一样:
让 AI 模仿人类的 Plan-Do-Check-Act(计划-执行-检查-行动)循环 ,从而像人类那样去操作设备。
就像智谱 AI CEO 张鹏今天的发布会提到,目前的 Agent 能力更像是在用户和应用之间,增加一个智能的调度层,链接所有应用甚至是所有设备。
这可以看做是大模型通用操作系统 LLM-OS的一种雏形,智谱也将这套 Agent 交互称为 GLM-OS 的构建,将对人机交互形式产生极大的影响。
OpenAI 创始成员、AI 技术大牛 Andrej Karpathy 也曾多次谈到大语言模型操作系统(LLM OS)。
他认为大模型某种程度来说就是一种新的计算机和操作系统,它可以连接各种软件和硬件,以及所有模态信息组成的外设,并通过函数调用执行各种任务。
传统操作系统中,你需要围绕 CPU 构建一堆外设,比如鼠标和键盘、磁盘存储、以及缓存空间等。

而在 LLM OS 中,大模型本身就是中央处理器。I/O 外设也不再是鼠标和键盘,因为 LLM 可以兼容更多模态的数据输入和输出。同时大模型调用的外部工具也将从传统软件升级为智能体工具。
其中跨应用的操作是非常关键的一环,这意味着 Agent 能实现更加复杂的自主连贯操作,也可能走向真正的商业化落地。

关注 AI 第一新媒体,率先获取 AI 前沿资讯和洞察

我们在年初曾判断大模型将成为智能手机新的操作系统,自然用户界面(Natural user interface, NUI )将逐步替代现有的图形用户界面(GUI)。
至于各家互联网公司提供的服务能否打通,可能是未来实现这种交互最大的障碍。但无论是智能手机还是应用,都终将是人类发展史上一个阶段性产物。

目前的 Agent 交互还在早期阶段,在行业内 Scaling Law 遭遇瓶颈的背景下, Agent 要怎么能成为真正的生产力工具,承担更高比例的工作决策?

智谱 AutoGLM 技术负责人刘潇在接受 APPSO 采访时表示,预训练肯定还要继续,但对于算法和数据的训练会有一套新的逻辑。

智谱 AI CEO 张鹏也告诉 APPSO,团队对于 Scaling Laws 的空间相对乐观,希望在新的范式和生态下去探索更多可能性。

实际上,今年很多厂商不约而同用自动驾驶来形容 AI 终端的智能程度, OpenAI也 将 AI 划分为 L1-L5 五个等级。
与 OpenAI 有所不同,智谱将大模型发展的五个阶段定义为:L1 语言能力、L2 逻辑能力(多模态能力)、L3 使用工具的能力、 L4 自我学习能力、 L5 探究科学规律。
张鹏认为,大模型已经初步具备了人类与现实物理世界互动的部分能力。「Agent 将极大地提升 L3 使用工具能力,同时开启对 L4 自我学习能力的探索」。
从 Phone Use、Computer Use、Car Use 到 All Device Use,大模型的思考能力和 Agent 交互逐步影响我们使用智能设备的方式。
让 AI 发微信和点赞现在看起来实用意义有限。但如同 AlphaGo 无论下棋多强都不会对社会带来多少影响,Google DeepMind 的 AlphaFold 可以预测几乎所有蛋白质结构,帮助大量疾病的治疗和研究。
背后的范式改变才是撬动人类生活方式更新的杠杆,Agent 让大模型从 Chat 走向 Act,所谓 AI 终端的形态才逐渐浮现,而非只是一个命名的改变。



APPSO
AI 第一新媒体,「超级个体」的灵感指南。 #AIGC #智能设备 #独特应用 #Generative AI
 最新文章