在今天的CNCC大会上,智谱发布了一个重量级产品——AutoGLM。
只需接收简单的文字/语音指令,它就可以模拟人类操作手机。理论上,AutoGLM 可以完成人类在电子设备上可以做的任何事,它不受限于简单的任务场景或 API 调用,也不需要用户手动搭建复杂繁琐的工作流,操作逻辑与人类类似。
只看文字,你也许无法想象。我放两个视频,看完你就知道了。
淘宝:「复购一个牙膏」;
美团:「点一杯阿瑞的生椰拿铁」;
携程:「定个酒店」;
12306:「定个火车票」;
微信:「帮我发个定位给老婆&给老板朋友圈点个赞并写个彩虹屁评论」。
我看完的感受是:嗯???贾维斯???
从以前开始,智谱就一直在做模型工具属性的提升工作。他们希望能把模型工具的能力边界做大。于是乎,他们给手机做了个基于AutoGLM的「phone use」。
当然,现阶段它能做到的事情也就是视频里出现过的。基本都是单个APP内的操作。跨APP的协同暂时还做不到,但我相信要不了多久就能实现。
除了手机操作外,网页上也是「AUTO」!
智谱有个浏览器插件,点进去有一个高级模式。我在里面选了站内搜索,接着去了小红书,给了一段提示词:帮我找下深圳最近一个月最火的美食攻略。(因为我周末准备整点好吃的)
然后,它真的在帮我一边找一边筛!它这个大概的流程就是:
输入搜索信息“深圳最火的美食攻略”
判定筛选条件为“综合”,大概觉得这个比较合适最火
更改搜索信息,以我提示词为准
挨个打开前面的笔记,对图片和文字做识别
给出最终总结内容
虽然这个最终的输出结果见仁见智,但在我这算是七十分。因为它最终推送的店面是我去过的,而且吃起来还不错。
现阶段这个插件的站内搜索只支持小红书、知乎和知网。
实际上,AutoGLM其实是基于情感语音模型GLM-4-Voice研发的。智谱对这个模型有一个评价:GLM-4-Voice 的出现是智谱在迈向 AGI 的道路上迈出的最新一步。
而智谱对于AGI这件事,也给出了自己的答案以及思考。
L1 语言能力,L2 逻辑与思维能力,L3 工具能力大家是比较有共识的。
智谱认为 L4 级人工智能意味着 AI 可以实现自我学习、自我反思和自我改进。L5 则意味着人工智能全面超越人类,具备探究科学规律、世界起源等终极问题的能力。
通过这个图,我们也能比较明显看出,AI其实已经解锁了很多。比如AI文本、AI视频、AI音乐。
AutoGLM 可以看作是智谱在 L3 工具能力方面的探索和尝试,以推动人机交互范式实现新转变,为构建 GLM-OS ,即以大模型为中心的通用计算系统打好基础。
大模型的工具能力最终应该像人类一样,感知环境、规划任务、执行动作(如使用工具/软件),最终完成特定任务。
〔写在最后〕
打败你的不是AI,而是比你更善于使用AI的人。
我整理了一份全网最全的【AIGC知识库】,其中包含了100+AI绘画课程,以及AI音乐、AI副业、ChatGPT实战等一系列AIGC教程供大家参考学习。
点这里👇关注我,记得标星哦~