智谱AI发布AutoGLM,解锁了人机交互更多的可能性

文摘   科技   2024-10-25 22:15   广东  
| 还记得钢铁侠里的贾维斯吗?它似乎要来了!

在今天的CNCC大会上,智谱发布了一个重量级产品——AutoGLM。

只需接收简单的文字/语音指令,它就可以模拟人类操作手机。理论上,AutoGLM 可以完成人类在电子设备上可以做的任何事,它不受限于简单的任务场景或 API 调用,也不需要用户手动搭建复杂繁琐的工作流,操作逻辑与人类类似。

只看文字,你也许无法想象。我放两个视频,看完你就知道了。

淘宝:「复购一个牙膏」;

美团:「点一杯阿瑞的生椰拿铁」;

携程:「定个酒店」;

12306:「定个火车票」;

微信:「帮我发个定位给老婆&给老板朋友圈点个赞并写个彩虹屁评论」。

我看完的感受是:嗯???贾维斯???

从以前开始,智谱就一直在做模型工具属性的提升工作。他们希望能把模型工具的能力边界做大。于是乎,他们给手机做了个基于AutoGLM的「phone use」。

当然,现阶段它能做到的事情也就是视频里出现过的。基本都是单个APP内的操作。跨APP的协同暂时还做不到,但我相信要不了多久就能实现。

除了手机操作外,网页上也是「AUTO」!

智谱有个浏览器插件,点进去有一个高级模式。我在里面选了站内搜索,接着去了小红书,给了一段提示词:帮我找下深圳最近一个月最火的美食攻略。(因为我周末准备整点好吃的)

然后,它真的在帮我一边找一边筛!它这个大概的流程就是:

  • 输入搜索信息“深圳最火的美食攻略”

  • 判定筛选条件为“综合”,大概觉得这个比较合适最火

  • 更改搜索信息,以我提示词为准

  • 挨个打开前面的笔记,对图片和文字做识别

  • 给出最终总结内容

虽然这个最终的输出结果见仁见智,但在我这算是七十分。因为它最终推送的店面是我去过的,而且吃起来还不错。

现阶段这个插件的站内搜索只支持小红书、知乎和知网。

实际上,AutoGLM其实是基于情感语音模型GLM-4-Voice研发的。智谱对这个模型有一个评价:GLM-4-Voice 的出现是智谱在迈向 AGI 的道路上迈出的最新一步。

而智谱对于AGI这件事,也给出了自己的答案以及思考。

L1 语言能力,L2 逻辑与思维能力,L3 工具能力大家是比较有共识的。

智谱认为 L4 级人工智能意味着 AI 可以实现自我学习、自我反思和自我改进。L5 则意味着人工智能全面超越人类,具备探究科学规律、世界起源等终极问题的能力

无论是AI这个概念刚提出来时,还是现在,有一个问题一直被提及:“AI什么时候能达到人脑一般,并超越人脑,成为超级AI?”
智谱的回答是:“我们大致也将在未来相当长的一段时间处于42%这个阶段。
*42 这个百分比灵感来自《银河系漫游指南》,是关于生命、宇宙以及任何事情的终极答案。

通过这个图,我们也能比较明显看出,AI其实已经解锁了很多。比如AI文本、AI视频、AI音乐。

AutoGLM 可以看作是智谱在 L3 工具能力方面的探索和尝试,以推动人机交互范式实现新转变,为构建 GLM-OS ,即以大模型为中心的通用计算系统打好基础。

大模型的工具能力最终应该像人类一样,感知环境、规划任务、执行动作(如使用工具/软件),最终完成特定任务。

〔写在最后〕

前几天,Claude 3.5迎来升级版,一句话遥控电脑,我们看到了computer use。
今天,我们看到了phone use。
说实话,有一种起猛了的感觉。
无论是computer use,还是phone use,无一不是证明了:智能时代,真的快要来了。
而当你拥有一个完全能够全自动工作手机的时候,你会拿来做什么?

你都看到这了,不如,随个赞、点个在看呗~
感谢你一路到看这。

打败你的不是AI,而是比你更善于使用AI的人。

我整理了一份全网最全的【AIGC知识库】,其中包含了
100+AI绘画课程,以及AI音乐、AI副业、ChatGPT实战等一系列AIGC教程供大家参考学习。

关注【ACG彼方】公众号,回复【知识库】即可获取“知识库”。

点这里👇关注我,记得标星哦~





ACG彼方
彼方学院(Animation Comics Games Academy 简称:ACG )是一个拥有专业团队,面向全球动漫游戏数字媒体元宇宙的从业者及爱好者、高校、研发机构等相关行业,提供多样化、定制化服务的综合平台。
 最新文章