👇关注公众号后设🌟标,不错过第一手AI新鲜观点和动态
几天前Anthropic发布了Claude的新功能computer use, 和其他大模型发布动辄评测刷榜,以及token含泪大甩卖比起来, 可以说是让人眼前一亮。
这次是让AI代理(AI agent)接管电脑帮人干活,控制电脑的鼠标和键盘,官方推出了三个demo场景,让AI自动帮人完成一些日常繁琐的任务。
第一个是当“表姐”,帮着整理excel的联系人信息表:
第二个是做“秘书”,帮着制定旅行计划排进日程表:
最后这个更厉害了,直接升级为程序猿,帮着编程生成一个90年代风格的过气网页:
这次和以往体验过的“文本版”AI代理可说是完全天壤之别, 真的感受到了“魔法”, 就好比当年在大厂上班的年代, 不会配置电脑的时候找公司的IT专家远程协助, 仿佛屏幕那头有个默默帮你干活的人,一模一样。
回头再看一下几天前Anthropic的掌门人Amodei火遍全网的帖子《Machines of Loving Grace》,才发现他已经对这个功能提前做了暗示:
它(AI代理)没有实体形态(除了存在于电脑屏幕上),但它可以通过电脑控制现有的物理工具、机器人或实验室设备;理论上,它甚至可以为自己设计机器人或设备来使用。
正当市场还在消化这个新事物的时候,仿佛心有灵犀,谷歌和国内厂商智谱也纷纷揭晓了自己的类computer use的新产品。
据The Information报道,谷歌正在开发代号为“贾维斯计划”的“计算机使用”代理,这是一个浏览器插件,最早可能在 12 月推出预览版。据The Information消息人士透露,“贾维斯”的原理和Anthropic的computer use如出一辙,都是通过识别屏幕截图,并通过操纵鼠标和键盘来完成任务。
而国内大厂智谱AI,也高调推出了AutoGLM,在安卓手机上通过简单的文字/语音指令,模拟出人类与设备的交互方式,例如在小红书/知乎/知网等平台进行检索、筛选、打开网页、阅读、并总结,一次性快速浏览多个网页等。目前还没有正式发布,还在内测过程中。
大胆预测一下,从Claude的computer use开始,终端接管类的AI代理,会逐渐成为人工智能的一条新赛道。
Computer use初体验:耳目一新的玩具
我第一时间初体验了computer use,倒是不需要像AutoGLM那样申请内测什么的,但是对于普通用户确实不是这么友好。因为考虑到让AI自动化操作电脑可能带来的风险,目前这一版computer use是运行在一个独立的docker容器中,通过Claude-3.5-Sonnet的API来实现工作的。
不得不说,这只能说是程序员友好,挡住了一大半的人,包括一大批每月贡献20美元的Claude会员。毕竟要装docker申请API-KEY什么的,没点技术底子玩不转。另一方面,程序员只要有个Claude的API-KEY,API账户里有余额,即使不是Claude会员,也可以体验。
这个体验computer use的所谓的docker容器,其实可以认为就是一个与主操作系统隔离的小操作系统,或者说叫“沙箱环境”,即使搞挂搞崩溃了,也不会影响我的MacBook,只需要通过浏览器就可以连上computer use的环境了,看起来就是一个正常的Linux图形界面。
现在给computer use一个中文任务:“帮我查一下杭州本周日的天气”, 左侧的指令窗口就不停的屏幕截图告诉AI代理下一步要做什么,用什么工具。
但是似乎computer use对中文处理并不是很在行,断句就出现了错误,比如把“天气”二字就分开了,在一个“天”字搜索那里卡了很久,但是不得不说,claude的自我纠错能力还是很强的,最后还是自己从坑里爬了出来。
处理的过程大概就是不停地屏幕截图,通过claude的API接口发给AI服务器,服务器从截图中判断现在进展到了哪一步了,下一步要做什么再发出指令到前端的computer use的AI代理进行操作,这样和云端一来一去,数据传输+模型处理,速度真的特别特别慢,这个看似很简单的任务运行了好几分钟,恨不得开个16倍速,总共截屏了14张图,最后总算是拿到了正确的结果。
另外,右侧的屏幕区域似乎还不能由人来控制鼠标和键盘,完全由代理自主控制,当然也就没办法实现很多人机协同的工作,比如人在执行任务过程中帮代理输入密码进行授权之类的(在大厂的时候和远程IT协助经常这么搞,双方都可以控制鼠标键盘)。
中间会出点小错,也能再正常不过,官方指标,评估电脑任务准确率的指标OSWorld当前还只有14.9%,而人能够达到72.36%左右。不能说高,但是比起排名第二的AI系统的7.8%,还是胜出不少。
还有不得不说,就是真贵。试用过程中,屡屡报错突破了40000 token每分钟的流量上限(看到很多Youtube博主也有这样的反馈),平均一个小任务就要花几毛到1块美金,可不是吗,这么多的截图变成token,都是银子啊。
不得不说,现在版本的computer use也就是个玩具,虽然小问题不少,computer use登场的姿势说不上完美和炸裂,但似乎隐约让人看到了AI代理应该有的样子。
是什么困住了AI代理?单语言模态
回顾过去这一年多,AI代理(特别是自主代理)似乎出道即巅峰,从最初Autogpt的风光无限,到最近的集体哑火,始终没有等来GPT时刻,反而似乎走进了死胡同。
对于AI代理的困局,各路分析不少,很多分析把原因归结为大语言模型的规划和推理能力不行,还时常出现幻觉,导致AI代理完成任务成功率不高,表现不稳定,总的来说,就是AI代理的大脑还不够强大。
把问题归结为LLM的规划和推理能力,在这条道路上一直打怪升级几乎是所有厂商的选择,但是这次Anthropic跳出来思考,可能存在一个更高维度的解法:从单语言模态到多模态,加入视觉信息(屏幕截图)。
图灵奖得主杨立昆一直对LLM(大语言模型)有个人尽皆知的质疑,那就是LLM通过文字内容获得的信息量,远远少于人类靠视觉获得的信息量:
四年内,一个孩子看到的视觉数据或数据量与在整个公开可用的互联网文本上训练的最大型语言模型一样多。这告诉我们很多事情。首先,这告诉我们,仅仅通过文本训练,我们永远不可能达到接近人类水平的智能。这是不可能发生的。
我自己也实际使用过一些AI代理框架:Langchain、crewAI,AI代理观察、推理等过程都是都是在终端中文本体现的,花花绿绿看起来让人眼晕。。
至于AI代理能够调用的工具,其实说白了就是各大平台提供的API接口,不够的话,就是由用户自己来定义工具函数。具体的可以参考LangGraph的工具箱:其实就是各大平台的API集合:
要知道,这基本上就是程序猿专属,和普罗大众基本上没一毛钱关系,每天日常的购物、写PPT、财务报销这些,也不一定有API给你用。
即使有,大部分人也都不会用。
其实回到AI代理的初心,帮助人、代替人完成任务,而人完成任务需要依赖什么样的信息输入呢?物理世界中,主要靠眼睛观察周边的世界,而在数字世界中,则是主要靠眼睛看屏幕,文字、声音等都是辅助。代替人完成任务的AI代理,不管是物理世界中的机器人,数字世界中的AI代理,有什么道理不主打视觉呢?
Computer use将人和AI代理放到同一个上下文频道上
先抛开computer use当前的成功率不说,要知道,computer use不止是简单解决了一个UI更友好的体验问题,背后是人和代理的“上下文”终于拉齐了,所以现在二者可以在一个频道上无缝交流了。
什么“上下文”呢?
任务的环境是什么?(Windows还是Mac?),有哪些工具可以用?(图形界面APP和所有终端应用组件),进展和结果是什么?(看屏幕截图呗)。
简单说,人和代理沉浸式使用同一个操作系统、看到同样的GUI界面和动态、使用同一个超大的工具集(Appstore),信息都是同步的,彼此有共同语言就不奇怪了。
反观文本式AI代理啰里八嗦一大堆文本,有效信息却衰减得厉害,日常可用工具也少得可怜。
有了共同语言,有了充分的信息共享,才有信任的基础不是吗。
现在很多人担心AI会灭绝人类,不就是担心AI在人类视线之外,AI想自己的,干自己的,背着人类自己搞一套吗?
那现在好了,AI代理就在眼皮子底下,干着主人看得懂的活,关键环节还需要主人来扫指纹输密码给授权,还有什么不放心的呢?
再开一个更大的脑洞,最近马斯克谈到Neuralink的时候也提到了类似的想法,他认为AI失控可能的风险在于人不能将自己的想法和AI充分拉齐,这体现在人机交互中,人脑的输出带宽太低了:
这听起来可能有点深奥,有点奇怪,但我实际上是在试图弄清楚如何降低数字超级智能的风险。我认为,如果我们能够提高与数字第三自我(tertiary self-指的是手机、电脑等外部电子设备)的带宽,我们就能更好地将人工智能与人类集体意志协调一致。人机共生的限制在于带宽,尤其是输出带宽。人类一天的输出带宽小于每秒一位。如果一天有86400秒,那么你产生的输出位数可能很少,有些特殊情况下可能每秒一位,但很少有人产生86400个输出位。
如果有了脑机接口加码computer use,那可以说人和AI代理更加能做到心意相通、心领神会了,这可能就是另一个故事了。
What's Next
首先,这是一个新的抢夺用户入口的os级的机会,又是一场新的入口大战。
就好比你的数字世界里,有个为你打理一切的“李公公”。如果真是这样,这一大堆APP,还不可着劲地巴结着?
当然,现在的OS厂商,微软谷歌苹果,自然会觉得这个钻石新岗位,本来就应该是属于自己的
这不,Claude发布会余音未消,谷歌就开始预告自己的“贾维斯项目”了,哪怕真实产品还没影呢,微软更过分,直接公布了自己一篇相关研究论文,这根本上就是先杀出来宣誓主权嘛。
从这个角度讲模型提供商,比如Anthropic或是智谱、要上位也还是很挑战的。
其次,这有可能将驱动新的一轮多模态模型大降价,掀起一场腥风血雨的价格战。
当前computer use的昂贵成本和延迟,也可能只是暂时的,这一切都是在于截图图片传输和多模态模型处理带来的成本,但相比真实世界的变化万千的照片而言,数字世界的屏幕截图有用信息密度小得多,压缩提效的空间不小。
另外,可能也会给设备端的小模型找到一个绝佳的应用场景,如果设备端模型经过高质量数据训练后能够完美承载computer use这一类AI代理应用,那就真的可以说在设备端站住脚了。
安全当然是一个绕不开的问题,背后的技术问题先不深究,但比较确定的一件事,是苹果iOS、Linux这一类安全级别较高的操作系统,落地computer use这一类接管型AI代理,先天会优于Windows和Android。
结语
可以说Claude开的computer use的第一炮,不能算是一个完美的新功能,但过些年头后回头看有可能是个划时代的里程碑。
因为这开始让AI代理与人有了真正实质性的交互和相互信任,也真正把变革之火烧到了上一代IT和互联网大佬的后院——OS。
好戏还在后面,等着看。
参考资料
https://www.anthropic.com/news/3-5-models-and-computer-use https://github.com/anthropics/anthropic-quickstarts/tree/main/computer-use-demo https://www.youtube.com/watch?v=4DsCtgtQlZU https://python.langchain.com/api_reference/community/agent_toolkits.html https://www.youtube.com/watch?v=lOO-2plBgw8
👇关注公众号后设🌟标,不错过第一手AI新鲜观点和动态