Claude在computer use开的第一炮，可能炸出一条AI代理突围的新赛道

文摘 2024-11-01 09:14 浙江

👇关注公众号后设🌟标，不错过第一手AI新鲜观点和动态

几天前Anthropic发布了Claude的新功能computer use，和其他大模型发布动辄评测刷榜，以及token含泪大甩卖比起来，可以说是让人眼前一亮。

这次是让AI代理（AI agent）接管电脑帮人干活，控制电脑的鼠标和键盘，官方推出了三个demo场景，让AI自动帮人完成一些日常繁琐的任务。

第一个是当“表姐”，帮着整理excel的联系人信息表：

第二个是做“秘书”，帮着制定旅行计划排进日程表：

最后这个更厉害了，直接升级为程序猿，帮着编程生成一个90年代风格的过气网页：

这次和以往体验过的“文本版”AI代理可说是完全天壤之别，真的感受到了“魔法”，就好比当年在大厂上班的年代， 不会配置电脑的时候找公司的IT专家远程协助，仿佛屏幕那头有个默默帮你干活的人，一模一样。

回头再看一下几天前Anthropic的掌门人Amodei火遍全网的帖子《Machines of Loving Grace》，才发现他已经对这个功能提前做了暗示：

它（AI代理）没有实体形态（除了存在于电脑屏幕上），但它可以通过电脑控制现有的物理工具、机器人或实验室设备；理论上，它甚至可以为自己设计机器人或设备来使用。

正当市场还在消化这个新事物的时候，仿佛心有灵犀，谷歌和国内厂商智谱也纷纷揭晓了自己的类computer use的新产品。

据The Information报道，谷歌正在开发代号为“贾维斯计划”的“计算机使用”代理，这是一个浏览器插件，最早可能在 12 月推出预览版。据The Information消息人士透露，“贾维斯”的原理和Anthropic的computer use如出一辙，都是通过识别屏幕截图，并通过操纵鼠标和键盘来完成任务。

而国内大厂智谱AI，也高调推出了AutoGLM，在安卓手机上通过简单的文字/语音指令，模拟出人类与设备的交互方式，例如在小红书/知乎/知网等平台进行检索、筛选、打开网页、阅读、并总结，一次性快速浏览多个网页等。目前还没有正式发布，还在内测过程中。

大胆预测一下，从Claude的computer use开始，终端接管类的AI代理，会逐渐成为人工智能的一条新赛道。

Computer use初体验：耳目一新的玩具

我第一时间初体验了computer use，倒是不需要像AutoGLM那样申请内测什么的，但是对于普通用户确实不是这么友好。因为考虑到让AI自动化操作电脑可能带来的风险，目前这一版computer use是运行在一个独立的docker容器中，通过Claude-3.5-Sonnet的API来实现工作的。

不得不说，这只能说是程序员友好，挡住了一大半的人，包括一大批每月贡献20美元的Claude会员。毕竟要装docker申请API-KEY什么的，没点技术底子玩不转。另一方面，程序员只要有个Claude的API-KEY，API账户里有余额，即使不是Claude会员，也可以体验。

这个体验computer use的所谓的docker容器，其实可以认为就是一个与主操作系统隔离的小操作系统，或者说叫“沙箱环境”，即使搞挂搞崩溃了，也不会影响我的MacBook，只需要通过浏览器就可以连上computer use的环境了，看起来就是一个正常的Linux图形界面。

现在给computer use一个中文任务：“帮我查一下杭州本周日的天气”，左侧的指令窗口就不停的屏幕截图告诉AI代理下一步要做什么，用什么工具。

但是似乎computer use对中文处理并不是很在行，断句就出现了错误，比如把“天气”二字就分开了，在一个“天”字搜索那里卡了很久，但是不得不说，claude的自我纠错能力还是很强的，最后还是自己从坑里爬了出来。

处理的过程大概就是不停地屏幕截图，通过claude的API接口发给AI服务器，服务器从截图中判断现在进展到了哪一步了，下一步要做什么再发出指令到前端的computer use的AI代理进行操作，这样和云端一来一去，数据传输+模型处理，速度真的特别特别慢，这个看似很简单的任务运行了好几分钟，恨不得开个16倍速，总共截屏了14张图，最后总算是拿到了正确的结果。

另外，右侧的屏幕区域似乎还不能由人来控制鼠标和键盘，完全由代理自主控制，当然也就没办法实现很多人机协同的工作，比如人在执行任务过程中帮代理输入密码进行授权之类的（在大厂的时候和远程IT协助经常这么搞，双方都可以控制鼠标键盘）。

中间会出点小错，也能再正常不过，官方指标，评估电脑任务准确率的指标OSWorld当前还只有14.9%，而人能够达到72.36%左右。不能说高，但是比起排名第二的AI系统的7.8%，还是胜出不少。

还有不得不说，就是真贵。试用过程中，屡屡报错突破了40000 token每分钟的流量上限（看到很多Youtube博主也有这样的反馈），平均一个小任务就要花几毛到1块美金，可不是吗，这么多的截图变成token，都是银子啊。

不得不说，现在版本的computer use也就是个玩具，虽然小问题不少，computer use登场的姿势说不上完美和炸裂，但似乎隐约让人看到了AI代理应该有的样子。

是什么困住了AI代理？单语言模态

回顾过去这一年多，AI代理（特别是自主代理）似乎出道即巅峰，从最初Autogpt的风光无限，到最近的集体哑火，始终没有等来GPT时刻，反而似乎走进了死胡同。

对于AI代理的困局，各路分析不少，很多分析把原因归结为大语言模型的规划和推理能力不行，还时常出现幻觉，导致AI代理完成任务成功率不高，表现不稳定，总的来说，就是AI代理的大脑还不够强大。

把问题归结为LLM的规划和推理能力，在这条道路上一直打怪升级几乎是所有厂商的选择，但是这次Anthropic跳出来思考，可能存在一个更高维度的解法：从单语言模态到多模态，加入视觉信息（屏幕截图）。

图灵奖得主杨立昆一直对LLM（大语言模型）有个人尽皆知的质疑，那就是LLM通过文字内容获得的信息量，远远少于人类靠视觉获得的信息量：

四年内，一个孩子看到的视觉数据或数据量与在整个公开可用的互联网文本上训练的最大型语言模型一样多。这告诉我们很多事情。首先，这告诉我们，仅仅通过文本训练，我们永远不可能达到接近人类水平的智能。这是不可能发生的。

我自己也实际使用过一些AI代理框架：Langchain、crewAI，AI代理观察、推理等过程都是都是在终端中文本体现的，花花绿绿看起来让人眼晕。。

至于AI代理能够调用的工具，其实说白了就是各大平台提供的API接口，不够的话，就是由用户自己来定义工具函数。具体的可以参考LangGraph的工具箱：其实就是各大平台的API集合：

要知道，这基本上就是程序猿专属，和普罗大众基本上没一毛钱关系，每天日常的购物、写PPT、财务报销这些，也不一定有API给你用。

即使有，大部分人也都不会用。

其实回到AI代理的初心，帮助人、代替人完成任务，而人完成任务需要依赖什么样的信息输入呢？物理世界中，主要靠眼睛观察周边的世界，而在数字世界中，则是主要靠眼睛看屏幕，文字、声音等都是辅助。代替人完成任务的AI代理，不管是物理世界中的机器人，数字世界中的AI代理，有什么道理不主打视觉呢？

Computer use将人和AI代理放到同一个上下文频道上

先抛开computer use当前的成功率不说，要知道，computer use不止是简单解决了一个UI更友好的体验问题，背后是人和代理的“上下文”终于拉齐了，所以现在二者可以在一个频道上无缝交流了。

什么“上下文”呢？

任务的环境是什么？（Windows还是Mac？），有哪些工具可以用？（图形界面APP和所有终端应用组件），进展和结果是什么？（看屏幕截图呗）。

简单说，人和代理沉浸式使用同一个操作系统、看到同样的GUI界面和动态、使用同一个超大的工具集（Appstore），信息都是同步的，彼此有共同语言就不奇怪了。

反观文本式AI代理啰里八嗦一大堆文本，有效信息却衰减得厉害，日常可用工具也少得可怜。

有了共同语言，有了充分的信息共享，才有信任的基础不是吗。

现在很多人担心AI会灭绝人类，不就是担心AI在人类视线之外，AI想自己的，干自己的，背着人类自己搞一套吗？

那现在好了，AI代理就在眼皮子底下，干着主人看得懂的活，关键环节还需要主人来扫指纹输密码给授权，还有什么不放心的呢？

再开一个更大的脑洞，最近马斯克谈到Neuralink的时候也提到了类似的想法，他认为AI失控可能的风险在于人不能将自己的想法和AI充分拉齐，这体现在人机交互中，人脑的输出带宽太低了：

这听起来可能有点深奥，有点奇怪，但我实际上是在试图弄清楚如何降低数字超级智能的风险。我认为，如果我们能够提高与数字第三自我（tertiary self-指的是手机、电脑等外部电子设备）的带宽，我们就能更好地将人工智能与人类集体意志协调一致。人机共生的限制在于带宽，尤其是输出带宽。人类一天的输出带宽小于每秒一位。如果一天有86400秒，那么你产生的输出位数可能很少，有些特殊情况下可能每秒一位，但很少有人产生86400个输出位。

如果有了脑机接口加码computer use，那可以说人和AI代理更加能做到心意相通、心领神会了，这可能就是另一个故事了。

What's Next

首先，这是一个新的抢夺用户入口的os级的机会，又是一场新的入口大战。

就好比你的数字世界里，有个为你打理一切的“李公公”。如果真是这样，这一大堆APP，还不可着劲地巴结着？

当然，现在的OS厂商，微软谷歌苹果，自然会觉得这个钻石新岗位，本来就应该是属于自己的

这不，Claude发布会余音未消，谷歌就开始预告自己的“贾维斯项目”了，哪怕真实产品还没影呢，微软更过分，直接公布了自己一篇相关研究论文，这根本上就是先杀出来宣誓主权嘛。

从这个角度讲模型提供商，比如Anthropic或是智谱、要上位也还是很挑战的。

其次，这有可能将驱动新的一轮多模态模型大降价，掀起一场腥风血雨的价格战。

当前computer use的昂贵成本和延迟，也可能只是暂时的，这一切都是在于截图图片传输和多模态模型处理带来的成本，但相比真实世界的变化万千的照片而言，数字世界的屏幕截图有用信息密度小得多，压缩提效的空间不小。

另外，可能也会给设备端的小模型找到一个绝佳的应用场景，如果设备端模型经过高质量数据训练后能够完美承载computer use这一类AI代理应用，那就真的可以说在设备端站住脚了。

安全当然是一个绕不开的问题，背后的技术问题先不深究，但比较确定的一件事，是苹果iOS、Linux这一类安全级别较高的操作系统，落地computer use这一类接管型AI代理，先天会优于Windows和Android。

结语

可以说Claude开的computer use的第一炮，不能算是一个完美的新功能，但过些年头后回头看有可能是个划时代的里程碑。

因为这开始让AI代理与人有了真正实质性的交互和相互信任，也真正把变革之火烧到了上一代IT和互联网大佬的后院——OS。

好戏还在后面，等着看。

参考资料

https://www.anthropic.com/news/3-5-models-and-computer-use
https://github.com/anthropics/anthropic-quickstarts/tree/main/computer-use-demo
https://www.youtube.com/watch?v=4DsCtgtQlZU
https://python.langchain.com/api_reference/community/agent_toolkits.html
https://www.youtube.com/watch?v=lOO-2plBgw8

👇关注公众号后设🌟标，不错过第一手AI新鲜观点和动态

往期精选

http://mp.weixin.qq.com/s?__biz=MzA5NTU4NDM2MA==&mid=2650003176&idx=1&sn=0859ee3c3c7ab2ff166e22ba487e92c2

瓜哥AI新知

紧追AI业界一手观点、访谈、动态，点滴构建AI底层认知

万字全文｜哈萨比斯等四位诺奖得主接受DeepMind专访：AI在前沿科学领域快速落地、仍然需要人类科学家提出好问题

硬核｜O1之父和XAI联创解析推理时间计算和自动提示工程、AI从压缩机器时代过渡到思考机器时代

AI新闻早报｜英伟达Q3营收351亿美元同比增94%、谷歌DeepMind发布AlphaQubit量子纠错系统

深度｜谷歌前CEO施密特普林斯顿专访：大模型放缓无关紧要，重头戏在代理领域，非计算机专业学AI应该学Python

演讲图文｜Scale AI CEO亚历山大阐述AGI路上的五大挑战：数据墙、评估过拟合、代理不可靠、芯片和能源、国际竞争

AI新闻早报｜谷歌Gemini AI新增记忆功能、乌镇峰会阿里AI基础设施获领先科技奖

演讲图文｜吴恩达揭秘AI Fund与企业客户落地AI实战步骤、揭示五大值得关注的AI发展趋势

奥特曼简短接受哈佛商学院专访：关于AI监管、治理、公平

AI新闻早报｜微软Ignite大会全面升级Copilot、阿里发布Qwen2.5-Turbo

万字图文｜微软CEO纳德拉在Ignite2024主题演讲：发布Copilot UI+设备+技术栈三大平台战略

速递｜微软VP在Ignite大会中接受专访：微软AI代理已满足企业级应用、提供预定义的智能体+1800模型+1400连接器

全程图文｜黄仁勋在SC24大会宣布英伟达AI集群产品路线图、全行业应用、与谷歌合作量子计算

深度｜资深AI产品总监谈如何成为top5%AI产品经理：能用AI工具动手构建真实产品、拥有超凡能量、能在迷茫中享受探索的乐趣

AI新闻早报｜英伟达Blackwell芯片过热问题导致交付延迟

AI新闻早报｜月之暗面发布Kimi新数学模型k0-math，多项指标超O1

深度｜Perplexity用户增长主管揭秘用户暴涨的奥秘：专注用户留存、重视口碑传播、慎用付费推广

观点｜微软AI CEO苏莱曼：我们正处于AI技术过剩、技术突破多于实际应用，2025实现AI记忆

深度｜艾尔街资本《AI现状报告》作者专访：OpenAI和闭源模型占有压倒优势、投资英伟达比投资竞对赚钱得多

AI新闻早报｜马斯克再次起诉OpenAI及其合作伙伴微软

全程图文｜黄仁勋日本峰会主题演讲&对话孙正义：孙正义痛悔英伟达股票卖早了、与软银合作建设25艾字节AI超算

AI新闻早报｜OpenAI将于2024年1月推出名为“Operator”的自主AI代理

3万字实录｜谷歌前CEO施密特：AI时代公司经营的根本问题是如何用AI加速工作、AI带来剩余财富但改变不了人类的自私

2万字硬核｜Anthropic研究员克里斯：模型可解释性如同研究生物学、什么会刺激模型撒谎或作恶？

AI新闻早报｜Nvidia与软银深度合作开发日本最强超算、通义千问离职骨干因竞业被索巨额赔偿

3万字全文｜Anthropic安全对齐主管阿曼达接受莱克斯专访：人应该如何与AI对话、AI与人类会产生亲密关系吗？

红杉｜实时AI游戏Oasis掌门人迪恩：追逐裸金属级别的极致性能、定制专属CUDA内核和模型架构

AI新闻早报｜百度世界大会发布检索增强文生图技术iRAG和无代码开发工具“秒哒”

深度｜黄仁勋对话高盛CEO：每天睡3小时推动Q4批量交付Blackwell、将数百兆瓦级数据中心改造为全液冷

深度｜Perplexity CEO谈AI搜索快速迭代：产品试用代替评审会、每日查询量为核心驱动指标、广告模式探索中

AI新闻早报｜据传OpenAI新模型Orion进步不及预期、月之暗面创始人被投资人提起仲裁

5万字全文｜Claude之父阿莫迪接受Lex专访：2027部署千亿美元AI集群、支持数百万AI代理以人类百倍速度学习和行动

AI新闻早报｜OpenAI华人研究副总裁翁荔离职、AI初创公司Osmo实现气味数字化

深度｜Airbnb CEO切斯基解析“创始人模式”实操秘诀：CEO成为首席产品官、招聘高绩效人才、打造杰出组织

观点｜方舟基金掌门人木头姐伍德，谈懂王第二任期经济和高科技发展预测

观点速读｜Keras之父肖莱：规模不等于智能、模型会通过记忆作弊、智能是通过有限数据习得新技能

AI新闻早报｜谷歌推出带故事板的AI视频制作工具Vids、人形机器人创作的肖像画在苏富比超100万美元价格成交

万字全文｜奥特曼与YC总裁对谈OpenAI创业历程、预测未来公司可能是1人+10000GPU

AI新闻早报｜微软微软发布Magentic-One开源多智能体AI平台、OpenAI重金购得chat.com域名

AI新闻早报｜Nvidia推出AI机器人开发工具、Perplexity完成5亿美元融资

万字全文｜OpenAI和Anthropic两大产品官对谈：AI发展方向是自主性和异步性、当前模型受限于评估而非智能

全球顶级CEO圆桌讨论AI未来：不搞AI死路一条、2032年AI系统达到90%各行业顶级专家能力

AI新闻早报｜Llama现允许美政府用于军事用途、腾讯推混元3890亿参数开源模型

观点｜油管大V Asianometry直击AI创业泡沫：高估值低营收高成本、靠名人效应圈钱、投资人不怕泡沫破裂但员工担心饭碗

观点速读｜YC合伙人圆桌讨论：O1的强大对创业者是双刃剑、万亿参数模型是开启AGI的钥匙

AI新闻早报｜OpenAI O1正式版预发阶段意外泄露后紧急关闭，正待美国选举结束

万字全文｜OpenAI DevDay奥特曼专访：模型是贬值资产、AI按处理问题的计算量定价、从追求10%增长转向10x增长、

高端对话｜黄仁勋vs杨元庆：AI代理和机器人将成为产业世界两大基础、联想推Blackwell新架构AI服务器和车载AI

AI新闻早报｜AI实时生成游戏模型Oasis遭吐槽、OpenAI宣布推迟GPT5/Sora/DALL-E升级

a16z投资巨擘霍洛维茨：AI变革规模类似微处理器浪潮、新型创业者有物理学背景、注重系统属性胜过技术细节

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉