真正的助手：AI 将不再是专门工具，我们用指令让AI像熟练员工一样运用各类软件完成工作

文摘 2024-10-23 06:22 上海

（关注公众号并设为🌟标，获取最新人工智能资讯和产品）

全文约3,000 字，阅读约需 9分钟

刚刚，Anthropic 发布了其 AI 助手产品线的重要更新 —— Claude 3.5 Sonnet 和 Claude 3.5 Haiku。作为新一代旗舰机型，Claude 3.5 Sonnet 在各个能力维度都实现了显著提升，尤其在编程领域的表现更为出色。

与此同时，Anthropic 还推出了一项革命性的新功能 —— AI使用计算机能力。该功能目前已进入公测阶段，开发者可通过 API 让 Claude 实现类人化的计算机操作，包括屏幕控制、光标移动、按钮点击以及文字输入等功能。

一、使用计算机功能

Claude AI现在具备使用计算机的能力。最新的 Claude 3.5 Sonnet 版本，通过适当的软件设置，可以根据用户指令在计算机屏幕上移动光标、点击相关位置，并通过虚拟键盘输入信息，模仿人类与计算机的交互方式。虽然这一功能目前还在实验阶段，有时操作起来会有些不便或出错，但我们期待随着开发者的反馈，这项功能将快速迭代优化。

包括 Asana、Canva、Cognition、DoorDash、Replit 和 The Browser Company 在内的多家公司已经开始利用这一功能，执行那些需要几十步甚至上百步才能完成的复杂任务。例如，Replit 正在使用 Claude 3.5 Sonnet 的计算机操作和用户界面导航功能，为其 Replit Agent 产品开发一个关键功能，实时评估正在构建的应用程序。

我们认为这一技能——目前处于公共测试阶段——标志着 AI 进展的一个重大突破。以下是一些关于开发计算机使用模型及其安全性提升的研究见解。

计算机使用功能如此重要？

这一功能为何如此关键？现代工作的大部分都通过计算机完成。让 AI 能够直接操作计算机软件，将带来广泛的应用场景，当前这一代 AI 助手尚无法实现这些应用。

过去几年中，AI 技术已在多个领域取得重要进展，例如复杂逻辑推理和图像识别能力。而下一个重要的发展方向就是计算机使用：AI 模型将不再局限于专门工具，而是能够灵活运用几乎任何软件，按指令操作。

研究过程

我们此前在工具使用和多模态技术上的研究，为这些新的计算机使用技能打下了基础。操作计算机需要理解和解释图像的能力——在这里特指计算机屏幕图像。此外，还需要推理出何时以及如何执行特定操作。我们通过将这些能力结合，训练 Claude 去理解屏幕上的内容并利用可用的软件工具来完成任务。

当开发者授权 Claude 使用某款计算机软件时，Claude 会查看用户可见的屏幕截图，并计算光标在垂直或水平方向上需要移动多少像素以点击正确位置。训练 Claude 准确计算像素是一个关键步骤。没有这一能力，模型在发出鼠标指令时会遇到困难——就像模型有时难以回答“单词‘banana’里有几个 A”这样看似简单的问题。

令我们惊喜的是，Claude 仅通过少量简单软件（如计算器和文本编辑器）的训练，就能够迅速推广出计算机使用的技能（出于安全考虑，训练时并未允许模型访问互联网）。结合 Claude 的其他能力，这些训练使其能够将用户的书面指令转化为一系列逻辑步骤并在计算机上执行操作。我们还观察到，当 Claude 在执行任务时遇到障碍，它会自行纠正并重试。

尽管在取得初步突破后，进展显得迅速，但到达这个阶段的过程充满了大量的试验与改进。部分研究人员表示，开发计算机使用技能的过程与他们最初想象中的“理想化” AI 研究非常相似：不断地迭代和重新调整，直到看到进展为止。

这种研究终于结出了硕果。目前，Claude 在使用计算机的模型中处于领先地位，能够像人类一样从观察屏幕到采取相应操作。在专门用于测试 AI 模型计算机使用能力的 OSWorld 评估中，Claude 当前的得分为 14.9%。尽管这远未达到人类水平（通常为 70-75%），但相比于第二名 AI 模型的 7.7% 得分，已经是一个显著的领先优势。

保障计算机使用的安全性

每当 AI 技术进步时，安全挑战也随之而来。计算机使用功能主要是为了让 AI 系统更方便地应用现有的认知能力，而不是显著提升这些能力，因此我们对其安全性主要关注当下的潜在危害，而非未来的风险。通过评估我们《负责任扩展政策》中列出的前沿威胁，我们确认，更新后的 Claude 3.5 Sonnet 包含的计算机使用技能仍然符合 AI 安全等级 2——意味着不需要比现有更高的安全标准。

当未来的 AI 模型因为潜在的灾难性风险需要 AI 安全等级 3 或 4 的防护时，计算机使用可能会放大这些风险。我们认为，在模型只需要 AI 安全等级 2 时引入计算机使用功能是更好的选择，因为这可以让我们在风险较低时先处理安全问题，而不是在更高风险的情况下首次启用这项功能。

基于这一思路，我们的信任与安全团队对新的计算机使用模型进行了广泛的分析，以发现可能的漏洞。一个重点关注的问题是“提示注入”——这是一种网络攻击，攻击者通过向 AI 模型输入恶意指令，导致其覆盖原有的指令或执行非预期的操作。由于 Claude 可以解析来自联网计算机的屏幕截图，它可能会接触到包含提示注入攻击的内容。

计算机使用的未来

计算机使用代表了 AI 开发方式的全新变革。此前，LLM 开发者为模型量身打造工具，设计专用环境，让 AI 使用定制的工具完成各种任务。而如今，我们让模型适应已有的工具——Claude 能够融入我们日常使用的计算机环境。我们的目标是让 Claude 能够像人类一样，直接操作现有的计算机软件。

尽管如此，还有很多工作要做。即便它是目前最先进的技术，Claude 的计算机使用功能仍然显得较慢，且容易出错。许多常见的电脑操作（如拖拽、缩放等）目前还无法由 Claude 完成。由于 Claude 是通过“翻书”式的屏幕查看方式——逐帧截取并拼接屏幕图像，而非通过更加细致的视频流进行观察——这导致它可能会遗漏一些短暂的操作或通知。

即便在为今天的发布录制演示时，我们也遇到了一些有趣的错误。在一次录制中，Claude 无意中点击了停止长时间屏幕录制的按钮，导致全部录制内容丢失。在另一场演示中，Claude 突然中断了我们的编程演示，开始浏览黄石国家公园的照片。

我们相信，计算机使用功能将很快得到改善，变得更快速、更可靠，能够更好地满足用户的需求。此外，对于那些缺乏软件开发经验的人，这项功能的使用也将变得更加便捷。在每一个阶段，我们的研究人员都将与安全团队紧密协作，确保 Claude 的新功能能够伴随着合理的安全保障。

二、Claude 3.5 Sonnet：行业领先的软件开发技能

升级后的 Claude 3.5 Sonnet 在行业基准测试中表现显著提升，特别是在自主编程和工具使用任务中取得了突破性进展。在编程能力上，它在 SWE-bench Verified 测试中的成绩从 33.4% 提升至 49.0%，超过了所有现有的公开模型，包括推理模型如 OpenAI o1-preview 以及专为自主编程设计的系统。在 TAU-bench 的工具使用任务中，它的表现也令人瞩目，零售领域的得分从 62.6% 提升到 69.2%，在更具挑战性的航空领域也从 36.0% 提升到了 46.0%。这些进展是在价格和速度与前代产品保持一致的情况下取得的。

早期用户反馈显示，升级版的 Claude 3.5 Sonnet 是 AI 编程能力的一大飞跃。GitLab 在测试该模型的 DevSecOps 任务时发现，其推理能力提升了多达 10%，且没有任何延迟增加，这使它成为多步骤软件开发过程中的理想工具。Cognition 使用该模型进行自主 AI 评估，在编码、规划和问题解决方面的效果相比之前有显著提高。The Browser Company 在用 Claude 3.5 Sonnet 自动化网页流程时指出，它的表现超越了他们以往测试过的所有模型。

升级版的 Claude 3.5 Sonnet 现已向所有用户开放。从今天起，开发者可以通过 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 开始使用计算机使用测试版进行开发。全新的 Claude 3.5 Haiku 将于本月稍晚时候发布。

三、Claude 3.5 Haiku：前沿性能，价格与速度兼备

Claude 3.5 Haiku 是我们下一代速度最快的模型，在保持与 Claude 3 Haiku 相同成本和速度的基础上，全方位提升了技能表现，并在多个智能基准测试中超越了上一代最大的模型 Claude 3 Opus。Claude 3.5 Haiku 在编程任务上表现尤为出色。例如，在 SWE-bench Verified 测试中得到了 40.6% 的高分，超过了许多使用最新公开模型的代理，包括原版的 Claude 3.5 Sonnet 和 GPT-4o。

这款模型具有低延迟、改进的指令执行能力以及更加精准的工具使用，因而特别适合用于面向用户的产品、特定子代理任务以及从庞大数据中生成个性化体验，例如购买历史、定价或库存记录等。

Claude 3.5 Haiku 将于本月稍晚时在我们的一方 API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 平台上发布——最初提供文本版本，随后将加入图像输入功能。

原文链接：https://www.anthropic.com/news/developing-computer-use

https://www.anthropic.com/news/3-5-models-and-computer-use

素材来源官方媒体/网络新闻

不只是算法，我们在创造改变生活的可能。您是否曾想过AI技术能为您的事业带来突破？现在，这个机会就在眼前，欢迎扫描下方二维码或点击链接填写AI需求，来和我们聊聊。

https://kawecob6a7k.feishu.cn/share/base/form/shrcn9i5HkwtHpkQNaV1bDqjt8f填写，会有相关负责人联系及时您，请留意您的微信和邮箱信息。

往期回顾

[1、Anthropic CEO 万字长文：我认为AGI最早会在 2026 年出现，机器可以像人类一样协助办公

[2、演讲总结：未来学家凯文·凯利刚刚亮相2024上海外滩大会，预言AI时代三大趋势，未来所有工作都会使用人工智能

想象一个世界，AI不再是遥不可及的科技，而是每个人的得力助手。我们将 AI 科技与创新想法完美融合,探索AI的无限可能!

告别昂贵服务和缺人烦恼,再见漫长交期

无限创意,分分钟生成专业级产品

感受 AI 带来的全新工作体验！

欢迎各大品牌方、媒体、企业和个人等

请联系负责人微信：Milo-1101

--END--

http://mp.weixin.qq.com/s?__biz=Mzg5NTc4ODkzOA==&mid=2247493891&idx=1&sn=b1542e4fc56a55db1013a895ba06cfd9

AI深度研究员

AI时代刚刚到来，一切才刚开始，我们正当其时！

最新文章

联想科技大会上,杨元庆对话黄仁勋：不是所有AI芯片都能成功,关键在技术栈

对话Sam Altman：OpenAI新战略下，与主流路线不同的AI创业机会（附完整视频）

微软AI CEO穆斯塔法：AI将在 2025 年实现记忆并释放出新的创造力，将成为我们的“第二大脑”

未来智能学家Roey Tzezana：为什么我们突然间发现AI无处不在？一个通俗解读的角度

全球顶级对冲基金桥水视角:当前AI产品实用性有限的深层原因以及下一阶段突破路径

完整o1 模型即将发布！刚刚Sam Altman和团队答疑：今年不会有GPT-5，但多个AGI项目正在路上

比尔盖茨最新采访：技术正在改变一切，AI将带领人类走得更远（附视频）

FTT大会上，创新工场李开复发言：我坚信公司只有两种命运—全面拥抱AI或破产出局，没有第三条路！

深度思考|别只顾着堆AI了,这个转型方向或许更值得企业关注

马斯克表示：AI增长曲线每年10倍跃升，预计5年内AI将比所有人类加起来还要聪明（附视频）

CNN对话软银CEO孙正义：超级AI不仅会在2035年到来，还将具备万倍于人类的智能

Cuebric AI CEO亲述：曾被原公司AI系统取代失业，如今创办AI公司重新定义职业路线（附视频）

AI引发失业潮：为什么经济学家说这次'没有先例可循'？

专访Waymo CEO: 融资56亿美金后，第六代AI无人驾驶出租车将实现全场景商业化能力

世界经济论坛上，伯克利Stuart Russell教授的观点：AI时代你需要掌握的实用技能

哥伦比亚大学杨立昆演讲：大模型只是AI发展阶段性成果，但下一步AI革命制胜关键不会依赖于此（附视频）

电力改变物理世界，AI将改变认知世界-对话美国前财长萨默斯：AI自我进化能力将重塑人类社会

真正的助手：AI 将不再是专门工具，我们用指令让AI像熟练员工一样运用各类软件完成工作

微软CEO纳德拉演讲：AI革命引发汇丰和麦肯锡等大企业抢占商业先机,人类将步入无处不在的AI代理世界

OpenAI首席产品官Kevin Weil分享公司最新AI产品路线图，并透露其在AI行业中保持领先策略

硅谷风投大佬Marc Andreessen：AI不止于自动化,它是一台具备艺术创作能力的新型计算机

当AI开始思考：MIT教授、《人工智能时代》作者胡滕洛赫尔前瞻性演讲，探讨AI发展趋势及其对未来的革命性影响

泰晤士报专访新晋化学奖得主Hassabis：10年内AI将成为我们私人代理，定制旅行计划和预订机票酒店

在密歇根大学访谈，Sam Altman谈AI增长曲线的关键拐点,以及草莓模型o1与GPT-5的潜在关联

AI播客NotebookLM更新了：人人都可以利用AI快速做樊登读书，成为知识付费达人

斯坦福AI研讨会：吴恩达教授分享通过AI简化编程，让每个行业的个人都能轻松上手并提升工作效率（视频）

美国第一智库布鲁金斯学会AI调研：调查1000+行业后，当前AI发展远超人类认知呼吁企业和个人必须尽快掌握AI技术

Meta首席AI科学家杨立昆演讲：当前处于AI什么阶段，以及我们距离实现真正通用AI还有多远？

上周，马斯克极限60小时内展示AI时代与太空未来，百句经典语重现他传奇历程

（视频）英伟达黄仁勋访谈：从日常研究到战略规划，AI正改变CEO们的工作方式与思维模式

彭博社专访Runway CEO：现场讲解AI视频技术，并手把手教学如何用AI秒生精美视频

创意营销模式：7个超高质量AI广告,你觉得哪个做的最好?

Anthropic CEO 万字长文：我认为AGI最早会在 2026 年出现，机器可以像人类一样协助办公

数学家陶哲轩谈o1推理模型突破传统AI局限，让我们有望打开未知领域的新大门

“WE, ROBOT”发布会上，马斯克视频演讲：基于 AI 技术特斯拉无人驾驶出租车即将改变世界

对话AI代理CEOJake Heller: Casetext如何在AI热潮中脱颖而出,以6.5亿美元的高价被收购

近期奖金最大的AI视频创作大赛，百万奖金等你来拿！！！

对话2024化学奖得主谷歌Demis Hassabis：利用AI设计蛋白质，人工智能被证明是未来各领域的关键技术

哈佛大学AI报告会上，前美国财长萨默斯对话肯尼迪学院教授：AI将成为各行各业的必备工具,使用频率只增不减

诺奖现场采访2024物理学得主Hinton：当前AI革命堪比工业革命，且将在智力上全面超越人类

BBC专题报道：AI让普通人创造好莱坞级别作品,独立AI创作者借此打造数十亿美元个人IP

在OpenAI开发者大会，CEO Sam Altman谈AGI时间表，同时展望AGI时代我们的生活变化

沃顿商学院AI研讨会：AI对全球经济格局、企业战略和就业市场的多维度影响

专访OpenAI投资的1X公司CEO：AI如何接管人类不喜欢的日常任务，让人类专注于更有价值的事业

在软银世界2024大会，CEO孙正义演讲：他相信通用人工智能将在两三年内实现

吴恩达教授访谈：利用AI技术突破学习障碍，将你的创意无缝转化为功能完备的APP

OpenAI官方AI指南: 5位职业作家的实战经验,帮你提高与AI沟通效率

AI分析案例：各行各业的打工人如何巧妙运用人工智能来提高工作效率

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉