仅一个晚上过去,Claude 3.5 的重磅升级令整个 AI 圈都为之一震:
“ChatGPT 很好,但我宣布今天过后 Claude 3.5 Sonnet 赢疯了!”
“太疯狂了!Anthropic 刚发布了 Claude 3.5 Sonnet & Haiku,它将彻底改变 AI Agent 的游戏规则。”
“毫无争议,Claude 3.5 Sonnet 就是所有写代码模型中的王!”
根据 Anthropic AI 的官方介绍,此次 Claude 3.5 模型升级主要包括升级版 Claude 3.5 Sonnet 和全新模型 Claude 3.5 Haiku:Claude 3.5 Sonnet 在各方面都比前版本有显著提升,特别是在编码方面;Claude 3.5 Haiku 在许多评估中与之前的最大模型 Claude 3 Opus 的性能相当,成本和速度也与前一代 Haiku 相似。
其中最引人注目的更新,无疑是:Claude 3.5 Sonnet 居然能像人一样使用电脑(Computer use)了!
“像人一样使用电脑”,3 分钟搞定网站设计&修改
不存在任何文字游戏,“像人一样使用电脑”与其字面意思一致:升级版 Claude 3.5 Sonnet 具备一项突破性的全新能力“Computer use”,即开发者可以通过 API 指示 Claude 像人一样使用计算机,包括观察屏幕、移动光标、点击按钮和输入文本等等。
在实现该功能的过程中,Anthropic AI 尝试了一种新方法:不是为 Claude 创建特定工具来完成单独任务,而是教会它通用计算机技能,使其能够使用一系列为人设计的标准工具和软件程序。
基于这样的设计理念,Anthropic AI 构建了一个 API,使 Claude 能够感知并与计算机界面互动。开发者可以集成该 API,使 Claude 能够将指令转化为计算机命令,实现任务的自动化和智能化。
例如,收到“使用我计算机上的数据和在线数据填写此表格”这句指令,Claude 可将其转化为:检查电子表格;移动光标以打开网页浏览器;导航至相关网页;使用这些页面中的数据填写表格。
所谓耳听为虚,Anthropic 研究员 Alex Albert 亲自录制了一个 demo:如何利用 Claude 自动完成一个网站编码任务。
(1)首先,要求 Claude 在 Chrome 浏览器中导航到 Claude.ai,并创建一个有趣的、以 90 年代为主题的个人主页。
(2)想要对这个网站做一些修改,可要求 Claude 点击下载并保存文件,然后在 VS Code 中将其打开。
(3)让 Claude 启动一个服务器,以便在浏览器中查看该文件。这一过程中 Claude 首次遇到了问题:尝试启动服务器,但设备中并没有安装 Python。意外的是 Claude 通过查看终端输出,自己发现了这个问题,之后用 Python 3 再次尝试后,成功启动了服务器。
(4)Alex Albert 发现终端输出中有个错误,即顶部还缺少了一个文件图标,便要求 Claude 自己识别并将其修复。结果:Claude 顺利找到并删除了引发错误的代码行,保存文件并重新运行后,网站终于再无其他问题!
以上整个过程,包括 Alex Albert 的讲解在内,仅仅只用了 3 分钟。
目前,Claude 3.5 Sonnet 已在公测阶段,且是业内首个在公测阶段提供“Computer use”功能的前沿 AI 模型——不过,千万别因此着急解雇你的助理,Anthropic 还补充道:“此阶段仍处于实验阶段,偶尔可能显得笨拙且容易出错。”
例如,在一项旨在测试 AI Agent 帮助完成机票预订任务的评估中,升级版 Claude 3.5 Sonnet 成功完成的任务不到一半;在另一项涉及发起退票等任务的测试中,Claude 3.5 Sonnet 的失败率也超过了 30%
Anthropic 承认,目前 Claude 3.5 Sonnet 的“Computer use”功能仍不完美。一些人们能轻松完成的操作(如滚动、拖动、缩放)目前对 Claude 来说仍具挑战性,整体速度也很慢,因此鼓励开发者从低风险任务开始探索。
尽管如此,Anthropic 依旧对“Computer use”的前景充满期待,并相信它将随着时间的推移迅速改善。据悉,目前 Asana、Canva、Cognition、DoorDash、Replit 和 The Browser Company 等公司已经开始探索 Claude 3.5 Sonnet 的可能性,尝试令其自动执行需要数十,甚至上百个步骤才能完成的任务。
正如 Anthropic 所说,这项尚处于起步阶段的技术,将从初步部署中不断学习并进步。
Claude 3.5 Sonnet 编码能力大幅提升
除了惊艳亮相的“Computer use”功能,升级后的 Claude 3.5 Sonnet 在行业基准测试中也有大幅改进,尤其在自主编码和工具使用任务上尤为突出。
在编码方面,Claude 3.5 Sonnet 在 SWE-bench Verified 上的表现从 33.4% 提升至 49.0%,超过所有公开可用的模型,包括 OpenAI o1-preview 和专为自主编码设计的系统。不仅如此,它在 TAU-bench(一个自主工具使用任务)中的表现也有显著提升:在零售领域从 62.6% 增加到 69.2%,在更具挑战性的航空领域从 36.0% 提升到 46.0%。
“全新的 Claude 3.5 Sonnet 在保持与前代相同的价格和速度的同时,实现了这些进步。”
除此之外,Anthropic 表示许多早期客户也反馈道,升级版 Claude 3.5 Sonnet 是 AI 驱动编码的一次重要飞跃:
GitLab 在对 DevSecOps 任务进行测试时发现,Claude 3.5 Sonnet 的推理能力提高了(在各种用例中最高可达 10%),且没有增加延迟,成为多步骤软件开发流程的理想选择;
Cognition 使用新版本 Claude 3.5 Sonnet 进行自主 AI 评估,发现其在编码、规划和问题解决方面的表现比之前的版本有了显著改善;
The Browser Company 在使用该模型自动化基于网页的工作流程时,注意到 Claude 3.5 Sonnet 超越了他们以往测试过的所有模型。
超越 GPT-4o,Claude 3.5 Haiku 推出在即
本次与 Claude 3.5 Sonnet 一同推出的,还有 Claude 3.5 Haiku——Anthropic 将其形容为:“高端性能与经济实惠的结合”。
据介绍,在与 Claude 3 Haiku 相同成本和类似速度下,Claude 3.5 Haiku 在每项技能上都有所提升,并在许多智能基准测试中超越了 Claude 3 Opus(Anthropic 的上一代最大模型)。在编码任务上,Claude 3.5 Haiku 的表现也尤为强劲,例如它在 SWE-bench Verified 上得分 40.6%,超越了原版 Claude 3.5 Sonnet 和 GPT-4o 等高端模型代理。
Anthropic 介绍道,凭借低延迟、改善的指令跟随能力和更准确的工具使用,Claude 3.5 Haiku 非常适合面向用户的产品、专门的子代理任务,以及根据大量数据生成个性化体验——如购买历史、定价或库存记录。
据悉,Claude 3.5 Haiku 将在本月晚些时候通过 Anthropic 官方 API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 提供。需要注意的是,初期 Claude 3.5 Haiku 仅作为文本模型提供,后续将推出图像输入功能。
展望未来,Anthropic 呼吁开发者积极探索 Claude 3.5 的新模型以及“Computer use”功能,也期待这些发展为人们带来更多 AI 应用的可能性。
参考链接:https://www.anthropic.com/news/3-5-models-and-computer-use