神了:Claude 3.5能像人一样使用计算机,而且在编程、软件研发上进步显著

科技   2024-10-24 07:50   江苏  

Anthropic新发布的 Claude 3.5 Sonnet 在编码、解决软件工程问题等方面取得了显著进步,超过了有强大推理能力的OpenAI o1模型,已处于领先地位。在Claude 3.5 Sonnet 测试版中推出了一项开创性的新功能:计算机使用(Computer Use)现在,开发人员可以在 API 上指导 Claude 像人类一样使用计算机——通过查看屏幕、移动光标、单击按钮和键入文本。不少公司已经开始探索这些可能性,执行需要数十步、甚至数百步才能完成的任务。例如,Replit 正在使用 Claude 3.5 Sonnet 的Computer Use和 UI 导航功能来开发一项关键功能,该功能在为其 Replit Agent 产品构建应用程序时对其进行评估。
从现在开始,开发人员可以在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用Claude 3.5 Sonnet的Computer Use测试版构建软件。
Claude 3.5 Sonnet:行业领先的软件工程技能
更新后的 Claude 3.5 Sonnet 在软件研发上获得了广泛的改进,在智能体编码和工具使用任务方面取得了特别大的进步。在编码方面,它将 SWE-bench Verified 的性能从 33.4% 提高到 49.0%,得分高于所有公开可用的模型,包括 OpenAI o1-preview 等推理模型和专为智能体编码设计的专用系统。它还将 TAU-bench(一种代理工具使用任务)的性能从零售领域的 62.6% 提高到 69.2%,在更具挑战性的航空公司领域从 36.0% 提高到 46.0%。新的 Claude 3.5 Sonnet以与其前身相同的价格和速度提供这些进步。

早期客户反馈表明,升级后的 Claude 3.5 Sonnet代表了 AI 驱动的编码的重大飞跃。GitLab 针对 DevSecOps 任务测试了该模型,发现它提供了更强的推理能力(在用例中高达 10%),而且没有增加延迟,使其成为支持多步骤软件开发流程的理想选择。Cognition 使用新的 Claude 3.5 Sonnet 进行自主 AI 评估,与以前的版本相比,在编码、规划和问题解决方面有了实质性的改进。The Browser Company 在使用该模型自动化基于 Web 的工作流程时指出,Claude 3.5 Sonnet 的性能优于他们之前测试过的所有模型。


Claude 3.5 Haiku:最先进的技术与经济性和速度相结合
在与 Claude 3 Haiku 相同的成本和速度下,Claude 3.5 Haiku 在每项技能集上都有所提升,在许多智能基准测试中甚至超过了我们上一代最大的型号 Claude 3 Opus。Claude 3.5 Haiku 特别擅长编码任务。例如,它在 SWE-bench Verified 中的得分为 40.6%,优于许多使用公开可用的最先进模型的智能体,包括原始的 Claude 3.5 Sonnet 和 GPT-4o。
Claude 3.5 Haiku 具有低延迟、改进的指令遵循和更准确的工具使用,非常适合面向用户的产品、专门的智能体子任务,以及从大量数据(如购买历史记录、定价或库存记录)生成个性化体验。

Claude 3.5 Haiku 将于本月晚些时候通过我们自己的 API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 提供,最初作为纯文本模型提供,随后将提供图像输入。
教 Claude 负责任地使用计算机
在计算机的使用方面,我们正在尝试一些全新的事物。我们不是制作特定的工具来帮助 Claude 完成单个任务,而是向它传授通用的计算机技能,让它能够使用各种专为人们设计的标准工具和软件程序。开发人员可以使用这种新功能来自动化重复流程、构建和测试软件,以及执行研究等开放式任务

为了实现这些通用技能,我们构建了一个 API,允许 Claude 感知计算机界面并与之交互。开发人员可以集成此 API,使 Claude 能够将说明(例如,“使用来自我的计算机和在线的数据来填写此表单”)转换为计算机命令(例如,检查电子表格; 移动光标以打开 Web 浏览器; 导航到相关网页; 使用这些页面中的数据填写表单; 等等)。在评估 AI 模型像人类一样使用计算机的能力的 OSWorld 上,Claude 3.5 Sonnet 在屏幕截图类别中的得分为 14.9%,明显高于第二好的 AI 系统的 7.8% 得分。当获得更多步骤来完成任务时,Claude 得分为 22.0%。
虽然我们预计这种能力将在未来几个月内迅速提高,但 Claude 目前使用计算机的能力并不完美。人们可以轻松执行的一些操作(滚动、拖动、缩放)目前给 Claude 带来了挑战,我们鼓励开发人员从低风险任务开始探索。由于计算机的使用可能会为更常见的威胁(如垃圾邮件、错误信息或欺诈)提供新的载体,因此我们正在采取积极主动的方法来促进其安全部署。我们开发了新的分类器,可以识别何时使用计算机以及是否发生伤害。您可以在我们关于开发计算机使用的帖子中阅读有关这项新技能背后的研究过程的更多信息,以及对安全措施的进一步讨论。
Claude 3.5 Sonnet 喊你参加AiDD峰会深圳站(最美季节11.8-9)

软件工程3.0时代
由于大模型(LLM)正在改变着千行百业,软件工程(SE)更是首当其冲,迎来软件工程3.0新时代:模型驱动研发、模型驱动运维。本公众号将致力于研究SE3.0时代的软件研发新范式、理论与方法,介绍SE3.0时代的工具与实践。
 最新文章