昨晚,Anthropic 宣布推出升级版 Claude 3.5 Sonnet 和新模型 Claude 3.5 Haiku。升级后的 Claude 3.5 Sonnet 与前代产品相比有了全面的改进,尤其是在编码方面有了显著的提高——在这一领域,Claude 3.5 Sonnet 已经处于领先地位。Claude 3.5 Haiku 在许多评估中的性能与 Claude 3 Opus(他们之前最大的机型)不相上下,而成本和速度却与上一代 Haiku 相当。
Asana、Canva、Cognition、DoorDash、Replit 和 The Browser Company 已经开始探索这些可能性,执行需要数十步甚至数百步才能完成的任务。例如,Replit 公司正在利用 Claude 3.5 Sonnet 在计算机使用和用户界面导航方面的能力,开发一项关键功能,在为其 Replit Agent 产品构建应用程序时对其进行评估。
升级版 Claude 3.5 Sonnet 现已面向所有用户开放。从今天开始,开发人员可以在 Anthropic API、亚马逊 Bedrock 和谷歌云的 Vertex AI 上使用计算机使用测试版进行构建。新版 Claude 3.5 Haiku 将于本月晚些时候发布。
Claude 3.5 Sonnet:业界领先的软件工程技能
更新后的 Claude 3.5 Sonnet 在业界基准测试中取得了广泛的改进,尤其是在智能体编码和工具使用任务中取得了巨大的进步。在编码方面,它将 SWE-bench Verified 的性能从 33.4% 提高到 49.0%,得分高于所有公开可用的模型,包括 OpenAI o1-preview 等推理模型和专为智能体编码设计的专业系统。它还提高了智能体工具使用任务 TAU-bench 的性能,在零售领域从 62.6% 提高到 69.2%,在更具挑战性的航空领域从 36.0% 提高到 46.0%。新版 Claude 3.5 Sonnet 在价格和速度上与上一代产品保持一致,并取得了上述进步。
早期的客户反馈表明,升级版 Claude 3.5 Sonnet 代表了人工智能驱动的编码技术的重大飞跃。GitLab 针对 DevSecOps 任务对该模型进行了测试,发现它的推理能力更强(在不同的使用案例中可达 10%),而且没有增加延迟,是支持多步骤软件开发流程的理想选择。Cognition 使用新的 Claude 3.5 Sonnet 进行自主人工智能评估,与前一版本相比,在编码、规划和问题解决方面有了大幅改进。The Browser Company 在将该模型用于基于网络的工作流程自动化时,注意到 Claude 3.5 Sonnet 的性能优于他们之前测试过的所有模型。
作为他们与外部专家合作的持续努力的一部分,新的 Claude 3.5 Sonnet 模型的联合部署前测试由 Claude 3.5 Sonnet 模型的联合测试团队进行。美国人工智能安全研究所(US AISI)和英国安全研究所(UK AISI)对新的 Claude 3.5 Sonnet 型号进行了联合部署前测试。
他们还对升级后的 Claude 3.5 Sonnet 进行了灾难性风险评估,发现他们的“负责任扩展政策”中规定的 ASL-2 标准仍然适用于该型号。
Claude 3.5 Haiku:与经济性和速度的 SOTA 结合
Claude 3.5 Haiku 是他们下一代速度最快的模型。在与 Claude 3 Haiku 相同的成本和速度下,Claude 3.5 Haiku 在各种技能方面都有所提高,甚至在许多智能基准测试中超过了 Claude 3 Opus,后者是他们上一代中最大的模型。Claude 3.5 Haiku 在编码任务方面表现尤为突出。例如,它在 SWE-bench 验证中的得分率为 40.6%,超过了许多使用公开的 SOTA 模型的智能体——包括原始的 Claude 3.5 Sonnet 和 GPT-4o。
Claude 3.5 Haiku 具有低延迟、改进的指令跟踪和更准确的工具使用等特点,非常适合面向用户的产品、专门的子智能体任务以及从海量数据中生成个性化体验(如购买和使用)。
Claude 3.5 Haiku 将于本月晚些时候通过他们的 first-party API、亚马逊 Bedrock 和 Google Cloud 的 Vertex AI 提供,最初是纯文本模型,随后将提供图像输入。