Claude3.5重磅升级:Sonnet编码能力秒杀o1,Haiku性价比无敌,还会自己玩电脑!

科技   科技   2024-10-23 09:24   福建  
关注我,记得标星⭐️不迷路

Anthropic 震撼发布升级版 Claude3.5Sonnet 和全新模型 Claude3.5Haiku,两款模型均在推理、编码和视觉处理方面取得了显著进步。Claude3.5Sonnet 进行了全面升级,其编码能力在业界领先,并在多项行业基准测试中表现出色。

尤其值得一提的是,它在 SWE-bench Verified 测试中取得了49.0% 的成绩,超越了所有公开模型,包括 OpenAI o1-preview 等推理模型以及专门为代理编码设计的系统。

此外,它在代理工具使用任务 TAU-bench 的零售领域也取得了69.2% 的成绩,在更具挑战性的航空领域取得了46.0% 的成绩。

最令人瞩目的是,Claude3.5Sonnet 率先在公开测试版中引入了“计算机使用”功能,该功能允许开发者像人一样使用电脑。这意味着 Claude 可以查看屏幕、移动光标、点击按钮和输入文本,为自动化流程、软件构建和测试以及开放式任务开辟了新的可能性。

Claude3.5Haiku 则是 Anthropic 最快的模型,其性能与 Claude3Opus 相当,但成本更低,速度更快。它在编码任务上表现尤为出色,例如在 SWE-bench Verified 测试中取得了40.6% 的成绩,超越了许多使用公开最先进模型的代理,包括最初的 Claude3.5Sonnet 和 GPT-4o。 

Claude3.5Haiku 非常适合面向用户的产品、专门的子代理任务以及从海量数据(如购买历史记录、定价或库存记录)中生成个性化体验。

为了实现这些通用技能,Anthropic 构建了一个 API,允许 Claude 感知和交互计算机界面。开发者可以集成此 API,使 Claude 能够将指令(例如,“使用我的计算机和在线数据填写此表单”)转换为计算机命令(例如检查电子表格;移动光标以打开 Web 浏览器;导航到相关的网页;用这些网页上的数据填写表单等等)。

在评估 AI 模型像人一样使用计算机的能力的 OSWorld 测试中,Claude3.5Sonnet 在仅限屏幕截图的类别中取得了14.9% 的成绩,明显优于排名第二的 AI 系统7.8% 的成绩。当有更多步骤来完成任务时,Claude 的得分达到了22.0%。

Anthropic 强调,尽管预计此功能在未来几个月内将迅速改进,但 Claude 目前使用计算机的能力还不完美。人类可以轻松执行的一些操作(如:滚动、拖动、缩放)目前对 Claude 来说仍具有挑战性, Anthropic 鼓励开发者从低风险的任务开始探索。

由于计算机使用可能会为垃圾邮件、虚假信息或欺诈等更常见的威胁提供新的途径,因此 Anthropic 正在采取积极主动的方法来促进其安全部署。他们开发了新的分类器,可以识别何时使用计算机以及是否正在发生危害。

目前,Claude3.5Sonnet 已经向所有用户开放。从今天开始,开发者可以在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用“计算机使用”测试版进行构建。新的 Claude3.5Haiku 将于本月晚些时候发布。

关于AIbase>>

一个致力于让更多人了解并参与未来AI发展的平台


这里有最新AI资讯、100+ AI赚钱案例库、15000+AI产品库、保姆级AI工具教程


更多AI硬核内容直接访问AiBase官网,一键开启你的AGI之旅!


官网:https://www.aibase.com/zh/tools/


点击阅读原文,进AIbase官网.

AIbase基地
每日AI新闻聚合阅读,掌握AI前沿资讯、AI新品、政策动向,洞察AI行业趋势,深思未来。
 最新文章