大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于AI科普,AI工具测评,AI效率提升,AI行业洞察。关注我,AI之路不迷路,2024我们一起变强。
今天,AI领域“最靓的仔”注定属于Claude。
北美时间10月22日,Anthropic,开发出Claude AI的那家AI初创公司,发布了两个新模型:Claude 3.5 Haiku
和升级版的Claude 3.5 Sonnet
,以及一个令人眼前一亮的新功能:计算机操作(Computer Use)。
相信Claude模型/工具是很多小伙伴的心头好,某些方面甚至超过了OpenAI的GPT-4o
。今天发布的新版本Claude 3.5 Sonnet
是6月20日第一版本Claude 3.5 Sonnet
的升级版,据Anthropic官方表示,新版本的Sonnet模型在多个方面都有提升,尤其是在代码编写(Coding)方面。而编程一直以来都是Claude 3.5 Sonnet
的传统强项,这下更强了。
另一个全新的模型Claude 3.5 Haiku
在AI基准评测中表现出色,几乎与Claude 3.5前一代中的最强模型Claude 3 Opus
相当,速度和成本与上一代Haiku基本一致。总结来说,就是更快,更强,更便宜。
伴随两个新模型同时发布的还有一个具有突破性意义的新功能:计算机操作(Computer Use),目前该功能已进入beta公测阶段。通过最新版的Claude 3.5 Sonnet
API,开发者可以指挥Claude像人类一样操作计算机——比如浏览屏幕、移动光标、点击按钮,甚至输入文字。Anthropic表示,Asana、Canva、Cognition、DoorDash、Replit和The Browser Company等企业已开始探索这一全新可能性,执行那些需要几十甚至上百步才能完成的复杂任务。例如,Replit正在尝试使用Claude 3.5 Sonnet
的计算机操作和UI导航能力,为其Replit Agent产品开发一个能够在应用构建过程中进行评估的功能。
目前,升级版Claude 3.5 Sonnet
已对所有用户开放。开发者可以通过Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI,体验计算机操作功能。而Claude 3.5 Haiku
则将在本月晚些时候发布。
Claude 3.5 Sonnet/Haiku基准测试解读
这下,升级后的Claude 3.5 Sonnet
成了名副其实的最强大模型(不考虑推理模型o1的情况下)。
推理与知识能力:
在研究生级别推理任务(GPQA)中,新版 Claude 3.5 Sonnet
表现最好,达到65.0%,优于其他模型且远高于GPT-4o
。在本科级别知识任务(MMLU Pro)中, Claude 3.5 Sonnet
依旧领先,得分为78.0%,高于Gemini 1.5 Pro
。
代码编写与工具使用:
在代码编写任务(HumanEval)上, Claude 3.5 Sonnet
以93.7%再次拔得头筹。在自主代码编写(SWE-bench Verified)和工具使用任务(TAU-bench)上,新版本 Claude 3.5 Sonnet
相较上一代模型有着明显的提升。
数学问题解决:
Claude 3.5 Sonnet
在数学问题解决任务(MATH)中得分为78.3%,不错,但低于Gemini 1.5 Pro
的86.5%。在高中数学竞赛任务(AIME 2024)中,得分为16.0%。
视觉问答和自主工具使用:
在视觉问答任务(MMMU)中, Claude 3.5 Sonnet
得分为70.4%,稍高于GPT-4o
。
Claude 3.5 Sonnet
升级后的Claude 3.5 Sonnet
在多项AI基准测试中有着显著提升,尤其是在自主代码编写和工具使用任务上。代码编写方面,Claude 3.5 Sonnet
在SWE-bench Verified基准测试中的表现从33.4%提升至49.0%,超越了所有公开可用的模型,包括像OpenAI o1-preview
这样的推理模型。在工具使用任务TAU-bench中,Claude 3.5 Sonnet
在零售领域的表现从62.6%提升至69.2%,在更具挑战性的航空领域,其表现也从36.0%提高到了46.0%。
Anthropic早期参与测试的客户反馈与上面的基准测试结果非常吻合——Claude在代码编写方面越来越强了。GitLab在其DevSecOps任务中测试了该模型,结果显示其推理能力提升了10%,且没有增加任何延迟。Cognition使用该模型进行AI自主评估后,在代码编写、规划和问题解决方面取得了显著提升。The Browser Company在自动化网页工作流时,也表示新版Claude 3.5 Sonnet
超越了他们测试过的所有其他模型。
Claude 3.5 Haiku
Haiku系列自Claude 3起就是速度最快,成本最低的模型。今天发布的Claude 3.5 Haiku
是Claude系列模型中响应速度最快的模型,延续了Claude 3 Haiku
的成本和速度优势的前提下,“智商”也有所提升。在多个AI基准测试中,Claude 3.5 Haiku
的表现甚至超越了上一代最强模型Claude 3 Opus
。尤其是代码编写任务,Claude 3.5 Haiku
在SWE-bench Verified基准测试中得分40.6%,超过了老版本的Claude 3.5 Sonnet
和GPT-4o
。
Claude 3.5 Haiku
暂时还没有正式发布,Anthropic表示将在本月晚些时候通过Claude API、Amazon Bedrock和Google Cloud的Vertex AI推出,早期将仅支持文本输入,随后会增加图像输入功能。
计算机操作(Computer Use)
计算机操作(Computer Use),这无疑是一个重磅炸弹。简单来说,就是让Claude像我们人类一样操作计算机。现在的Claude已经能够理解指令,有了计算机操作功能,Claude还能实际动手“操作”电脑,包括看屏幕、移动鼠标、点击按钮、输入文字,完成很多以前需要人手动去做的重复任务。
举个例子,假设你希望Claude帮忙填写一张表格,它可以自己去打开浏览器、找到合适的网页,然后从你的本地文件里获取数据,填入表格并提交。这就像你教会了Claude使用电脑,它能代替你执行一些重复性、繁琐的任务。
不同于为Claude设计专门的工具以完成特定任务,Anthropic设计该功能的初衷是教会Claude通用的计算机操作技能,使其能够使用为人类设计的各种标准工具和软件程序。开发者可以利用这一初步的能力,自动化处理重复性流程、构建和测试软件,或进行开放式的研究任务。
为了实现这些通用技能,Anthropic研发团队开发了一个API,使Claude能够感知并与计算机界面进行交互。开发者可以将该API集成到软件系统中,让Claude将指令(如“使用我的计算机和网络数据来填写这张表格”)转化为具体的计算机操作(例如,检查电子表格,移动光标打开网络浏览器,导航至相关网页,利用网页上的数据填表等)。在专门评估AI模型使用计算机能力的OSWorld平台,Claude 3.5 Sonnet
在仅使用截图的类别中得分14.9%,远高于下一名的7.8%。当允许更多操作步骤时,Claude的得分提升至22.0%。
但值得注意的是,Claude目前的计算机操作能力还处于早期阶段。Anthropic官方表示,一些人类可以轻松完成的动作——如滚动、拖拽、缩放——对于Claude来说仍是挑战。
精选推荐
国内支付宝开通ChatGPT Plus和Claude Pro 2024最新教程! 『AI保姆级教程』无需手机号!三分钟注册ChatGPT账号!2024年最新教程! 『AI保姆级教程』手把手教你注册Claude账号!建议收藏!
都读到这里了,点个赞鼓励一下吧,小手一赞,年薪百万!😊👍👍👍。关注我,AI之路不迷路,原创技术文章第一时间推送🤖。