重磅!Anthropic发布Claude 3.5 Haiku、升级版Sonnet和计算机自动化操作功能!

文摘   2024-10-23 05:12   美国  

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于AI科普AI工具测评AI效率提升AI行业洞察。关注我,AI之路不迷路,2024我们一起变强。

今天,AI领域“最靓的仔”注定属于Claude

北美时间10月22日,Anthropic,开发出Claude AI的那家AI初创公司,发布了两个新模型Claude 3.5 Haiku和升级版的Claude 3.5 Sonnet,以及一个令人眼前一亮的新功能计算机操作(Computer Use)

相信Claude模型/工具是很多小伙伴的心头好,某些方面甚至超过了OpenAI的GPT-4o。今天发布的新版本Claude 3.5 Sonnet是6月20日第一版本Claude 3.5 Sonnet的升级版,据Anthropic官方表示,新版本的Sonnet模型在多个方面都有提升,尤其是在代码编写Coding)方面。而编程一直以来都是Claude 3.5 Sonnet的传统强项,这下更强了。

另一个全新的模型Claude 3.5 Haiku在AI基准评测中表现出色,几乎与Claude 3.5前一代中的最强模型Claude 3 Opus相当,速度和成本与上一代Haiku基本一致。总结来说,就是更快,更强,更便宜

伴随两个新模型同时发布的还有一个具有突破性意义的新功能:计算机操作(Computer Use),目前该功能已进入beta公测阶段。通过最新版的Claude 3.5 Sonnet API,开发者可以指挥Claude像人类一样操作计算机——比如浏览屏幕、移动光标、点击按钮,甚至输入文字。Anthropic表示,Asana、Canva、Cognition、DoorDash、Replit和The Browser Company等企业已开始探索这一全新可能性,执行那些需要几十甚至上百步才能完成的复杂任务。例如,Replit正在尝试使用Claude 3.5 Sonnet的计算机操作和UI导航能力,为其Replit Agent产品开发一个能够在应用构建过程中进行评估的功能。

目前,升级版Claude 3.5 Sonnet已对所有用户开放。开发者可以通过Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI,体验计算机操作功能。而Claude 3.5 Haiku则将在本月晚些时候发布。

Claude 3.5 Sonnet/Haiku基准测试解读

这下,升级后的Claude 3.5 Sonnet成了名副其实的最强大模型(不考虑推理模型o1的情况下)。

  1. 推理与知识能力

  • 在研究生级别推理任务(GPQA)中,新版Claude 3.5 Sonnet表现最好,达到65.0%,优于其他模型且远高于GPT-4o
  • 在本科级别知识任务(MMLU Pro)中,Claude 3.5 Sonnet依旧领先,得分为78.0%,高于Gemini 1.5 Pro
  • 代码编写与工具使用

    • 在代码编写任务(HumanEval)上,Claude 3.5 Sonnet以93.7%再次拔得头筹。
    • 在自主代码编写(SWE-bench Verified)和工具使用任务(TAU-bench)上,新版本Claude 3.5 Sonnet相较上一代模型有着明显的提升。
  • 数学问题解决

    • Claude 3.5 Sonnet在数学问题解决任务(MATH)中得分为78.3%,不错,但低于Gemini 1.5 Pro的86.5%。
    • 在高中数学竞赛任务(AIME 2024)中,得分为16.0%。
  • 视觉问答和自主工具使用

    • 在视觉问答任务(MMMU)中,Claude 3.5 Sonnet得分为70.4%,稍高于GPT-4o

    Claude 3.5 Sonnet

    升级后的Claude 3.5 Sonnet在多项AI基准测试中有着显著提升,尤其是在自主代码编写和工具使用任务上。代码编写方面,Claude 3.5 Sonnet在SWE-bench Verified基准测试中的表现从33.4%提升至49.0%,超越了所有公开可用的模型,包括像OpenAI o1-preview这样的推理模型。在工具使用任务TAU-bench中,Claude 3.5 Sonnet在零售领域的表现从62.6%提升至69.2%,在更具挑战性的航空领域,其表现也从36.0%提高到了46.0%。

    Anthropic早期参与测试的客户反馈与上面的基准测试结果非常吻合——Claude在代码编写方面越来越强了。GitLab在其DevSecOps任务中测试了该模型,结果显示其推理能力提升了10%,且没有增加任何延迟。Cognition使用该模型进行AI自主评估后,在代码编写、规划和问题解决方面取得了显著提升。The Browser Company在自动化网页工作流时,也表示新版Claude 3.5 Sonnet超越了他们测试过的所有其他模型。

    Claude 3.5 Haiku

    Haiku系列自Claude 3起就是速度最快,成本最低的模型。今天发布的Claude 3.5 Haiku是Claude系列模型中响应速度最快的模型,延续了Claude 3 Haiku的成本和速度优势的前提下,“智商”也有所提升。在多个AI基准测试中,Claude 3.5 Haiku的表现甚至超越了上一代最强模型Claude 3 Opus。尤其是代码编写任务,Claude 3.5 Haiku在SWE-bench Verified基准测试中得分40.6%,超过了老版本的Claude 3.5 SonnetGPT-4o

    Claude 3.5 Haiku暂时还没有正式发布,Anthropic表示将在本月晚些时候通过Claude API、Amazon Bedrock和Google Cloud的Vertex AI推出,早期将仅支持文本输入,随后会增加图像输入功能。

    计算机操作(Computer Use)

    计算机操作(Computer Use),这无疑是一个重磅炸弹。简单来说,就是让Claude像我们人类一样操作计算机。现在的Claude已经能够理解指令,有了计算机操作功能,Claude还能实际动手“操作”电脑,包括看屏幕、移动鼠标、点击按钮、输入文字,完成很多以前需要人手动去做的重复任务。

    举个例子,假设你希望Claude帮忙填写一张表格,它可以自己去打开浏览器、找到合适的网页,然后从你的本地文件里获取数据,填入表格并提交。这就像你教会了Claude使用电脑,它能代替你执行一些重复性、繁琐的任务。

    不同于为Claude设计专门的工具以完成特定任务,Anthropic设计该功能的初衷是教会Claude通用的计算机操作技能,使其能够使用为人类设计的各种标准工具和软件程序。开发者可以利用这一初步的能力,自动化处理重复性流程、构建和测试软件,或进行开放式的研究任务。

    为了实现这些通用技能,Anthropic研发团队开发了一个API,使Claude能够感知并与计算机界面进行交互。开发者可以将该API集成到软件系统中,让Claude将指令(如“使用我的计算机和网络数据来填写这张表格”)转化为具体的计算机操作(例如,检查电子表格,移动光标打开网络浏览器,导航至相关网页,利用网页上的数据填表等)。在专门评估AI模型使用计算机能力的OSWorld平台,Claude 3.5 Sonnet在仅使用截图的类别中得分14.9%,远高于下一名的7.8%。当允许更多操作步骤时,Claude的得分提升至22.0%。

    但值得注意的是,Claude目前的计算机操作能力还处于早期阶段。Anthropic官方表示,一些人类可以轻松完成的动作——如滚动、拖拽、缩放——对于Claude来说仍是挑战。



    精选推荐

    1. 国内支付宝开通ChatGPT Plus和Claude Pro 2024最新教程!
    2. 『AI保姆级教程』无需手机号!三分钟注册ChatGPT账号!2024年最新教程!
    3. 『AI保姆级教程』手把手教你注册Claude账号!建议收藏!


    都读到这里了,点个赞鼓励一下吧,小手一赞,年薪百万!😊👍👍👍。关注我,AI之路不迷路,原创技术文章第一时间推送🤖。

    AI信息Gap
    AI信息差,让一部分人先AI起来。
     最新文章