重磅！Anthropic发布Claude 3.5 Haiku、升级版Sonnet和计算机自动化操作功能！

文摘 2024-10-23 05:12 美国

大家好，我是木易，一个持续关注AI领域的互联网技术产品经理，国内Top2本科，美国Top10 CS研究生，MBA。我坚信AI是普通人变强的“外挂”，所以创建了“AI信息Gap”这个公众号，专注于分享AI全维度知识，包括但不限于AI科普，AI工具测评，AI效率提升，AI行业洞察。关注我，AI之路不迷路，2024我们一起变强。

今天，AI领域“最靓的仔”注定属于Claude。

北美时间10月22日，Anthropic，开发出Claude AI的那家AI初创公司，发布了两个新模型：Claude 3.5 Haiku和升级版的Claude 3.5 Sonnet，以及一个令人眼前一亮的新功能：计算机操作（Computer Use）。

相信Claude模型/工具是很多小伙伴的心头好，某些方面甚至超过了OpenAI的GPT-4o。今天发布的新版本Claude 3.5 Sonnet是6月20日第一版本Claude 3.5 Sonnet的升级版，据Anthropic官方表示，新版本的Sonnet模型在多个方面都有提升，尤其是在代码编写（Coding）方面。而编程一直以来都是Claude 3.5 Sonnet的传统强项，这下更强了。

另一个全新的模型Claude 3.5 Haiku在AI基准评测中表现出色，几乎与Claude 3.5前一代中的最强模型Claude 3 Opus相当，速度和成本与上一代Haiku基本一致。总结来说，就是更快，更强，更便宜。

伴随两个新模型同时发布的还有一个具有突破性意义的新功能：计算机操作（Computer Use），目前该功能已进入beta公测阶段。通过最新版的Claude 3.5 Sonnet API，开发者可以指挥Claude像人类一样操作计算机——比如浏览屏幕、移动光标、点击按钮，甚至输入文字。Anthropic表示，Asana、Canva、Cognition、DoorDash、Replit和The Browser Company等企业已开始探索这一全新可能性，执行那些需要几十甚至上百步才能完成的复杂任务。例如，Replit正在尝试使用Claude 3.5 Sonnet的计算机操作和UI导航能力，为其Replit Agent产品开发一个能够在应用构建过程中进行评估的功能。

目前，升级版Claude 3.5 Sonnet已对所有用户开放。开发者可以通过Anthropic API、Amazon Bedrock和Google Cloud的Vertex AI，体验计算机操作功能。而Claude 3.5 Haiku则将在本月晚些时候发布。

Claude 3.5 Sonnet/Haiku基准测试解读

这下，升级后的Claude 3.5 Sonnet成了名副其实的最强大模型（不考虑推理模型o1的情况下）。

推理与知识能力：

在研究生级别推理任务（GPQA）中，新版Claude 3.5 Sonnet表现最好，达到65.0%，优于其他模型且远高于GPT-4o。
在本科级别知识任务（MMLU Pro）中，Claude 3.5 Sonnet依旧领先，得分为78.0%，高于Gemini 1.5 Pro。

代码编写与工具使用：

在代码编写任务（HumanEval）上，Claude 3.5 Sonnet以93.7%再次拔得头筹。
在自主代码编写（SWE-bench Verified）和工具使用任务（TAU-bench）上，新版本Claude 3.5 Sonnet相较上一代模型有着明显的提升。

数学问题解决：

Claude 3.5 Sonnet在数学问题解决任务（MATH）中得分为78.3%，不错，但低于Gemini 1.5 Pro的86.5%。
在高中数学竞赛任务（AIME 2024）中，得分为16.0%。

视觉问答和自主工具使用：

在视觉问答任务（MMMU）中，Claude 3.5 Sonnet得分为70.4%，稍高于GPT-4o。

Claude 3.5 Sonnet

升级后的Claude 3.5 Sonnet在多项AI基准测试中有着显著提升，尤其是在自主代码编写和工具使用任务上。代码编写方面，Claude 3.5 Sonnet在SWE-bench Verified基准测试中的表现从33.4%提升至49.0%，超越了所有公开可用的模型，包括像OpenAI o1-preview这样的推理模型。在工具使用任务TAU-bench中，Claude 3.5 Sonnet在零售领域的表现从62.6%提升至69.2%，在更具挑战性的航空领域，其表现也从36.0%提高到了46.0%。

Anthropic早期参与测试的客户反馈与上面的基准测试结果非常吻合——Claude在代码编写方面越来越强了。GitLab在其DevSecOps任务中测试了该模型，结果显示其推理能力提升了10%，且没有增加任何延迟。Cognition使用该模型进行AI自主评估后，在代码编写、规划和问题解决方面取得了显著提升。The Browser Company在自动化网页工作流时，也表示新版Claude 3.5 Sonnet超越了他们测试过的所有其他模型。

Claude 3.5 Haiku

Haiku系列自Claude 3起就是速度最快，成本最低的模型。今天发布的Claude 3.5 Haiku是Claude系列模型中响应速度最快的模型，延续了Claude 3 Haiku的成本和速度优势的前提下，“智商”也有所提升。在多个AI基准测试中，Claude 3.5 Haiku的表现甚至超越了上一代最强模型Claude 3 Opus。尤其是代码编写任务，Claude 3.5 Haiku在SWE-bench Verified基准测试中得分40.6%，超过了老版本的Claude 3.5 Sonnet和GPT-4o。

Claude 3.5 Haiku暂时还没有正式发布，Anthropic表示将在本月晚些时候通过Claude API、Amazon Bedrock和Google Cloud的Vertex AI推出，早期将仅支持文本输入，随后会增加图像输入功能。

计算机操作（Computer Use）

计算机操作（Computer Use），这无疑是一个重磅炸弹。简单来说，就是让Claude像我们人类一样操作计算机。现在的Claude已经能够理解指令，有了计算机操作功能，Claude还能实际动手“操作”电脑，包括看屏幕、移动鼠标、点击按钮、输入文字，完成很多以前需要人手动去做的重复任务。

举个例子，假设你希望Claude帮忙填写一张表格，它可以自己去打开浏览器、找到合适的网页，然后从你的本地文件里获取数据，填入表格并提交。这就像你教会了Claude使用电脑，它能代替你执行一些重复性、繁琐的任务。

不同于为Claude设计专门的工具以完成特定任务，Anthropic设计该功能的初衷是教会Claude通用的计算机操作技能，使其能够使用为人类设计的各种标准工具和软件程序。开发者可以利用这一初步的能力，自动化处理重复性流程、构建和测试软件，或进行开放式的研究任务。

为了实现这些通用技能，Anthropic研发团队开发了一个API，使Claude能够感知并与计算机界面进行交互。开发者可以将该API集成到软件系统中，让Claude将指令（如“使用我的计算机和网络数据来填写这张表格”）转化为具体的计算机操作（例如，检查电子表格，移动光标打开网络浏览器，导航至相关网页，利用网页上的数据填表等）。在专门评估AI模型使用计算机能力的OSWorld平台，Claude 3.5 Sonnet在仅使用截图的类别中得分14.9%，远高于下一名的7.8%。当允许更多操作步骤时，Claude的得分提升至22.0%。

但值得注意的是，Claude目前的计算机操作能力还处于早期阶段。Anthropic官方表示，一些人类可以轻松完成的动作——如滚动、拖拽、缩放——对于Claude来说仍是挑战。

精选推荐

都读到这里了，点个赞鼓励一下吧，小手一赞，年薪百万！😊👍👍👍。关注我，AI之路不迷路，原创技术文章第一时间推送🤖。

http://mp.weixin.qq.com/s?__biz=MzkwMzYzMTc5NA==&mid=2247491267&idx=1&sn=a2796c830dd46a2ddd1447d8dc1f87ab

AI信息Gap

AI信息差，让一部分人先AI起来。

一文带你了解红队测试！

AI眼中的麦琳...

国内首个对标o1的推理模型发布：DeepSeek-R1-Lite初体验！

ChatGPT高级语音模式正在向Web网页端推出！

ChatGPT Search VS Kimi探索版：AI搜索哪家强？！

AI Weekly『11月11-17日』：Kimi发布新一代数学推理模型，腾讯推出AI工作台ima！

谷歌Gemini发布iOS版App，live语音聊天免费用！

『深度分析』AI搜索的3大使用场景！

马斯克的xAI已开通网页版！目前免费！附详细教程和初体验

OpenAI花费千万美元购买了这个域名！

AI Weekly『11月4-10日』: Anthropic发布Claude 3.5 Haiku，腾讯开源混元-Large模型！

Sam Altman：年底将有重磅更新，但不是GPT-5！

马斯克发福利，每月免费25美元xAI API！附详细教程

我找了8个AI搜索工具总结2024美国大选，哪个最强？

Apple Intelligence体验报告/使用教程（一）：写作工具篇

ChatGPT Search浏览器插件手把手教学！OpenAI官方出品！

ChatGPT Search重磅发布！OpenAI牌搜索引擎来了！

聊一聊ChatGPT的两个更新：不起眼，但很重要！

一文记录Apple Intelligence从开始到设置全过程！

Apple Intelligence正式发布，送你这份完全攻略！

OpenAI CEO山姆·奥特曼亲自辟谣新模型Orion：假新闻失控了！

刚刚，Claude发布了数据分析功能！附详细教程！

OpenAI低调发布多智能体工具Swarm：让多个智能体协同工作！

重磅！Anthropic发布Claude 3.5 Haiku、升级版Sonnet和计算机自动化操作功能！

Claude Financial Data Analyst：基于Claude的金融数据分析工具！免费开源！

ChatGPT官方桌面客户端的平替，Github 52.7K Stars！支持Mac、Win、Linux！

刚刚，ChatGPT推出Windows客户端！

Kimi VS 智谱 VS 360：推理型AI搜索哪家强？！

盘点5个你应该知道的ChatGPT近期更新！免费实时语音终于来了！

OpenAI提示词生成工具详解！一键生成提示词！

『深度分析』Kimi版o1来了！Kimi探索版全面解读！

准备进入AI第三阶段：OpenAI推出AI Agent基准MLE-bench！

AI教父荣获2024诺贝尔物理学奖：杰弗里·辛顿和他的深度学习之路！

公众号GPT-4o mini免费AI聊天机器人已恢复！

Apple Intelligence将于10月28日发布，ChatGPT集成推迟！

『建议收藏』ChatGPT Canvas功能进阶使用指南！

OpenAI为ChatGPT推出Canvas功能，对标Claude Artifacts！

媲美GPT-4o mini的小模型，Meta Llama 3.2模型全面解读！

ChatGPT实时语音将于本周向免费用户推出：OpenAI DevDay 2024详细解读

使用OpenAI最新模型o1的6种方式，总有一种适合你！

现实版宫斗剧《OpenAI传》，正在上演！

关于ChatGPT实时语音功能，你需要知道的15点总结！

重磅！ChatGPT实时语音终于要来了！附详细使用说明

让AI激发创作力：OpenAI分享5位专业作家利用ChatGPT写作的案例技巧

『深度长文』Anthropic推出全新“上下文检索”：大幅增加RAG检索准确性！

国内支付宝开通ChatGPT Plus和Claude Pro 2024最新教程！

美联储四年来首次降息意味着什么？来看看新模型o1怎么回答！

注意，传统的提示工程对新模型o1可能失效：来自OpenAI官方的4条提示词建议！

免费的新模型o1 mini即将到来：OpenAI正在逐步开放！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉