Claude3.5重磅升级：Sonnet编码能力秒杀o1，Haiku性价比无敌，还会自己玩电脑！

科技科技 2024-10-23 09:24 福建

‍关注我，记得标星⭐️不迷路

Anthropic 震撼发布升级版 Claude3.5Sonnet 和全新模型 Claude3.5Haiku，两款模型均在推理、编码和视觉处理方面取得了显著进步。Claude3.5Sonnet 进行了全面升级，其编码能力在业界领先，并在多项行业基准测试中表现出色。

尤其值得一提的是，它在 SWE-bench Verified 测试中取得了49.0% 的成绩，超越了所有公开模型，包括 OpenAI o1-preview 等推理模型以及专门为代理编码设计的系统。

此外，它在代理工具使用任务 TAU-bench 的零售领域也取得了69.2% 的成绩，在更具挑战性的航空领域取得了46.0% 的成绩。

最令人瞩目的是，Claude3.5Sonnet 率先在公开测试版中引入了“计算机使用”功能，该功能允许开发者像人一样使用电脑。这意味着 Claude 可以查看屏幕、移动光标、点击按钮和输入文本，为自动化流程、软件构建和测试以及开放式任务开辟了新的可能性。

Claude3.5Haiku 则是 Anthropic 最快的模型，其性能与 Claude3Opus 相当，但成本更低，速度更快。它在编码任务上表现尤为出色，例如在 SWE-bench Verified 测试中取得了40.6% 的成绩，超越了许多使用公开最先进模型的代理，包括最初的 Claude3.5Sonnet 和 GPT-4o。

Claude3.5Haiku 非常适合面向用户的产品、专门的子代理任务以及从海量数据（如购买历史记录、定价或库存记录）中生成个性化体验。

为了实现这些通用技能，Anthropic 构建了一个 API，允许 Claude 感知和交互计算机界面。开发者可以集成此 API，使 Claude 能够将指令（例如，“使用我的计算机和在线数据填写此表单”）转换为计算机命令(例如检查电子表格;移动光标以打开 Web 浏览器;导航到相关的网页;用这些网页上的数据填写表单等等)。

在评估 AI 模型像人一样使用计算机的能力的 OSWorld 测试中，Claude3.5Sonnet 在仅限屏幕截图的类别中取得了14.9% 的成绩，明显优于排名第二的 AI 系统7.8% 的成绩。当有更多步骤来完成任务时，Claude 的得分达到了22.0%。

Anthropic 强调，尽管预计此功能在未来几个月内将迅速改进，但 Claude 目前使用计算机的能力还不完美。人类可以轻松执行的一些操作（如：滚动、拖动、缩放）目前对 Claude 来说仍具有挑战性， Anthropic 鼓励开发者从低风险的任务开始探索。

由于计算机使用可能会为垃圾邮件、虚假信息或欺诈等更常见的威胁提供新的途径，因此 Anthropic 正在采取积极主动的方法来促进其安全部署。他们开发了新的分类器，可以识别何时使用计算机以及是否正在发生危害。

目前，Claude3.5Sonnet 已经向所有用户开放。从今天开始，开发者可以在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用“计算机使用”测试版进行构建。新的 Claude3.5Haiku 将于本月晚些时候发布。

关于AIbase>>

一个致力于让更多人了解并参与未来AI发展的平台

这里有最新AI资讯、100+ AI赚钱案例库、15000+AI产品库、保姆级AI工具教程

更多AI硬核内容直接访问AiBase官网，一键开启你的AGI之旅！

官网：https://www.aibase.com/zh/tools/

↓点击阅读原文，进AIbase官网.

http://mp.weixin.qq.com/s?__biz=MzIzNjg3NTUzOA==&mid=2247494423&idx=1&sn=f61a3303fdc99e1b0da6516dc36324a9

AIbase基地

每日AI新闻聚合阅读，掌握AI前沿资讯、AI新品、政策动向，洞察AI行业趋势，深思未来。

AI日报：科大讯飞星火多模态交互大模型上线；腾讯AI智能工作台ima上线Windows版;阿里通义实验室推出代码模式

大升级！ChatGPT Windows桌面版全面上线，macOS版新增与应用协作功能

remove饭碗被砸？免费高清抠图软件RMBG 2.0强力升级复杂背景也能抠干净

AI日报：OpenAI将推首款自主AI代理Operator；腾讯元宝2.0版本上线；AI加持苹果Final Cut Pro11

剁手党狂喜！AI试衣技术Fashion-VDM颠覆传统网购衣服再也不怕踩雷了！

AI日报：阿里海外推AI搜索引擎Accio；Vidu-1.5版本即将上线；百度“自由画布”公测；OpenAI技术大佬Greg回归

AI日报：百度世界2024大会发布文心iRAG和无代码“秒哒”；阿里开源Qwen2.5-Coder全系列

超自然AI换头技术CHANGER，以后再也不怕演员塌房了！

豆包大模型团队正式发布图像编辑模型SeedEdit 用嘴P图成真！

AI日报：Suno发布V4音乐生成模型；谷歌最新AI视频制作神器Vids；

还在用百度？让 ChatGPT 成为你的默认搜索引擎，AI 秒搜更智能！

Krea AI上线Lora训练功能我一顿操作猛如虎，结果......

AI日报：快手推“可灵AI”独立APP；百度将推AI智能眼镜；智谱AI开源CogVideoX v1.5并上线“新清影”

AI颠覆服装设计！FLUX.1-dev LoRA 服装生成器来了设计小白也能秒出服装效果图

AI日报：AI助手豆包开启视频生成内测；OpenAI买下Chat.com域名；阿里测试AI动漫创作工具 “Animode”

字节推出单图视频驱动模型 X-Portrait 2 超低成本高效的肖像动画技术

AI日报：InstantX推FLUX图像生成黑科技；面部迁移模型HelloMeme；游戏实时生成算法GameGen-X

黑神话悟空也能用AI生成了？GameGen-X 颠覆游戏开发，传统游戏瑟瑟发抖！

AI日报：腾讯推出Huanyuan-large开源模型；xAI面向开发者推出API；天工AI发布AI高级搜索功能

动画设计福音！Rive推Layouts功能画面自动适配各种屏幕，搞定排版难题！

Diffusion 模型也能“举一反三”？阿里IC-LoRA给图像生成模型增加情节记忆力能力

AI日报：Claude新增PDF文件处理功能；支持视频转视频的开源神器ComfyUI-MochiEdit

告别随机生成！Runway推出高级摄像机控制像导演一样掌控镜头

每天刷无数平台？Follow 一站搞定，只看好内容！

告别“假脸”模特！阿里EcomID重磅来袭原生支持ComfyUI 电商图片要变天？

带图层的AI生图软件来了！Blendbox Alpha 版发布支持实时调光影、改构图

AI日报：字节推AI模型社区平台炉米Lumi；神秘大模型“小熊猫”身份揭晓；ChatGPT高级语音模式登陆Mac

用AI制作爆火Ins小浣熊自拍视频小红书从0粉到13万粉的暴力增长法则

AI日报：SD轻量级3.5 Medium模型免费开放商用；Hedra 推出全新语音克隆功能；微信灰度测试AI问答功能

小红书博主私藏的AI玩图神器“妙刷”被我找到了!竟然完全免费...

又要被玩坏了！PixVerse V3升级：不但能玩AI捏捏，还能让杯子长腿

AI日报：神秘AI模型Red_panda横空出世；xAI为Grok添加图像理解功能；更多特效的PixVerse V3发布

告别配音演员？字节跳动PersonaTalk让AI精准配音，连表情细节都完美还原！

AI日报：AutoGLM智能体可自动帮点外卖；敏神重磅更新Flux版ic-light模型

工作慢如蜗牛？腾讯会思考的知识库 ima.copilot 一站搞定搜、读、写！

告别PS！Midjourney新增外部图像编辑器还可重绘光影和材质

AI日报：Claude上线数据分析功能；KREA AI推出视频延展功能；美图奇想大模型生图能力升级；苹果悬赏百万寻找AI漏洞

AI日报：科大讯飞星火4.0 Turbo大模型发布；全能型图像生成模型OmniGen问世；iOS18.2 正式接入ChatGPT

简单文本即可创建个性化语音！ElevenLabs 推出全新AI语音生成工具Voice Design

AI日报：Claude3.5重磅升级；Runway推生成式角色表演工具Act-One；Ideogram上线图片魔法填充功能

Claude3.5重磅升级：Sonnet编码能力秒杀o1，Haiku性价比无敌，还会自己玩电脑！

个人可免费商用！Stability AI发布Stable Diffusion3.5系列文生图模型

AI日报：Rhymes AI开源视频生成模型Allegro；Grok API正式上线；OPPO收购波形智能

ComfyUI发布桌面一键安装包ComfyUI V1 支持自动更新，自动安装Python依赖环境

AI日报：阿里开源文档模型DocOwl 1.5；Midjourney图像编辑器新功能下周上线；Viggle AI推对口型功能

马桶也能装"摄像头"？这家创企要用AI帮你看大便

AI日报：复旦、百度新模型可生成1小时长视频；全新ChatGPT Windows版本上线；NotebookLM又上2个新功能

复旦、百度联手打造全新AI模型Hallo2 可生成4K超高清+1小时超长视频！

AI日报：ChatGPT 月访问量突破 31 亿；英伟达推超快AI图像生成模型Sana；Mistral AI推超强边缘AI模型

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉