深夜重磅！Anthropic 推出 Claude 3.5 Sonnet 升级版和 Claude 3.5 Haiku

学术 2024-10-23 12:06 北京

昨晚，Anthropic 宣布推出升级版 Claude 3.5 Sonnet 和新模型 Claude 3.5 Haiku。升级后的 Claude 3.5 Sonnet 与前代产品相比有了全面的改进，尤其是在编码方面有了显著的提高——在这一领域，Claude 3.5 Sonnet 已经处于领先地位。Claude 3.5 Haiku 在许多评估中的性能与 Claude 3 Opus（他们之前最大的机型）不相上下，而成本和速度却与上一代 Haiku 相当。

Asana、Canva、Cognition、DoorDash、Replit 和 The Browser Company 已经开始探索这些可能性，执行需要数十步甚至数百步才能完成的任务。例如，Replit 公司正在利用 Claude 3.5 Sonnet 在计算机使用和用户界面导航方面的能力，开发一项关键功能，在为其 Replit Agent 产品构建应用程序时对其进行评估。

升级版 Claude 3.5 Sonnet 现已面向所有用户开放。从今天开始，开发人员可以在 Anthropic API、亚马逊 Bedrock 和谷歌云的 Vertex AI 上使用计算机使用测试版进行构建。新版 Claude 3.5 Haiku 将于本月晚些时候发布。

Claude 3.5 Sonnet：业界领先的软件工程技能

更新后的 Claude 3.5 Sonnet 在业界基准测试中取得了广泛的改进，尤其是在智能体编码和工具使用任务中取得了巨大的进步。在编码方面，它将 SWE-bench Verified 的性能从 33.4% 提高到 49.0%，得分高于所有公开可用的模型，包括 OpenAI o1-preview 等推理模型和专为智能体编码设计的专业系统。它还提高了智能体工具使用任务 TAU-bench 的性能，在零售领域从 62.6% 提高到 69.2%，在更具挑战性的航空领域从 36.0% 提高到 46.0%。新版 Claude 3.5 Sonnet 在价格和速度上与上一代产品保持一致，并取得了上述进步。

早期的客户反馈表明，升级版 Claude 3.5 Sonnet 代表了人工智能驱动的编码技术的重大飞跃。GitLab 针对 DevSecOps 任务对该模型进行了测试，发现它的推理能力更强（在不同的使用案例中可达 10%），而且没有增加延迟，是支持多步骤软件开发流程的理想选择。Cognition 使用新的 Claude 3.5 Sonnet 进行自主人工智能评估，与前一版本相比，在编码、规划和问题解决方面有了大幅改进。The Browser Company 在将该模型用于基于网络的工作流程自动化时，注意到 Claude 3.5 Sonnet 的性能优于他们之前测试过的所有模型。

作为他们与外部专家合作的持续努力的一部分，新的 Claude 3.5 Sonnet 模型的联合部署前测试由 Claude 3.5 Sonnet 模型的联合测试团队进行。美国人工智能安全研究所（US AISI）和英国安全研究所（UK AISI）对新的 Claude 3.5 Sonnet 型号进行了联合部署前测试。

他们还对升级后的 Claude 3.5 Sonnet 进行了灾难性风险评估，发现他们的“负责任扩展政策”中规定的 ASL-2 标准仍然适用于该型号。

Claude 3.5 Haiku：与经济性和速度的 SOTA 结合

Claude 3.5 Haiku 是他们下一代速度最快的模型。在与 Claude 3 Haiku 相同的成本和速度下，Claude 3.5 Haiku 在各种技能方面都有所提高，甚至在许多智能基准测试中超过了 Claude 3 Opus，后者是他们上一代中最大的模型。Claude 3.5 Haiku 在编码任务方面表现尤为突出。例如，它在 SWE-bench 验证中的得分率为 40.6%，超过了许多使用公开的 SOTA 模型的智能体——包括原始的 Claude 3.5 Sonnet 和 GPT-4o。

Claude 3.5 Haiku 具有低延迟、改进的指令跟踪和更准确的工具使用等特点，非常适合面向用户的产品、专门的子智能体任务以及从海量数据中生成个性化体验（如购买和使用）。

Claude 3.5 Haiku 将于本月晚些时候通过他们的 first-party API、亚马逊 Bedrock 和 Google Cloud 的 Vertex AI 提供，最初是纯文本模型，随后将提供图像输入。

http://mp.weixin.qq.com/s?__biz=Mzg4MDE3OTA5NA==&mid=2247592554&idx=1&sn=e6af28044d80fdb149e08d1e458f872f

学术头条

致力于学术传播和科学普及，重点关注AI4Science/大模型等前沿科学进展。

深度访谈｜AI 如何改变预测科学？看看统计学家怎么说

AI斩获6枚金牌！华为Kaggle大师级智能体诞生，自主解决数据科学难题

OpenAI官方指南：12条实用建议，手把手教学生用ChatGPT写作

Stability AI出官方教程了，带你轻松玩转Stable Diffusion 3.5

哈佛、MIT提出「精度感知」Scaling Laws；首个金融LLM综合双语基准｜大模型日报

OpenAI首位投资者《时代》刊文：AI将重新定义「人类的意义」

华为科学智能体 Agent K v1.0已达 Kaggle 大师水平；Meta团队提出自一致性偏好优化ScPO｜大模型日报

终于，AlphaFold3 开源了！代码免费下载，可用于非商业用途

OpenAI大改下代大模型方向，scaling law撞墙？AI社区炸锅了

清华、国科大、智谱团队提出LongReward：利用AI反馈改进长文本大语言模型

创纪录！首幅人形机器人绘制作品拍出108万美元；王慧文回归美团，带队探索AI应用｜一周热门

智谱「新清影」是怎样炼成的？CogVideoX+CogSound 技术详解

AI 的「phone use」竟是这样练成的，清华、智谱团队发布 AutoGLM 技术报告

清华、北大团队推出「安卓智能体」训练评估新框架 AndroidLab

Nature重磅：AI化学家再升级！大幅提升实验效率，推动化学合成进入“智能化”新阶段

研究实锤：别让大模型「想」太多，OpenAI o1准确率竟下降36.3%

清华、北大团队推出「安卓智能体」训练评估框架AndroidLab；Meta提出视频生成加速方法AdaCache｜大模型日报

科研人神器！接入5000万篇正版文献，知乎直答「专业搜索」太能打了

Meta 推出全新视频扩散模型 MarDini；周靖人团队：扩散 Transformer 的上下文 LoRA｜大模型日报

NeurIPS 2024｜清华、加州理工重磅研究：强化自训练方法 ReST-MCTS*，让大模型持续“升级”

港大打造 LightRAG：让大模型 RAG 高效又便宜

深夜重磅！ChatGPT可以“AI搜索”了，但并不完美

OpenAI最新研究：「打假高手」大模型事实性基准SimpleQA来了，已开源

小语言模型SLM综述｜大模型论文日报

大模型已过时、小模型SLM才是未来？苹果正在研究这个

超出人类思维的「系统0」：AI正在创造一种新的思维方式吗？

中国AI大模型出海，如何应对美国管制？最新报告给出了5个建议｜附下载链接

Nature封面：“揭穿”一切！Google DeepMind为AI大模型添加了“隐形指纹”

困扰18亿人的“全球干旱”，被AI更准确预测了

OpenAI又有高管走了，还发了篇长文

前OpenAI研究员：我必须离开；a16z创始合伙人：当前AI发展就像“卖大米”｜一周热门

刚刚，智谱推出情感语音模型 GLM-4-Voice，懂你的情绪，人人可用

不止 computer use，AI 的「phone use」也来了

今天，把电脑交给大模型

清华、腾讯团队提出预训练语言模型知识蒸馏框架 MiniPLM｜大模型论文日报

来了！Stability AI 推出 Stable Diffusion 3.5

深夜重磅！Anthropic 推出 Claude 3.5 Sonnet 升级版和 Claude 3.5 Haiku

刚刚，OpenAI最强竞对官宣：大模型可以使用电脑了

DeepMind创始人最新访谈：今年的诺贝尔奖，就像是AI的分水岭

微软提出新型注意力机制SeerAttention；清华、智谱团队提出“预训练蒸馏”｜大模型日报

OpenAI o1 模型推理模式的比较研究｜大模型论文日报

哈佛重磅突破！AI确定17000多种疾病候选药物，罕见病“孤儿药”不再遥远？

132年未解开的李雅普诺夫函数谜题，被Symbolic Transformer攻克了

Meta被斥：他们污染了“开源”一词；李开复：零一万物绝不放弃预训练模型｜一周热门

“AI调解员”登上Science！Google DeepMind打造，“劝架”水平远超人类

Meta提出思维偏好优化TPO；谷歌推出可穿戴基础模型LSM｜大模型论文日报

美国FDA：警惕AI大模型带来的未知问题，亟需监管创新

3B 超越 7B，Mistral AI 推出端侧模型 Ministral 3B 和 8B

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉