神了：Claude 3.5能像人一样使用计算机，而且在编程、软件研发上进步显著

科技 2024-10-24 07:50 江苏

Anthropic新发布的 Claude 3.5 Sonnet 在编码、解决软件工程问题等方面取得了显著进步，超过了有强大推理能力的OpenAI o1模型，已处于领先地位。在Claude 3.5 Sonnet 测试版中推出了一项开创性的新功能：计算机使用(Computer Use)。现在，开发人员可以在 API 上指导 Claude 像人类一样使用计算机——通过查看屏幕、移动光标、单击按钮和键入文本。不少公司已经开始探索这些可能性，执行需要数十步、甚至数百步才能完成的任务。例如，Replit 正在使用 Claude 3.5 Sonnet 的Computer Use和 UI 导航功能来开发一项关键功能，该功能在为其 Replit Agent 产品构建应用程序时对其进行评估。

从现在开始，开发人员可以在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用Claude 3.5 Sonnet的Computer Use测试版构建软件。

Claude 3.5 Sonnet：行业领先的软件工程技能

更新后的 Claude 3.5 Sonnet 在软件研发上获得了广泛的改进，在智能体编码和工具使用任务方面取得了特别大的进步。在编码方面，它将 SWE-bench Verified 的性能从 33.4% 提高到 49.0%，得分高于所有公开可用的模型，包括 OpenAI o1-preview 等推理模型和专为智能体编码设计的专用系统。它还将 TAU-bench（一种代理工具使用任务）的性能从零售领域的 62.6% 提高到 69.2%，在更具挑战性的航空公司领域从 36.0% 提高到 46.0%。新的 Claude 3.5 Sonnet以与其前身相同的价格和速度提供这些进步。

早期客户反馈表明，升级后的 Claude 3.5 Sonnet代表了 AI 驱动的编码的重大飞跃。GitLab 针对 DevSecOps 任务测试了该模型，发现它提供了更强的推理能力（在用例中高达 10%），而且没有增加延迟，使其成为支持多步骤软件开发流程的理想选择。Cognition 使用新的 Claude 3.5 Sonnet 进行自主 AI 评估，与以前的版本相比，在编码、规划和问题解决方面有了实质性的改进。The Browser Company 在使用该模型自动化基于 Web 的工作流程时指出，Claude 3.5 Sonnet 的性能优于他们之前测试过的所有模型。

Claude 3.5 Haiku：最先进的技术与经济性和速度相结合

在与 Claude 3 Haiku 相同的成本和速度下，Claude 3.5 Haiku 在每项技能集上都有所提升，在许多智能基准测试中甚至超过了我们上一代最大的型号 Claude 3 Opus。Claude 3.5 Haiku 特别擅长编码任务。例如，它在 SWE-bench Verified 中的得分为 40.6%，优于许多使用公开可用的最先进模型的智能体，包括原始的 Claude 3.5 Sonnet 和 GPT-4o。

Claude 3.5 Haiku 具有低延迟、改进的指令遵循和更准确的工具使用，非常适合面向用户的产品、专门的智能体子任务，以及从大量数据（如购买历史记录、定价或库存记录）生成个性化体验。

Claude 3.5 Haiku 将于本月晚些时候通过我们自己的 API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 提供，最初作为纯文本模型提供，随后将提供图像输入。

教 Claude 负责任地使用计算机

在计算机的使用方面，我们正在尝试一些全新的事物。我们不是制作特定的工具来帮助 Claude 完成单个任务，而是向它传授通用的计算机技能，让它能够使用各种专为人们设计的标准工具和软件程序。开发人员可以使用这种新功能来自动化重复流程、构建和测试软件，以及执行研究等开放式任务。

为了实现这些通用技能，我们构建了一个 API，允许 Claude 感知计算机界面并与之交互。开发人员可以集成此 API，使 Claude 能够将说明（例如，“使用来自我的计算机和在线的数据来填写此表单”）转换为计算机命令（例如，检查电子表格; 移动光标以打开 Web 浏览器; 导航到相关网页; 使用这些页面中的数据填写表单; 等等）。在评估 AI 模型像人类一样使用计算机的能力的 OSWorld 上，Claude 3.5 Sonnet 在屏幕截图类别中的得分为 14.9%，明显高于第二好的 AI 系统的 7.8% 得分。当获得更多步骤来完成任务时，Claude 得分为 22.0%。

虽然我们预计这种能力将在未来几个月内迅速提高，但 Claude 目前使用计算机的能力并不完美。人们可以轻松执行的一些操作（滚动、拖动、缩放）目前给 Claude 带来了挑战，我们鼓励开发人员从低风险任务开始探索。由于计算机的使用可能会为更常见的威胁（如垃圾邮件、错误信息或欺诈）提供新的载体，因此我们正在采取积极主动的方法来促进其安全部署。我们开发了新的分类器，可以识别何时使用计算机以及是否发生伤害。您可以在我们关于开发计算机使用的帖子中阅读有关这项新技能背后的研究过程的更多信息，以及对安全措施的进一步讨论。

Claude 3.5 Sonnet 喊你参加AiDD峰会深圳站（最美季节11.8-9）

软件工程3.0时代

由于大模型（LLM）正在改变着千行百业，软件工程（SE）更是首当其冲，迎来软件工程3.0新时代：模型驱动研发、模型驱动运维。本公众号将致力于研究SE3.0时代的软件研发新范式、理论与方法，介绍SE3.0时代的工具与实践。

最新文章

敏捷教练会悲伤吗？Agile Alliance已并入PMI

展望2025年智能软件工程

共促软件行业智能化转型，智能化软件开发产业图谱编制正式启动

2024年，大模型驱动的智能软件研发有哪些进展？

汽车将进化成为智能时代的空间机器人

大模型时代的软件工程教育，路在何方？

OpenAI 将一场发布会改为12天直播：Day 1发布了两大产品chatGPT pro和o1正式版

想了解智能化软件工程现状？快来参与 2024 年度调研吧！

做正确之事：软件研发的成功之道

2024 年 12 个最佳UI自动化测试工具推荐

大模型下半场：如何开发出杀手级的工具或应用？

从自动化软件测试到自主测试，还差几步？

错了，打开“深度思考”，的确做对了

让DeepSeek最新推理模型R1-lite做一道数学题，结果走进死胡同了！

重磅消息：Grok-3终结了黎曼猜想？而却因此被迫暂停训练

Tong test：AGI测试评级的标准与平台

“软件质量报道” 下决心迎接 “软件工程3.0时代”

大模型时代的软件研发：正确的打开方式

十大生成式 AI 趋势和20家有前途的初创公司

谷歌DORA：2024年加速DevOps状态报告

AiDD峰会的“AI+测试”议题全面亮相

神了：Claude 3.5能像人一样使用计算机，而且在编程、软件研发上进步显著

邀您共赴年末盛会｜QECon北京站议题出炉

深度剖析：字节跳动大模型训练被实习生“投毒”事件

当AI接连不断赢得诺贝尔奖：是人类的终点还是新的起点？

从木匠到AI教父：Geoffrey Hinton的传奇之路

历史性里程碑：诺贝尔物理学奖首次授予AI学者

两张架构图，让你感受一下大模型的惊艳

最新！明天上交所全网测试

A股沸腾，系统被买崩了？压力测试没做好？

Sam Altman昨天发文：AI 奇点近在咫尺，我们将进入“智能时代”

QECon主旨演讲之一：代码大模型改进的双引擎:数据增强和知识增强

强化学习中的自博弈（Self-play）会开启大模型的“后训练”时代？

chatGPT o1 preview用一个小时干完了博士一年写的代码

软件工程3.0的解释

OpenAI o1 新模型在解决博士级别的科学问题上超越人类

AI 大模型：软件研发的革新力量与未来展望

面向开发人员的 12款强大的 AI 工具（下）

面向开发人员的 12个款强大的 AI 工具（上）

再次扬帆起航：启动2024年「软件研发应用大模型」的调查

推荐一款强大的开源编程助手Cursor

AiDD2024 「AI+研发数字峰会」北京站圆满收官！

由一份财报解读，给您参加AiDD峰会的四大理由

AI代替了我的右手，而且我再也回不去了！

AI+人访谈录：半路入行找到“人生坐标”

刚刚，与GPT-4o相媲美的开源大模型Llama 3.1发布了！

万字长文技术分析：CrowdStrike导致大规模系统崩溃事件

测试三大难题之一 “测试有效性” 的应对策略

软银孙正义：10年内，超级智能ASI水平将是人类的10000倍

测试三大难题之一 “测试充分性” 的应对策略

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉