AI 会自己操控电脑了！Claude 3.5 重磅升级：不敲一行代码，3 分钟搞定一个网站

科技 2024-12-03 23:15 福建

本文经授权转自公众号CSDN（ID：CSDNnews）
整理 | 郑丽媛

仅一个晚上过去，Claude 3.5 的重磅升级令整个 AI 圈都为之一震：

“ChatGPT 很好，但我宣布今天过后 Claude 3.5 Sonnet 赢疯了！”
“太疯狂了！Anthropic 刚发布了 Claude 3.5 Sonnet & Haiku，它将彻底改变 AI Agent 的游戏规则。”
“毫无争议，Claude 3.5 Sonnet 就是所有写代码模型中的王！”

根据 Anthropic AI 的官方介绍，此次 Claude 3.5 模型升级主要包括升级版 Claude 3.5 Sonnet 和全新模型 Claude 3.5 Haiku：Claude 3.5 Sonnet 在各方面都比前版本有显著提升，特别是在编码方面；Claude 3.5 Haiku 在许多评估中与之前的最大模型 Claude 3 Opus 的性能相当，成本和速度也与前一代 Haiku 相似。

其中最引人注目的更新，无疑是：Claude 3.5 Sonnet 居然能像人一样使用电脑（Computer use）了！

1、“像人一样使用电脑”，3 分钟搞定网站设计&修改

不存在任何文字游戏，“像人一样使用电脑”与其字面意思一致：升级版 Claude 3.5 Sonnet 具备一项突破性的全新能力“Computer use”，即开发者可以通过 API 指示 Claude 像人一样使用计算机，包括观察屏幕、移动光标、点击按钮和输入文本等等。

在实现该功能的过程中，Anthropic AI 尝试了一种新方法：不是为 Claude 创建特定工具来完成单独任务，而是教会它通用计算机技能，使其能够使用一系列为人设计的标准工具和软件程序。

基于这样的设计理念，Anthropic AI 构建了一个 API，使 Claude 能够感知并与计算机界面互动。开发者可以集成该 API，使 Claude 能够将指令转化为计算机命令，实现任务的自动化和智能化。

例如，收到“使用我计算机上的数据和在线数据填写此表格”这句指令，Claude 可将其转化为：检查电子表格；移动光标以打开网页浏览器；导航至相关网页；使用这些页面中的数据填写表格。

所谓耳听为虚，Anthropic 研究员 Alex Albert 亲自录制了一个 demo：如何利用 Claude 自动完成一个网站编码任务。

（1）首先，要求 Claude 在 Chrome 浏览器中导航到 Claude.ai，并创建一个有趣的、以 90 年代为主题的个人主页。

（2）想要对这个网站做一些修改，可要求 Claude 点击下载并保存文件，然后在 VS Code 中将其打开。

（3）让 Claude 启动一个服务器，以便在浏览器中查看该文件。这一过程中 Claude 首次遇到了问题：尝试启动服务器，但设备中并没有安装 Python。意外的是 Claude 通过查看终端输出，自己发现了这个问题，之后用 Python 3 再次尝试后，成功启动了服务器。

（4）Alex Albert 发现终端输出中有个错误，即顶部还缺少了一个文件图标，便要求 Claude 自己识别并将其修复。结果：Claude 顺利找到并删除了引发错误的代码行，保存文件并重新运行后，网站终于再无其他问题！

以上整个过程，包括 Alex Albert 的讲解在内，仅仅只用了 3 分钟。

目前，Claude 3.5 Sonnet 已在公测阶段，且是业内首个在公测阶段提供“Computer use”功能的前沿 AI 模型——不过，千万别因此着急解雇你的助理，Anthropic 还补充道：“此阶段仍处于实验阶段，偶尔可能显得笨拙且容易出错。”

例如，在一项旨在测试 AI Agent 帮助完成机票预订任务的评估中，升级版 Claude 3.5 Sonnet 成功完成的任务不到一半；在另一项涉及发起退票等任务的测试中，Claude 3.5 Sonnet 的失败率也超过了 30%

Anthropic 承认，目前 Claude 3.5 Sonnet 的“Computer use”功能仍不完美。一些人们能轻松完成的操作（如滚动、拖动、缩放）目前对 Claude 来说仍具挑战性，整体速度也很慢，因此鼓励开发者从低风险任务开始探索。

尽管如此，Anthropic 依旧对“Computer use”的前景充满期待，并相信它将随着时间的推移迅速改善。据悉，目前 Asana、Canva、Cognition、DoorDash、Replit 和 The Browser Company 等公司已经开始探索 Claude 3.5 Sonnet 的可能性，尝试令其自动执行需要数十，甚至上百个步骤才能完成的任务。

正如 Anthropic 所说，这项尚处于起步阶段的技术，将从初步部署中不断学习并进步。

2、Claude 3.5 Sonnet 编码能力大幅提升

除了惊艳亮相的“Computer use”功能，升级后的 Claude 3.5 Sonnet 在行业基准测试中也有大幅改进，尤其在自主编码和工具使用任务上尤为突出。

在编码方面，Claude 3.5 Sonnet 在 SWE-bench Verified 上的表现从 33.4% 提升至 49.0%，超过所有公开可用的模型，包括 OpenAI o1-preview 和专为自主编码设计的系统。不仅如此，它在 TAU-bench（一个自主工具使用任务）中的表现也有显著提升：在零售领域从 62.6% 增加到 69.2%，在更具挑战性的航空领域从 36.0% 提升到 46.0%。

“全新的 Claude 3.5 Sonnet 在保持与前代相同的价格和速度的同时，实现了这些进步。”

除此之外，Anthropic 表示许多早期客户也反馈道，升级版 Claude 3.5 Sonnet 是 AI 驱动编码的一次重要飞跃：

GitLab 在对 DevSecOps 任务进行测试时发现，Claude 3.5 Sonnet 的推理能力提高了（在各种用例中最高可达 10%），且没有增加延迟，成为多步骤软件开发流程的理想选择；
Cognition 使用新版本 Claude 3.5 Sonnet 进行自主 AI 评估，发现其在编码、规划和问题解决方面的表现比之前的版本有了显著改善；
The Browser Company 在使用该模型自动化基于网页的工作流程时，注意到 Claude 3.5 Sonnet 超越了他们以往测试过的所有模型。

3、超越 GPT-4o，Claude 3.5 Haiku 推出在即

本次与 Claude 3.5 Sonnet 一同推出的，还有 Claude 3.5 Haiku——Anthropic 将其形容为：“高端性能与经济实惠的结合”。

据介绍，在与 Claude 3 Haiku 相同成本和类似速度下，Claude 3.5 Haiku 在每项技能上都有所提升，并在许多智能基准测试中超越了 Claude 3 Opus（Anthropic 的上一代最大模型）。在编码任务上，Claude 3.5 Haiku 的表现也尤为强劲，例如它在 SWE-bench Verified 上得分 40.6%，超越了原版 Claude 3.5 Sonnet 和 GPT-4o 等高端模型代理。

Anthropic 介绍道，凭借低延迟、改善的指令跟随能力和更准确的工具使用，Claude 3.5 Haiku 非常适合面向用户的产品、专门的子代理任务，以及根据大量数据生成个性化体验——如购买历史、定价或库存记录。

据悉，Claude 3.5 Haiku 将在本月晚些时候通过 Anthropic 官方 API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 提供。需要注意的是，初期 Claude 3.5 Haiku 仅作为文本模型提供，后续将推出图像输入功能。

展望未来，Anthropic 呼吁开发者积极探索 Claude 3.5 的新模型以及“Computer use”功能，也期待这些发展为人们带来更多 AI 应用的可能性。

参考链接：https://www.anthropic.com/news/3-5-models-and-computer-use

本文转自公众号“CSDN”，ID：CSDNnews

---END---

程序猿

传播编程经验，挖掘程序员优秀的学习资源。

最新文章

各位，请做好3年内随时可能失业的准备！

红帽RHEL将成为微软官方WSL发行版

多年的编程教会了我

年薪20+万美元，每周仅工作5小时？斯坦福研究发现：9.5%的“幽灵工程师”每年浪费900亿美元！

适用于AI的“C语言”？卡内基梅隆大学又又又发明新语言了

鸿蒙微信能看到好友备注，网友遭遇“社死”

网传一些著名互联网公司的实习工资

没日没夜创业“卷”了20个月、胖了30斤，AI大牛：还是重回Google香！

太戏剧了！被字节起诉索赔 800 万的实习生，拿下 NeurIPS 2024 最佳论文

“TP-LINK物联”回应成“酒店偷拍专属工具”：设备有防火墙，遇非法监控建议报警

最美Linux发行版、macOS开源替代方案——elementary OS 8正式发布

字节起诉实习生，索赔800万！

AI 会自己操控电脑了！Claude 3.5 重磅升级：不敲一行代码，3 分钟搞定一个网站

刚刚，网易云音乐又崩了！官方回应

人类已知最大素数诞生：2¹³⁶²⁷⁹⁸⁴¹−1！前英伟达员工数千GPU爆肝算出，高达4100万位

网友喊话雷军生产卫生巾，网友的评论笑死我了

欣赏这个公司的举个手

“我们将告别 Kubernetes！”

勾股定理还能这样证明？高中生一连发现10种证明方法，陶哲轩点赞

我抛弃了 VS Code，拥抱这个爆火的 IDE！

微软Visual C++编译器团队架构师力挺C++26，称其是C++11以来最具影响力的版本

找工作直接跟老板谈！雷军现身成都，小伙当面递上简历，网友：一个敢递一个敢接

欣赏这个公司的举个手

对自我清晰的认知

Python首次超越JavaScript，GitHub年度报告发布！

35岁草根程序员下桌，去另一个赛道写“Hello World”

Go 即将冲击 JavaScript 地位，TIOBE 11 月榜单发布！

银行老员工站工位上悬绳轻生，内部爆料：降薪逼员工辞职、放弃工龄、签外包合同

.NET 9 正式发布！

17年不更新，世界上最简陋的网站，收割了全世界的程序员

已婚程序员

很严重了，劝大家极限存钱吧，从11月开始！

微信工程师：原生鸿蒙是一套新的技术框架，编程语言是独特的ArkTS语言

陶哲轩之后，华人再获数学塞勒姆奖，还是位90后

Linux 版微信正式官宣，居然选了这个 90 年代的“过气”框架

真cv工程师

刚刚！支付宝崩了？！网友急疯！最新消息来了

别搞混了！

8天累计加班41小时，39岁男子工作期间猝死，涉事公司：属劳务派遣

Win11 大更新先让用户“集体崩溃”：蓝屏死机、鼠标光标没了，9GB 缓存还删不掉！

最强15岁初中生：用开源项目赚到了数百万、超7年开发经验的全栈工程师、出任CTO

漫画 | Linux/Unix 比 Windows 差远了！

C/C++大限将至！美国强硬要求：2026年前关键软件必须全面剔除C

Elasticsearch开源仓库404，7万多star一夜清零

酒店开房订单“订后即焚”被指“鼓励出轨”，涉事平台回应

IT工程师在工作电脑存储64G不雅视频，公司发现后将其开除；员工辩称：我存了，但没看！赔我41万

用上这几个免费的后台管理模板，接个单不就方便了

姜萍造假实锤！阿里数赛出结果。。。

漫画 | 因为用了C语言，Linux内核代码一团糟！

不同工资的男生睡觉前会想什么？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉