AI 会自己操控电脑了！Claude 3.5 重磅升级：不敲一行代码，3 分钟搞定一个网站

文摘 2024-10-28 16:37 北京

整理 | 郑丽媛

出品 | CSDN（ID：CSDNnews）

仅一个晚上过去，Claude 3.5 的重磅升级令整个 AI 圈都为之一震：

“ChatGPT 很好，但我宣布今天过后 Claude 3.5 Sonnet 赢疯了！”
“太疯狂了！Anthropic 刚发布了 Claude 3.5 Sonnet & Haiku，它将彻底改变 AI Agent 的游戏规则。”
“毫无争议，Claude 3.5 Sonnet 就是所有写代码模型中的王！”

根据 Anthropic AI 的官方介绍，此次 Claude 3.5 模型升级主要包括升级版 Claude 3.5 Sonnet 和全新模型 Claude 3.5 Haiku：Claude 3.5 Sonnet 在各方面都比前版本有显著提升，特别是在编码方面；Claude 3.5 Haiku 在许多评估中与之前的最大模型 Claude 3 Opus 的性能相当，成本和速度也与前一代 Haiku 相似。

其中最引人注目的更新，无疑是：Claude 3.5 Sonnet 居然能像人一样使用电脑（Computer use）了！

“像人一样使用电脑”，3 分钟搞定网站设计&修改

不存在任何文字游戏，“像人一样使用电脑”与其字面意思一致：升级版 Claude 3.5 Sonnet 具备一项突破性的全新能力“Computer use”，即开发者可以通过 API 指示 Claude 像人一样使用计算机，包括观察屏幕、移动光标、点击按钮和输入文本等等。

在实现该功能的过程中，Anthropic AI 尝试了一种新方法：不是为 Claude 创建特定工具来完成单独任务，而是教会它通用计算机技能，使其能够使用一系列为人设计的标准工具和软件程序。

基于这样的设计理念，Anthropic AI 构建了一个 API，使 Claude 能够感知并与计算机界面互动。开发者可以集成该 API，使 Claude 能够将指令转化为计算机命令，实现任务的自动化和智能化。

例如，收到“使用我计算机上的数据和在线数据填写此表格”这句指令，Claude 可将其转化为：检查电子表格；移动光标以打开网页浏览器；导航至相关网页；使用这些页面中的数据填写表格。

所谓耳听为虚，Anthropic 研究员 Alex Albert 亲自录制了一个 demo：如何利用 Claude 自动完成一个网站编码任务。

（1）首先，要求 Claude 在 Chrome 浏览器中导航到 Claude.ai，并创建一个有趣的、以 90 年代为主题的个人主页。

（2）想要对这个网站做一些修改，可要求 Claude 点击下载并保存文件，然后在 VS Code 中将其打开。

（3）让 Claude 启动一个服务器，以便在浏览器中查看该文件。这一过程中 Claude 首次遇到了问题：尝试启动服务器，但设备中并没有安装 Python。意外的是 Claude 通过查看终端输出，自己发现了这个问题，之后用 Python 3 再次尝试后，成功启动了服务器。

（4）Alex Albert 发现终端输出中有个错误，即顶部还缺少了一个文件图标，便要求 Claude 自己识别并将其修复。结果：Claude 顺利找到并删除了引发错误的代码行，保存文件并重新运行后，网站终于再无其他问题！

以上整个过程，包括 Alex Albert 的讲解在内，仅仅只用了 3 分钟。

目前，Claude 3.5 Sonnet 已在公测阶段，且是业内首个在公测阶段提供“Computer use”功能的前沿 AI 模型——不过，千万别因此着急解雇你的助理，Anthropic 还补充道：“此阶段仍处于实验阶段，偶尔可能显得笨拙且容易出错。”

例如，在一项旨在测试 AI Agent 帮助完成机票预订任务的评估中，升级版 Claude 3.5 Sonnet 成功完成的任务不到一半；在另一项涉及发起退票等任务的测试中，Claude 3.5 Sonnet 的失败率也超过了 30%

Anthropic 承认，目前 Claude 3.5 Sonnet 的“Computer use”功能仍不完美。一些人们能轻松完成的操作（如滚动、拖动、缩放）目前对 Claude 来说仍具挑战性，整体速度也很慢，因此鼓励开发者从低风险任务开始探索。

尽管如此，Anthropic 依旧对“Computer use”的前景充满期待，并相信它将随着时间的推移迅速改善。据悉，目前 Asana、Canva、Cognition、DoorDash、Replit 和 The Browser Company 等公司已经开始探索 Claude 3.5 Sonnet 的可能性，尝试令其自动执行需要数十，甚至上百个步骤才能完成的任务。

正如 Anthropic 所说，这项尚处于起步阶段的技术，将从初步部署中不断学习并进步。

Claude 3.5 Sonnet 编码能力大幅提升

除了惊艳亮相的“Computer use”功能，升级后的 Claude 3.5 Sonnet 在行业基准测试中也有大幅改进，尤其在自主编码和工具使用任务上尤为突出。

在编码方面，Claude 3.5 Sonnet 在 SWE-bench Verified 上的表现从 33.4% 提升至 49.0%，超过所有公开可用的模型，包括 OpenAI o1-preview 和专为自主编码设计的系统。不仅如此，它在 TAU-bench（一个自主工具使用任务）中的表现也有显著提升：在零售领域从 62.6% 增加到 69.2%，在更具挑战性的航空领域从 36.0% 提升到 46.0%。

“全新的 Claude 3.5 Sonnet 在保持与前代相同的价格和速度的同时，实现了这些进步。”

除此之外，Anthropic 表示许多早期客户也反馈道，升级版 Claude 3.5 Sonnet 是 AI 驱动编码的一次重要飞跃：

GitLab 在对 DevSecOps 任务进行测试时发现，Claude 3.5 Sonnet 的推理能力提高了（在各种用例中最高可达 10%），且没有增加延迟，成为多步骤软件开发流程的理想选择；
Cognition 使用新版本 Claude 3.5 Sonnet 进行自主 AI 评估，发现其在编码、规划和问题解决方面的表现比之前的版本有了显著改善；
The Browser Company 在使用该模型自动化基于网页的工作流程时，注意到 Claude 3.5 Sonnet 超越了他们以往测试过的所有模型。

超越 GPT-4o，Claude 3.5 Haiku 推出在即

本次与 Claude 3.5 Sonnet 一同推出的，还有 Claude 3.5 Haiku——Anthropic 将其形容为：“高端性能与经济实惠的结合”。

据介绍，在与 Claude 3 Haiku 相同成本和类似速度下，Claude 3.5 Haiku 在每项技能上都有所提升，并在许多智能基准测试中超越了 Claude 3 Opus（Anthropic 的上一代最大模型）。在编码任务上，Claude 3.5 Haiku 的表现也尤为强劲，例如它在 SWE-bench Verified 上得分 40.6%，超越了原版 Claude 3.5 Sonnet 和 GPT-4o 等高端模型代理。

Anthropic 介绍道，凭借低延迟、改善的指令跟随能力和更准确的工具使用，Claude 3.5 Haiku 非常适合面向用户的产品、专门的子代理任务，以及根据大量数据生成个性化体验——如购买历史、定价或库存记录。

据悉，Claude 3.5 Haiku 将在本月晚些时候通过 Anthropic 官方 API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 提供。需要注意的是，初期 Claude 3.5 Haiku 仅作为文本模型提供，后续将推出图像输入功能。

展望未来，Anthropic 呼吁开发者积极探索 Claude 3.5 的新模型以及“Computer use”功能，也期待这些发展为人们带来更多 AI 应用的可能性。

参考链接：https://www.anthropic.com/news/3-5-models-and-computer-use

http://mp.weixin.qq.com/s?__biz=Mzg4NDQwNTI0OQ==&mid=2247583289&idx=1&sn=a024dfcbd61d7cc3772ecee44b303439

AI科技大本营

为AI领域从业者提供人工智能领域热点报道和海量重磅访谈；面向技术人员，提供AI技术领域前沿研究进展和技术成长路线；面向垂直企业，实现行业应用与技术创新的对接。全方位触及人工智能时代，连接AI技术的创造者和使用者。

最新文章

Sam Altman 最新万字访谈自曝：大模型必定贬值，但不投资反而是错？

36 年开发老兵试用 Cursor AI 编程：真香还是交智商税？

微软 AI CEO 穆斯塔法：小模型绝对是未来趋势，AI 会小到能装在冰箱贴上

Google 危矣？ChatGPT 真变 AI 搜索引擎了！

DeepMind 联合创始人、微软 AI CEO：我们是否该给技术按下暂停键？

一直在“错过”的英特尔：19 年前，放弃 20 亿美元收购英伟达；6 年前，拒绝 1 亿美元入股 OpenAI！

新一代开发者产品 InsCode AI IDE 亮相：新程序员时代，CTRL+J 开启

直面“AI 取代程序员”论，《新程序员 008：大模型驱动软件开发》正式上市！

产品经理怎样利用大模型时代月入 10W+？

对话蚂蚁开源蒋炜：让 Agent 把运维人员从 24 小时的待命中解放出来

AI 会自己操控电脑了！Claude 3.5 重磅升级：不敲一行代码，3 分钟搞定一个网站

在座的各位都是AI现实主义者，同时有那么一点儿理想

200+ 技术大咖汇聚星城，2024 1024 程序员节圆满落幕！

共筑智能应用新生态！OpenCV 之父领衔岳麓对话，2024 1024 程序员节正式开幕

海内外专家共话大模型、Rust、具身智能等最新进展，GOSIM CHINA 2024圆满收官！

花 3 万美元买“人工”智能？特斯拉 Optimus 机器人遭“打假”：有人在背后远程操控！

直击编程语言、App、AGI的开源实践，160+位全球技术专家齐聚，GOSIM CHINA 2024首日不容错过！

38岁老Mac“复工”，被改造上网！仅400B/s的速度，能和ChatGPT聊天、用Claude编码

架构师必备底层逻辑：分层架构设计

调查 800 名开发者后，研究发现：GitHub Copilot 无功无过，并未提升编码速度！

打造更安全、去中心化和协作的互联网！GOSIM CHINA 2024《下一代互联网》重磅嘉宾揭晓

图灵奖得主杨立昆：星舰不算科学成就，而是工程成就；现在 AI 全方面不如猫，智力、记忆和好奇心都差得远

Rust 群星闪耀！20+ 海内外顶尖 Rust 专家天团 GOSIM CHINA 2024 相聚北京

大模型驱动的产品范式创新研究与思考

SDV 峰会聚焦：下一代软件定义汽车的关键开源技术

腾讯写码 6 年，我总结的技术人核心竞争力

仓颉 Workshop：鸿蒙原生应用开发的技术盛宴

走近诺奖得主霍普菲尔德：“我当时寻找的是一道真正的‘难题’，而不是一个小问题”

Triton & vLLM 联袂呈现 AI 技术盛宴：高效推理框架的应用实践与未来创新

“深度学习教父”遇见诺贝尔物理学奖，唤起了 13 位 AI 界大神的回忆……

开创跨平台的未来！GOSIM CHINA 2024《App 开发》专题论坛重磅揭晓！

Sam Altman 也不得不服谷歌的这款 AI 应用？OpenAI CEO 对话 CPO，揭秘产品开发背后的故事

BAT、字节、快手等国内大模型TOP企业专家齐聚，2024全球机器学习技术大会前沿议题提前揭晓！

OpenAI 实时 API 震撼发布：语音应用的“ChatGPT”时刻来临！

高校开源爱好者集结令！GOSIM CHINA 2024 等你来！

9年开源项目宣告停更！创建者怒斥OpenAI、Google：互联网被AI污染了，我鄙视你们！

聚焦开源大模型前沿应用，GOSIM CHINA 2024《AI 模型与基础模型》专题论坛重磅揭晓！

CSDN 创始人蒋涛：不掌握 AI 开发者工具会丧失下一个战略高地

微软 Copilot 全面升级，语音模式正面硬刚 ChatGPT

程序员必备！面向Prompt编程全攻略

Transformer 作者离职 3 年后重返谷歌，被 189 亿元天价聘回！拯救谷歌 AI 于水火

软件的动态自修改是 AI 为软件开发带来的最大机会之一

全球Rust核心贡献者共话当下与未来！GOSIM CHINA 2024《Rust 编程语言》专题论坛重磅揭晓！

开源创新点燃机器人未来！GOSIM CHINA 2024《具身智能》专题论坛重磅揭晓！

万字深剖！13位AI巨擘联袂，1.6万字解码生成式AI产品「全攻略」

深夜动荡再现：OpenAI CTO、两位核心骨干官宣离职，Altman被曝将首次获7%股权

Llama 3.2多模态模型发布；扎克伯格：AI还没到扩展极限，Llama 4会在十万张显卡上训练 | AI头条

开源创新点燃机器人未来！GOSIM CHINA 2024《具身智能》专题论坛重磅揭晓！

谷歌 AI 产品经理：“软件工程师现在能够处理比过去复杂十倍的问题，Gemini 已成为性价比最高的 AI 开发首选平台”

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉