首页
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
更多
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
神了:Claude 3.5能像人一样使用计算机,而且在编程、软件研发上进步显著
科技
2024-10-24 07:50
江苏
Anthropic新发布的 Claude 3.5 Sonnet
在编码、解决软件工程问题等方面取得了显著进步,超过了有强大推理能力的OpenAI o1模型,已处于领先地位
。在
Claude 3.5 Sonne
t 测试版中
推出了一项开创性的新功能:
计算机使用(Computer Use)
。
现在,开发人员可以在 API 上指导 Claude 像人类一样使用计算机——通过查看屏幕、移动光标、单击按钮和键入文本。
不少公司已经开始探索这些可能性,执行需要数十步、甚至数百步才能完成的任务。
例如,Replit 正在使用 Claude 3.5 Sonnet 的Computer Use和 UI 导航功能来开发一项关键功能,该功能在为其 Replit Agent 产品构建应用程序时对其进行评估。
从现在开始,开发人员可以在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用
Claude 3.5 Sonnet的
Computer Use测试版构建软件。
Claude 3.5 Sonnet:行业领先的软件工程技能
更新后的 Claude 3.5 Sonnet 在软件研发上获得了广泛的改进,在智能体编码和工具使用任务方面取得了特别大的进步。在编码方面,它将 SWE-bench Verified 的性能从 33.4% 提高到 49.0%,得分高于所有公开可用的模型,包括 OpenAI o1-preview 等推理模型和专为智能体编码设计的专用系统。它还将 TAU-bench(一种代理工具使用任务)的性能从零售领域的 62.6% 提高到 69.2%,在更具挑战性的航空公司领域从 36.0% 提高到 46.0%。新的 Claude 3.5 Sonnet以与其前身相同的价格和速度提供这些进步。
早期客户反馈表明,升级后的 Claude 3.5 Sonnet代表了 AI 驱动的编码的重大飞跃。GitLab 针对 DevSecOps 任务测试了该模型,发现它提供了更强的推理能力(在用例中高达 10%),而且没有增加延迟,
使其成为支持多步骤软件开发流程的理想选择
。Cognition 使用新的 Claude 3.5 Sonnet 进行自主 AI 评估,与以前的版本相比,
在编码、规划和问题解决方面有了实质性的改进
。The Browser Company 在使用该模型自动化基于 Web 的工作流程时指出,Claude 3.5 Sonnet 的性能优于他们之前测试过的所有模型。
Claude 3.5 Haiku:最先进的技术与经济性和速度相结合
在与 Claude 3 Haiku 相同的成本和速度下,Claude 3.5 Haiku 在每项技能集上都有所提升,在许多智能基准测试中甚至超过了我们上一代最大的型号 Claude 3 Opus。
Claude 3.5 Haiku 特别擅长编码任务
。例如,它在 SWE-bench Verified 中的得分为 40.6%,优于许多使用公开可用的最先进模型的智能体,包括原始的 Claude 3.5 Sonnet 和 GPT-4o。
Claude 3.5 Haiku 具有低延迟、改进的指令遵循和更准确的工具使用,非常适合面向用户的产品、专门的智能体子任务,以及从大量数据(如购买历史记录、定价或库存记录)生成个性化体验。
Claude 3.5 Haiku 将于本月晚些时候通过我们自己的 API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 提供,最初作为纯文本模型提供,随后将提供图像输入。
教 Claude 负责任地使用计算机
在计算机的使用方面,我们正在尝试一些全新的事物。我们不是制作特定的工具来帮助 Claude 完成单个任务,而是向它传授通用的计算机技能,让它能够使用各种专为人们设计的标准工具和软件程序。
开发人员可以使用这种新功能来自动化重复流程、构建和测试软件,以及执行研究等开放式任务
。
为了实现这些通用技能,我们构建了一个 API,允许 Claude 感知计算机界面并与之交互。开发人员可以集成此 API,使 Claude 能够将说明(例如,“使用来自我的计算机和在线的数据来填写此表单”)转换为计算机命令(例如,检查电子表格; 移动光标以打开 Web 浏览器; 导航到相关网页; 使用这些页面中的数据填写表单; 等等)。在评估 AI 模型像人类一样使用计算机的能力的 OSWorld 上,Claude 3.5 Sonnet 在屏幕截图类别中的得分为 14.9%,明显高于第二好的 AI 系统的 7.8% 得分。当获得更多步骤来完成任务时,Claude 得分为 22.0%。
虽然我们预计这种能力将在未来几个月内迅速提高,但 Claude 目前使用计算机的能力并不完美。人们可以轻松执行的一些操作(滚动、拖动、缩放)目前给 Claude 带来了挑战,我们鼓励开发人员从低风险任务开始探索。由于计算机的使用可能会为更常见的威胁(如垃圾邮件、错误信息或欺诈)提供新的载体,因此我们正在采取积极主动的方法来促进其安全部署。我们开发了新的分类器,可以识别何时使用计算机以及是否发生伤害。您可以在我们关于开发计算机使用的帖子中阅读有关这项新技能背后的研究过程的更多信息,以及对安全措施的进一步讨论。
Claude 3.5 Sonnet 喊你参加AiDD峰会深圳站(最美季节11.8-9)
软件工程3.0时代
由于大模型(LLM)正在改变着千行百业,软件工程(SE)更是首当其冲,迎来软件工程3.0新时代:模型驱动研发、模型驱动运维。本公众号将致力于研究SE3.0时代的软件研发新范式、理论与方法,介绍SE3.0时代的工具与实践。
最新文章
敏捷教练会悲伤吗?Agile Alliance已并入PMI
展望2025年智能软件工程
共促软件行业智能化转型,智能化软件开发产业图谱编制正式启动
2024年,大模型驱动的智能软件研发有哪些进展?
汽车将进化成为智能时代的空间机器人
大模型时代的软件工程教育,路在何方?
OpenAI 将一场发布会改为12天直播:Day 1发布了两大产品chatGPT pro和o1正式版
想了解智能化软件工程现状?快来参与 2024 年度调研吧!
做正确之事:软件研发的成功之道
2024 年 12 个最佳UI自动化测试工具推荐
大模型下半场:如何开发出杀手级的工具或应用?
从自动化软件测试到自主测试,还差几步?
错了,打开“深度思考”,的确做对了
让DeepSeek最新推理模型R1-lite做一道数学题,结果走进死胡同了!
重磅消息:Grok-3终结了黎曼猜想?而却因此被迫暂停训练
Tong test:AGI测试评级的标准与平台
“软件质量报道” 下决心迎接 “软件工程3.0时代”
大模型时代的软件研发:正确的打开方式
十大生成式 AI 趋势和20家有前途的初创公司
谷歌DORA:2024年加速DevOps状态报告
AiDD峰会的“AI+测试”议题全面亮相
神了:Claude 3.5能像人一样使用计算机,而且在编程、软件研发上进步显著
邀您共赴年末盛会|QECon北京站议题出炉
深度剖析:字节跳动大模型训练被实习生“投毒”事件
当AI接连不断赢得诺贝尔奖:是人类的终点还是新的起点?
从木匠到AI教父:Geoffrey Hinton的传奇之路
历史性里程碑:诺贝尔物理学奖首次授予AI学者
两张架构图,让你感受一下大模型的惊艳
最新!明天上交所全网测试
A股沸腾,系统被买崩了?压力测试没做好?
Sam Altman昨天发文:AI 奇点近在咫尺,我们将进入“智能时代”
QECon主旨演讲之一:代码大模型改进的双引擎:数据增强和知识增强
强化学习中的自博弈(Self-play)会开启大模型的“后训练”时代?
chatGPT o1 preview用一个小时干完了博士一年写的代码
软件工程3.0的解释
OpenAI o1 新模型在解决博士级别的科学问题上超越人类
AI 大模型:软件研发的革新力量与未来展望
面向开发人员的 12款 强大的 AI 工具(下)
面向开发人员的 12个款强大的 AI 工具(上)
再次扬帆起航:启动2024年「软件研发应用大模型」的调查
推荐一款强大的开源编程助手Cursor
AiDD2024 「AI+研发数字峰会」北京站圆满收官!
由一份财报解读,给您参加AiDD峰会 的四大理由
AI代替了我的右手,而且我再也回不去了!
AI+人访谈录:半路入行找到“人生坐标”
刚刚,与GPT-4o相媲美的开源大模型Llama 3.1发布了!
万字长文技术分析:CrowdStrike导致大规模系统崩溃事件
测试三大难题之一 “测试有效性” 的应对策略
软银孙正义:10年内,超级智能ASI水平将是人类的10000倍
测试三大难题之一 “测试充分性” 的应对策略
分类
时事
民生
政务
教育
文化
科技
财富
体娱
健康
情感
旅行
百科
职场
楼市
企业
乐活
学术
汽车
时尚
创业
美食
幽默
美体
文摘
原创标签
时事
社会
财经
军事
教育
体育
科技
汽车
科学
房产
搞笑
综艺
明星
音乐
动漫
游戏
时尚
健康
旅游
美食
生活
摄影
宠物
职场
育儿
情感
小说
曲艺
文化
历史
三农
文学
娱乐
电影
视频
图片
新闻
宗教
电视剧
纪录片
广告创意
壁纸头像
心灵鸡汤
星座命理
教育培训
艺术文化
金融财经
健康医疗
美妆时尚
餐饮美食
母婴育儿
社会新闻
工业农业
时事政治
星座占卜
幽默笑话
独立短篇
连载作品
文化历史
科技互联网
发布位置
广东
北京
山东
江苏
河南
浙江
山西
福建
河北
上海
四川
陕西
湖南
安徽
湖北
内蒙古
江西
云南
广西
甘肃
辽宁
黑龙江
贵州
新疆
重庆
吉林
天津
海南
青海
宁夏
西藏
香港
澳门
台湾
美国
加拿大
澳大利亚
日本
新加坡
英国
西班牙
新西兰
韩国
泰国
法国
德国
意大利
缅甸
菲律宾
马来西亚
越南
荷兰
柬埔寨
俄罗斯
巴西
智利
卢森堡
芬兰
瑞典
比利时
瑞士
土耳其
斐济
挪威
朝鲜
尼日利亚
阿根廷
匈牙利
爱尔兰
印度
老挝
葡萄牙
乌克兰
印度尼西亚
哈萨克斯坦
塔吉克斯坦
希腊
南非
蒙古
奥地利
肯尼亚
加纳
丹麦
津巴布韦
埃及
坦桑尼亚
捷克
阿联酋
安哥拉