OpenAI劲敌甩大招!Claude 3.5升级,能力反超GPT-4o,训练AI自己操控电脑

科技   2024-10-23 18:33   北京  

出品 | 搜狐科技

作者 | 郑松毅

运营编辑 | 孟莎莎


OpenAI的劲敌,甩了“大招”!

就在今日凌晨,Anthropic AI发布了升级版模型Claude 3.5 Sonnet,以及新模型Claude 3.5 Haiku。

但最吸引人的是,Anthropic AI这次推出了一项处于测试阶段的新功能——AI操作计算机能力(Computer Use)。

网友直呼,“像魔术,AI Agent真的来了。”

AI自己“玩”电脑

这项能力的亮相,似乎又把AI大模型“卷”到了新高度。

之前各大厂商为了提升模型逻辑推理能力,可谓是下了不少功夫。但在“执行”和“操作”能力方面,一直还是饱受吐槽的点,也因此很多人认为大模型距离成为真正的“智能体”还有很大差距。

但现在,可以像人类一样使用计算机的AI,来了。

在Anthropic的演示中,AI可以根据人类指令查看屏幕、移动光标、点击操作、搜索和键入信息。

与此前常见的AI功能不同,用户只需要给定一个任务目标,AI可以一气呵成完成所有操作,全程不再需要任何的人类参与。

比如现在你需要填写一张供应商表格信息,所需数据需要从一份有数千行数据的Excel表格中一一对应查找,先不说要花上多长时间,最可怕的是,找了半天表里还没有你想要的数据。

现在,你只需要跟AI说一声,它就会从查看屏幕开始,从表里查找匹配的信息并填入相应的目标栏中。如果不幸手中的表里没有目标数据,它会自己上网浏览查询,自动点击切换页面,最终把目标信息填入。

同样,编写代码对它来说也是不在话下。

当你跟它说想做一个“90年代设计风格”的网站后,它会很快完成代码编写任务。

值得一提的是,你还可以让它把代码文件下载到本地并运行,如果发现你在本地未安装配置Python(代码运行软件),它会自动下载修复报错,省去手动安装的麻烦。

虽然听起来让人充满期待,但现实是,目前该功能测试漏洞百出,Anthropic正在尽力查缺补漏。

一名内部测试人员介绍,“在一次编码测试中,Claude在中途停了下来,打开了黄石国家公园的图片,接着展开了一系列迷之操作。”

Anthropic表示,为了给用户提供更好的使用体验,目前该功能仅支持开发者通过API配置和调用,想用的小伙伴们还需耐心等一等。

Claude模型升级

数学能力反超OpenAI

看完新功能展示,再来看看本次Claude 3.5系列模型升级变化。

从官方给出的测试数据来看,对比上一代Claude 3.5 Sonnet,升级版模型在逻辑、编程、数学等方面都有明显能力提升。

特别是在数学方面,原本落后于劲敌OpenAI的模型GPT-4o,但这次升级后实现了反超。现在可以说,Claude 3.5 Sonnet是全面“吊打”GPT-4o了。

全新模型Claude 3.5 Haiku主打的是性价比和响应速度,在与Claude 3 Haiku相似成本的情况下,新模型在每项技能上都有了进一步提升。

另外,Haiku模型的使用价格仅为Sonnet模型的是十二分之一,想必会成为不少开发者的性价比之选。

Anthropic表示,升级版Claude 3.5 Sonnet已经面向用户开放,而Claude 3.5 Haiku将在本月底,通过API等形式开放(先开放纯文本模型)。




搜狐科技
搜狐科技聚焦前沿科学与科技产业报道,深度跟踪基础科学、人工智能、互联网、通信等领域重大事件,洞察科技趋势与商业逻辑。
 最新文章