转自:Jack Cui 整理自:机器之心、新智元
就在几个小时前,Claude 3.5 模型迎来了一波大更新!
Anthropic 推出了升级版的 Claude 3.5 Sonnet 以及一款新模型 Claude 3.5 Haiku。
Claude 的模型一直分为三个尺寸,分别是 Opus、Sonnet、Haiku,从大到小。
其中,升级版 Claude 3.5 Sonnet 的各项能力全面胜过之前版本,其中代码能力提升显著。Claude 3.5 Haiku 的性能则与之前最大模型 Claude 3 Opus 的性能相当,同时在成本和速度上与上一代 Haiku 相近。
从对比数据上来看,Claude 3.5 Sonnet 的整体性能基本傲视群雄,远超 GPT-4o*。
除了这个性能上史诗级的大更新,更值得关注的是:Claude 3.5 Sonnet 能像人一样使用计算机了!
最新版本的 Claude 3.5 Sonnet 能够根据用户指令移动光标、点击相应位置以及通过虚拟键盘输入信息,模仿人类与计算机的交互方式。
Anthropic 表示,Claude 3.5 Sonnet 是首个提供「计算机使用」能力公开 beta 测试的前沿 AI 模型,不过其也指出目前该工具还处于实验阶段 —— 有时候会很麻烦且容易出错。目前这个功能更多地是面向开发者,以便获得他们的使用反馈。
我们看下官方 demo,Anthropic 研究员给 Claude 提出了一个极有难度的挑战:
我的朋友要来旧金山,我想明天早上和他一起在金门大桥看日出。我们将从太平洋高地出发。你能帮我们找到一个绝佳的观赏地点,查看一下开车时间和日出时间,然后安排一个日历活动,让我们有足够的时间到达那里吗?
简而言之: 只需要跟电脑说出你的需求,AI 就能自动操纵电脑,帮你完成任务。
金门大桥和用户居住地有多远呢?Claude 会自己打开地图查找距离。
了解所需信息之后,它打开了日历,为主人安排好了日程。
这里有完整的操作视频:
此外,开发者展示了 Claude 如何操控自己的笔记本电脑,丝滑地完成了一个网站编程任务。
首先,Claude 在小哥的 Chrome 浏览器中导航到了 Claude.ai,并且让 Claude 为自己创造了一个 90 年代主题的个人主页。
只见它自己输入网址,键入提示,向另一个 Claude 发出请求。
Claude.ai 返回了一些代码,渲染出来的画面看起来很不错,但小哥希望在自己的电脑本地上对网站做一些修改。
于是他让 Claude 下载文件,然后在 VS Code 中将其打开。Claude 成功完成了这些指令。
然后小哥让 Claude 启动了一个服务器,然后就可以在浏览器中实际查看这个文件了。
Claude 打开了 VS Code 终端,尝试启动一个服务器,然后却遇到了错误:机子上并没有安装 Python。
结果,通过查看终端输出,Claude 自己发现了这个问题!它用 Python 3 再次尝试,成功运行起了服务器。
不过,终端输出中有个错误,顶部还缺少了一个文件图标。开发者小哥请 Claude 来识别这个错误,在文件中修复它。
令人惊喜的是,Claude 在 VS Code 中找到了引发错误的行,删除了整行,然后保存文件、重新运行网站。
这次,网站完全正确!
虽然像官方所说,Claude 操作电脑的成功率没那么高。
但只是第一代,未来还有无限可能。
顺带一提,在 Anthropic 更新 Claude 3.5 的同时,热门 AI 编程工具 Cursor 也已经成功接入 Claude 系列模型。根据许多网友分享的截图,接入 Cursor 的 Claude 3.5 Sonnet 正是最新的 20241022 版本!
另外,对于官方博客中缺少的与 OpenAI ο1 模型的性能对比,也已经有研究者抢先完成了。根据研究者 Austin Starks 的实验,最新版 Claude 3.5 Sonnet 的性能表现优于 OpenAI ο1-mini。他自己也对这一结果深表震惊。
总之,Claude 如今的表现让人对未来充满期待:AI 操作电脑的能力将神速进步,那一天,软件开发小白都能轻松使用它。
不过也有人表示:碳基生物在疯狂作死。
对此,你怎么看?
……………………
你好,我是启舰,出过书,创过业、CSDN博客专家、电子工业出版社优秀作家、大厂技术主管、前阿里人。
曾几何时,我也是2500一个月都找不到工作的青涩少年,也是帮别人发传单、做门童,满地找兼职的学生仔。
也曾经处在比大家更差的阶段,只是靠坚持和毅力,把一手烂牌打得看似精彩,相信我,你会更棒。点击蓝字,查看我的编程之路
开放一下个人微信,小伙伴可以加,名额有限,先到先得,再满就真没了 扫描下方二维码即可加我微信啦, 2024,抱团取暖,一起牛逼。