首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

加强版Claude3.5正式上线，一句话操控电脑的时代真的要来了。

科技 2024-10-24 12:31 山西

大数据文摘受权转载自数字生命卡兹克

作者：卡兹克、东毅

夜里十一点，大洋彼岸早上8点整。

Claude带着大货闪亮登场了。

升级版的Claude 3.5 Sonnet，新模型Claude 3.5 Haiku，还有全新的新功能：computer use，翻译过来后，我把他称为，“计算机操控”。

一个一个来说。

首先新模型升级版Claude 3.5 Sonnet。

Claude的模型一直分为三个尺寸，分别是Opus、Sonnet、Haiku。从大到小。

3月的时候，Claude正式推出Claude 3代的全系模型，从Opus到Haiku都有。

然后6月的时候推出了Claude 3.5 Sonnet，只推了这一个，没有3.5 Opus和Haiku，参见这篇文章：我体验完刚发布的Claude3.5，发现最强的是这个新功能。

那时候Claude 3.5 Sonnet的能力就吊打了旧的最大参数的模型。

而今天，推送的是升级版的Claude 3.5 Sonnet，还有新的Claude 3.5 Haiku。

有趣的是，Claude 3.5 Haiku还是后训的，知识截止时间是7月，而升级版Claude 3.5 Sonnet知识时间并没有变，也就是加了更多的强化学习的合成数据以及“计算机控制”的训练。

而Claude 3.5 Sonnet的整体性能上，基本傲视群雄。

不管是推理、还是本科的知识、还是编程能力啥的，都是No.1，而且Claude的跑分不像很多模型那种刷榜，他的跑分是真的可信的。

我相信6月Claude 3.5 Sonnet上线后，直接一波科技跃迁，带着cursor之类的A编程一波升天，就不会有任何人会怀疑Claude的代码能力了吧。

最特别的评测基准其实是那个第七行的SWE-bench Verified，大概就是测试写代码解决问题的真实能力，这个评测基准是8月份OpenAI提的，然后这波Claude 3.5直接把这个基准加在自己的跑分里。

GPT4o在这项的跑分是33.2%，o1不知道。

但是按Claude的话说，o1是个什么脏东西，不认识。

而新版的Claude 3.5 Sonnet，目前也在Claude官网上上线了。

可以看到有了new的标签。

我直接发了最简单的一句话：给我生成一个非常精美的俄罗斯方块游戏。

然后，升级版Claude 3.5 Sonnet，就开始嘟嘟嘟的生成。

直接一次性生成了280行代码，而且这个游戏，是真的可以直接玩的。。

也可以直接让它生成一个随时可调可互动的动效模拟器，彻底改变学习方式。

就，非常的酷。

其次是Claude 3.5 Haiku。

这个其实就没太多可说的了，常规升级，但是是目前最快、性价比最高的模型。

在跟Claude 3 Haiku的相同成本和速度下，直接击败了参数量最大的Claude 3 Opus。

在编码任务上，居然能直接打败没升级前的Claude 3.5 Sonnet，这个是最离谱的。

只能说，Anthropic的强化学习范式走的还是太超前了，合成数据的质量实在是太高太高了。

那最后，也是最重磅的一点，Claude的“computer use”，也就是新功能，计算机控制。

这个点就非常的科幻，能够实时分析用户计算机屏幕上的活动，并自主执行在线任务，比如浏览、点击和输入。

我直接放一个官方case吧。

Anthropic是这么描述这个“计算机控制”的功能的：“Claude 3.5 Sonnet可以按照用户的命令在计算机屏幕上移动光标，点击相关位置，并通过虚拟键盘输入信息，模拟人们与自己计算机的互动方式。”

这，就是一个能理解用户意图，并帮他自主实现的真正的Agent。

以前的Agent，说实话，看上去更像一个RPA，就是根据预设好的工作流，一步一步的执行下去，但是真正的Agent应该是什么样？

在我看来，他就应该跟人一样，能理解你的复杂语义，把这个复杂语义具象成可执行的步骤，就像我说现在“凌晨3点半了我太困了，但是文章还没有写完，你帮我看看附近有没有咖啡买，有的话帮我买一杯，没有的话就算了。”

如果是个人，那肯定是会打开美团外卖或者饿了么，看看附近有没有咖啡店开着，如果有开着的，看看我最喜欢喝的冰美式有没有的，没有冰美式的话问我一句要换什么口味？然后下单，等待送达。

如果3点半附近都关门了，那也应该告诉我，附近没卖的了，哥们你自己撑一撑吧，一会就能睡了。

这才是AI，这才是我们身边，能进入到普通人生活中的，最酷的AI助手。

而这种AI助手，它势必，需要学会操作手机或者电脑。

我们不止要让AI学会写文章，学会画图，也要让他学会操作。

这样，才能有很强的，自主探索、解决问题的泛化能力。

而升级版Claude 3.5 ，只是在一些简单软件上进行了训练，就有了操作一些不复杂软件的能力，甚至还会自我纠错，不断重试，这又何尝不是一种强化学习、自我博弈呢？

Anthropic，真的吧Self-Play玩出花了。

目前，在测试开发者让模型使用计算机的一个基准评估（OSWorld）中，Claude 目前得分为 14.9%。

而人类水平通常为 70-75%，虽然差距很大，还有一些路要走，但已经远高于目前其他最好AI模型的7.7%这个分数了。

不过现在这个功能普通用户还用不到，只对开发者进行开放，有API接入，Anthropic的本意是还在前期测试阶段，怕有危险，所以让开发先帮忙测试一下。

我们也花了N久时间，把API接入进来，做了一些简单的测试。

先装了一个类似于模拟系统的东西，一切行为都会在这个模拟系统里运行，Anthropic还是怕对你的系统会有一个不可逆转的损害影响。

我测了很多个case，但是说实话，一是速度实在太磨叽了...二是成功率，确实还有点低下。

比如这个案例：“打开淘宝网站页面，找到小米手机官方旗舰店，找一个2000左右的手机，加到购物车。”

其实不算难，说实话。

但是Claude翻车了，翻车的点也很搞笑，是在输入店名上，人明明叫小米官方旗舰店，它非要写“方店”，后面又试了一次，这次连两个字都不写了，直接写了一个字“舰”，这能搜到才有鬼了...

而且，这个视频我已经两倍速了，你们可以感受一下它有多慢。。

不过，让他玩2048，它玩的倒是非常的开心。这一次，是三倍速。

玩的还挺好，我感觉在这放着，他一个人能玩到天荒地老。

这倒也是挺有趣的。

当然，也能做一些很实际的事情，比如给我的浏览器装一个可以屏蔽广告的插件。

他居然把插件地址背下来了，直接输入，给我搜索+安装一步到位。

起飞。

虽然总体任务的成功率还比较一般，但是还好，毕竟Claude自己也说了，成功率没那么高。

而且，这只是第一代。

他们坚信，使模型适应工具，这是必然，而模型也可以融入我们每天使用的环境里，成为我们生活的方方面面。

他们的目标是让Claude使用现有的计算机软件，就像人一样。

就像人一样。

真好。

希望这个愿景，能在不远的未来达成。

我真的，很想拥有一个自己的。

贾维斯。

黑色小圆动图分割线

租售GPU算力

租：4090/A800/H800/H100

售：现货H100/H800

特别适合企业级应用

扫码了解详情☝

点「在看」的人都变好看了哦！

http://mp.weixin.qq.com/s?__biz=MjM5MTQzNzU2NA==&mid=2651735970&idx=1&sn=b24619faca7301e4ce990f034f2b9fa2

大数据文摘

普及数据思维，传播数据文化

最新文章

深夜重磅！ChatGPT可以“AI搜索”了，但并不完美

谷歌被俄罗斯罚款2,500,000,000,000,000,000,000,000,000,000,000,000美元

OpenAI放弃自制AI芯片！伦敦场开发者日Hugging Face工程师现场“拷问”Sam Altman

想用AI特效在万圣节“鬼混”，看这一篇就够了。

AI + 影视，学会「避坑」再「吟诗」丨CNCC 2024

做AI捏捏，享赛博解压。

困扰18亿人的“全球干旱”，被AI更准确预测了

开源一夜崩塌：Linux无理由除名俄罗斯开发者。我们该醒了？

帮老外割草、送餐、保洁，中国服务机器人冲向海外

Character AI被起诉！14岁青少年自杀，AI陪伴何去何从

加强版Claude3.5正式上线，一句话操控电脑的时代真的要来了。

Transformer能否推理引争议，DeepMind连夜更新论文开源数据集：Transformer真的很强

Andrej Karpathy预言AI马太效应：差异只会越来越显著

“AI调解员”登上Science！Google DeepMind打造，“劝架”水平远超人类

台积电股价创历史新高，先进制程比想象中重要？

谷歌计划将 Gemini 并入 Deepmind，下个月开始生效

这个AI插件，想让你体验在浏览器上开挂的感觉。

对统计学“又爱又怕”，到底如何学统计？

科研那些事（万字长文，真诚分享）

创造历史，马斯克成功回收20多层楼高的星舰助推器

从广东看中华文明起源，《穿越磨刀山》以AI技术开拓考古新视野

苹果发文质疑：大语言模型根本无法进行逻辑推理

三星，正在自救

o1诞生对下一轮AI爆发的启示：技术远远没有收敛，仍在演进丨智源Workshop精华观点回顾

马斯克的Cybercab首秀！没有方向盘和踏板，26年量产，特斯拉这次又玩大的了

哈佛大学俩学生开发出一种 AI 眼镜，看你一眼就能扒光所有个人信息

AI 法力无边！物理诺贝尔奖颁给了 HNN 之父和深度学习之父

别笑，你可能也分不清这些视频是不是AI的。

两万字实录：大语言模型、提示学习与未来科技研发的交汇点

破纪录！OpenAI成为史上第一家估值万亿元的AI公司！独家融资协议：“别投对手公司”

是什么，缔造了英伟达神话？

ChatGPT上线全新功能Canvas - 我消灭你，与你无关。

为何马斯克的“盲视”不可能超越肉眼？

当代年轻人，在AI实现婚纱照自由

国庆从你的城市出发，5小时高铁最远能到哪

颠覆认知：大模型不可靠，越大越不可靠？最新研究登上 Nature

科研大佬投稿顶会的经验分享：时间安排、idea灵感、科研习惯

三只羊卢总的录音AI到底能不能做出来？我的答案是：当然能。

2024工博会最新洞察：机器人走向大负载，中国厂商从跟随到并跑

AI击败人类！DeepMind推出AlphaChip，几小时内即可生成“超人”芯片布局

Meta放大招，发布真AR眼镜！但让人“高”攀不起

腾讯 Robotics X 控制负责人郑宇近日离职，已加入优必选

OpenAI CTO深夜离职！Altman再发长文：感谢她做的一切，我将专注于技术和产品

热门视频：人形机器人一拳破次元！远程暴打沙袋和乒乓球

Sam Altman罕见发长文：ASI终将至，准备好迎接“智能时代”吧！深度学习是有效路径

Nature重磅：颠覆AI计算，提升460倍能效，新型分子忆阻器有望为Transformer提速

西安一高校老师实名公开举报！397页PDF痛诉同院老师学术不端，评审推诿包庇

世界气象组织最新报告：AI正在革新天气预报，更快、更便宜、更易获得

为人工智能赋予机器人躯体的“登月计划”项目，倒在具身智能热潮之前

科普之旅｜漫话智能体-当机器学会思考

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉