Anthropic 的 Claude 3.5 表明：大模型还有提升空间

财富 2024-06-21 14:16 北京

Anthropic正式发布Claude 3.5 Sonnet，数据碾压GPT-4o，速度也大幅提升。

据报道，在发布一个月后，一个新的大型语言模型（LLM）显然从OpenAI的GPT-4手中夺走了性能桂冠。

今天，由Anthropic发布的新的Claude 3.5 Sonnet聊天机器人和LLM，在关键的第三方基准测试中超越了世界上所有其他模型。

据该公司称，它不仅性能更好，而且比之前的Claude 3模型更快、更便宜。

但推出一个新模型并宣称其主导地位是一回事，让用户真正体验并利用性能提升则是另一回事。

Anthropic最新发布的Claude 3.5 Sonnet似乎没有这个问题。在发布后的短短几小时内，许多 AI 影响者和高级用户已经在网上分享了他们对这款新模型的积极印象，并展示了这个世界上“最智能”的大型语言模型能够完成的任务。

提升编程技能和产品创作

正如企业AI影响者和专家艾莉·K·米勒在X平台上所写，Claude 3.5 Sonnet 仅凭一个截图，在不到半分钟的时间内为她创建了一个完整的可玩游戏：

同样，信息丰富且及时的X账号@TestingCatalog News展示了新推出的“Artifacts” playground——该平台与Claude 3.5 Sonnet同时亮相，实际上展示了聊天机器人界面旁边的交互输出视图——可以执行Claude 3.5 Sonnet构建的真实可用的网页表单代码。

它甚至能够重现1995年经典电影《黑客帝国》（Hackers）中的影像：

企业AI图像生成初创公司EverArt的创始人彼得罗·施拉诺在X平台上写道，将Claude 3.5 Sonnet与另一款工具Maestro结合使用，显示出“通用人工智能的火花？”

Anthropic员工为

Claude 3.5 Sonnet站台

尽管显然存在偏见，Anthropic开发者关系团队负责人亚历克斯·艾伯特在X平台上发了一条帖子，强调Claude 3.5 Sonnet “在编程和自主修复拉取请求方面开始变得非常出色”，甚至表示：“很明显，再过一年，大量代码将由大型语言模型编写。”

同样，Anthropic的技术人员玛吉·沃在X平台上发帖称，Claude 3.5 Sonnet 现在能完成“我一半的工作……我对此感到非常高兴。”

给OpenAI 施加压力

其他人则指出，现在Claude 3.5 Sonnet已经超越了OpenAI的GPT-4o，并且以类似的价格提供，后者公司面临着继续证明其模型是正确选择的新的压力。

宾夕法尼亚大学沃顿商学院教授兼AI推动者伊桑·莫利克将Artifacts功能与 OpenAI GPT-4的“简化版Code Interpreter”进行了比较。

X 用户@kimmonismus更进一步，表示OpenAI将“错过通用人工智能（AGI）”，即公司宣称的在大多数具有经济价值的工作中表现优于人类的AI 模型目标。他们抨击公司宣布了尚未推出的GPT-4o的附加功能，包括新的语音模式。

仍未达到人类水平

尽管在X平台上备受赞誉，但也有人指出，Claude 3.5 Sonnet在一些看似简单的认知任务上仍然存在困难，这些任务是人类相对容易完成的，比如玩“井字棋”。

同样，科技记者蒂莫西·B·李，在X平台上以@binarybits为名，指出它“有时仍会犯愚蠢的错误”。他发布了一张截图，展示了一个简单的数学文字问题的答案：哪个更值钱：100个便士还是3个25美分硬币？Claude 3.5 Sonnet 最初回答是3个25美分硬币。

尽管目前存在这些较小的问题，Claude 3.5 Sonnet仍然是Anthropic和大型语言模型（LLM）的一个巨大飞跃，并表明各个AI模型制造商的性能提升在当前可用计算资源（如 GPU）水平上肯定没有放缓。（VentureBeat）

AI新智能

一个致力于探索人工智能对商业世界和社会影响的平台。

最新文章

OpenAI正式推出Sora Turbo

OpenAI推出全新O1模型，支持图片上传与分析，同时发布ChatGPT专业版

AWS将多代理编排功能引入Bedrock

人工智能代理入门（下）：自主性、保障措施和陷阱

人工智能代理入门（上）：捕获流程、角色和连接

马斯克与OpenAI分手的复杂内幕

人工智能开启Web4.0时代：互联网将具备自主预测、计划和行动能力

AI如何重塑我们的思维方式？

多智能体将缩短大型语言模型与通用人工智能之间的差距

谷歌将推出接管电脑的人工智能技术

这家公司洞悉了AI商业化的秘密，CEO揭示其秘诀

被马斯克开除的前Twitter CEO，官宣了自己的人工智能创业项目

《纽约时报》的律师们在一个秘密房间里检查OpenAI的源代码

首个被人工智能重塑的城市

被撕裂的OpenAI

雷朋AI眼镜是目前已知的最佳人工智能硬件

为何开发者们纷纷弃用谷歌Gemini

GPT5暂时没戏了

苹果的AI手机没有任何亮点，难怪巴菲特提前把股票卖了

硅谷风投推荐的2024人工智能创业公司（内含商业模式）

一家AI诊所在伦敦开业了

代币价格大崩溃，人工智能将出现巨大赢家和输家

世界呼叫中心之都陷入AI狂热与恐惧之中

文远知行在最后关头推迟美股IPO

美国无人出租车现在每周提供10万次服务

GPU经济学：如何在“不破产”的情况下训练AI模型

苹果计划推出AI桌面机器人

人工智能的训练数据正在枯竭，合成数据引发巨大争议

马斯克曾考虑收购Character.AI

黑芝麻科技IPO首日暴跌35%

星野海外版—Talkie火爆美国，年轻人可以与川普、马斯克聊天

OpenAI 需马上融资，今年预计巨亏50亿美元

2024年吸引到顶级风投的28家人工智能公司名单

苹果公司将以观察员身份加入OpenAI董事会

Gemini的数据分析能力不像谷歌所宣称的那么好

AI“搬砖王”的崛起

大模型集体“用户焦虑”，豆包能否不靠字节赢一次？

这家眼镜公司成了AI巨头追捧的对象

Anthropic 的 Claude 3.5 表明：大模型还有提升空间

DeepMind推出新型AI，为视频生成音轨和对话

人工智能的负效应：没有大语言模型的语种未来会消亡

MiniMax在海外的AI陪聊产品，爆了！

30万个AI助理，正排队等待召唤

奥特曼围绕OpenAI打造出一个致富帝国

投资人依然愿意为AI搜索引擎付费

当ChatGPT的广东话“讲唔正”：AI 年代，低资源语言是否注定被边缘化？

来看看微软是如何将Windows打造成AI操作系统的

大模型“价格战”开打，给刚入商业化“佳境”的智谱AI提出了新挑战

奥特曼刚对首席科学家伊利亚的离职表示感谢，马上又有一位OpenAI高管辞职了

谷歌I/O 2024刚刚宣布的所有产品

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉