GPT-4o vs Claude 3.5 哪个更牛?

教育   2024-09-18 11:30   四川  



前脚 OpenAI 发布 GPT4o,硬控全场,后脚就被最大的竞争对手 Anthropic 超越了。

刚刚,Anthropic 发布了全新大模型 Claude 3.5 Sonnet,号称是迄今为止最智能的模型

据介绍,Claude 3.5 Sonnet 是 Anthropic 即将推出的 Claude 3.5 系列的首个版本。该模型提高了整个领域的智能水平,在绝大多数基准评估中都超越了竞品大模型和自家前代最强 Claude 3 Opus。与此同时,运行速度、成本与自家前代 Claude 3 Sonnet 相当。


地址:https://claude.ai/

目前,Claude 3.5 Sonnet 已经在 Claude.ai 和 Claude iOS 应用程序上免费提供,而 Claude Pro 和 Team 计划订户能够以更高的速率访问它。

此外,Claude 3.5 Sonnet 已经可以直接通过 Anthropic API、亚马逊云科技 Bedrock 等渠道使用。每百万个输入 token 的价格为 3 美元,每百万个输出 token 的价格为 15 美元,上下文窗口为 200k token


Claude、GPT、Gemini三个模型迭代发布时间线。

Anthropic 称其目标是每隔几个月大幅度改进性能、速度和成本之间的权衡曲线。今年晚些时候将发布 Claude 3.5 Haiku 和 Claude 3.5 Opus。

除了开发下一代大模型之外,Anthropic 正在开发新的模式和功能,以支持更多企业用例,包括与企业应用程序的集成。团队还在探索诸如 Memory 之类的功能,使得模型能够记住用户的偏好和指定的交互历史,从而实现更加个性化和高效的体验。

比 GPT-4o 更智能
比 Claude 3 Opus 快两倍

Claude 3.5 Sonnet 为研究生水平推理 (GPQA)、本科生水平知识 (MMLU) 和编码能力 (HumanEval) 设定了新的行业基准。它在理解细微差别、幽默和复杂指令方面表现出显著的进步,并且擅长以自然、亲切的语气撰写高质量的内容。

Claude 3.5 Sonnet 的运行速度是 Claude 3 Opus 的两倍。这种性能的提升加上实惠的价格,使 Claude 3.5 Sonnet 成为复杂任务的理想选择。

在内部代理编码评估中,Claude 3.5 Sonnet 解决了 64% 的问题,优于 Claude 3 Opus(解决了 38%)。Anthropic  评估测试了 Claude 3.5 Sonnet 根据自然语言描述的需求,修复错误或增加功能到开源代码库中的能力。

在获得指导和相关工具后,Claude 3.5 Sonnet 可以独立编写、编辑和执行代码,并具有复杂的推理和故障排除功能。Claude 3.5 Sonnet 可以轻松处理代码转换,这对于更新旧版应用程序和迁移代码库特别有效。

下表为 Claude 3.5 Sonnet 与其他模型的比较,评估基准包括推理、阅读理解、数学、科学和编码。在所有这些基准测试中,Claude 3.5 Sonnet 的表现均优于之前的前沿模型 Claude 3 Opus。

我们也可以看到表中 Claude3.5 与 GPT-4o 的对比数据,除了数学方面,得分都比 GPT-4o 高或者逼近


网友实测

Claude 3.5 Sonnet发布之后,在全网掀起轩然大波,网友们纷纷上手开启一波测试。

10倍编码速度惊人


先来看看Claude 3.5 Sonnet写代码的速度有多可怕。

网友仅在一次对话中,就用threejs+cannonjs创建出一个3D太阳系模型,包含了物体和碰撞效果。

另一个网友称,使用Claude 3.5 Sonnet进行编码比GPT-4,或任何其他大型语言模型效率高10倍。全新的Artifacts功能,可以在聊天旁边生成和运行代码,简直令人惊叹。

没有什么比使用Claude 3.5 Sonnet一次性编写一个程序,来解密维吉尼亚密码更棒的事了。

许多网友纷纷夸赞Claude 3.5 Sonnet速度快到起飞。

2分钟一个小游戏

一位开发者直接用了不到2分钟,做出了一个戴着太阳镜的小狗吃骨头的游戏。

另有人花了3分钟的时间,做出了马里奥克隆版,并且为角色提供了动画效果。

还有另一款「原创」游戏Color Cascade。

用2分钟创建一个蛇梯棋游戏。

网友表示,「我可以通过新的Artifacts功能实时查看代码并玩游戏。使用Claude的编码体验比GPT-4和Gemini好10倍」。

另一位网友用Sonnet做了一款乒乓球游戏。

不像ChatGPT,它没有用到编码解释器。在这个过程中,我们可以制作文档、笔记和其他内容,其中一个选项的html/jss。

神经网络可视化

有人还去做了可视化深度学习,不过因为消息限制,不得不暂停。

下面是用动画效果解释反向传播的工作原理。

重建3D「模拟矩阵」

Claude 3.5 Sonnet是第一个能在首次尝试中,重现电影《黑客》中「数据流」3D场景的模型。

而且,在制作恐怖游戏上,Claude 3.5 Sonnet设计的3D结构比Opus更好。

SVG效果图


Claude 3.5 Sonnet可以画出独角兽SVG图。

它甚至可以生成芯片制造工艺流程示意图。

「井字棋」游戏失败


OpenAI研究科学家,德扑之父使用新模型之后表示,

像GPT-4o(现在还有Claude 3.5 Sonnet)这样的前沿模型,在某些方面可能达到了「聪明的高中生」的水平,但它们在像「井字棋」这样的基本任务上无法完成。

人们曾希望原生的多模态训练能够有所帮助,但事实并非如此。

Artifacts改变交互

从上文也可以看出,这次更新的一大亮点,就是Claude 3.5引入的超强实时交互功能Artifacts了。

这一功能,可以说是开启了交互式AI最有潜力的形式。

它标志着Claude从对话式AI向协作工作环境的转变。而在未来,Anthorpic的设想是,整个组织都能在共享空间中集中知识、文档、工作,而Claude会随时提供服务。

在沃顿商学院教授Ethan Mollick看来,Artifacts可以说是一个简化版的代码解释器。

他上手创建的,是这样一个螃蟹小游戏。

开始的版本是这样的,稍显平淡。

教授直接问,能不能让游戏恐怖一点?然后氛围感瞬间就上来了。

大家的直观感受是,使用Claude和Artifacts,就像在IDE中工作一样。

这位日本网友介绍说,Artifacts简单来说,就是一个显示代码预览的功能。它很容易直观地理解,可以用于多种目的。

-网站创建
-形状
-图形
-文档

-简单游戏

它可以帮忙创建简单的网站。

只要跟它说“制作一个计算器应用程序”,一个使用React的计算器应用程序预览就完成了。

通过Artifacts,可以让Sonnet使用HTML创建简单的幻灯片材料。

这位网友发现,这个过程中可以向Sonnet展示设计图片,它们会把这些图片用作参考。

Claude 3.5 Sonnet不仅编码效率比GPT-4o或任何其他LLMs都高10倍,而且因为Artifacts功能可以在聊天的旁边生成并运行代码,因而可以提供令人惊叹的用户体验。

比如让它用React生成一个贪吃蛇的游戏。

随后,我们还可以用自然语言对游戏进行修改,比如做一个美观的背景,或者让蛇有一个化身。

因为可以一边创建游戏,一边立刻在右侧窗口中玩这个游戏,Artifacts功能可以说是彻底贯彻了从对话式人工智能转向协同工作环境的想法。

Claude 对比 ChatGPT 一览

Claude 和 ChatGPT 都由类似强大的 LLM 和 LMM 驱动。但它们在一些重要方面有所不同:ChatGPT 功能更多样化,具有图像生成和互联网访问等功能,而 Claude 提供更便宜的 API 访问和更大的上下文窗口(意味着它可以一次处理更多数据)。

以下是这两个 AI 模型之间差异的快速概述。


ClaudeChatGPT
公司AnthropicOpenAI
AI 模型Claude 3.5 Sonnet
Claude 3 Opus
Claude 3 Haiku
GPT-4o
GPT-4
GPT-4o mini
上下文窗口200,000 tokens (某些用例可达 1,000,000 tokens)128,000 tokens (GPT-4o)
互联网访问
图像生成是 (DALL·E)
支持的语言官方支持英语、日语、西班牙语和法语,但在我的测试中,Claude 支持我尝试的每种语言(甚至包括不太常见的阿塞拜疆语)95+ 种语言
付费等级Claude Pro 每月 $20ChatGPT Plus 每月 $20
团队计划每位用户每月 $30;包括用于协作的 Projects 功能每位用户每月 $30;包括工作空间管理功能和共享自定义 GPT
API 定价(输入)- Claude 3 Opus: 每 1M 输入 tokens 75
- Claude 3.5 Sonnet: 每 1M 输入 tokens 15
- Claude 3 Haiku: 每 1M 输入 tokens 1.25
- GPT-4o: 每 1M 输入 tokens 15
- GPT-3.5 Turbo: 每 1M 输入 tokens 1.50
- GPT-4: 每 1M 输入 tokens 60

为了比较一个 LLM 与另一个的性能,AI 公司使用像标准化测试这样的基准。OpenAI 对 GPT-4o 的基准测试显示在 LLM 特定测试上表现出色,如测量本科水平知识的 MMLU 和测量编码能力的 HumanEval。同时,Anthropic 发布了 Claude、ChatGPT、Llama 和 Gemini 的直接对比,显示其 Claude 3.5 Sonnet 模型在大多数测试中略胜 GPT-4o 一筹。

虽然这些基准无疑是有用的,但一些机器学习专家推测,这种测试夸大了 LLM 的进展。随着新模型的发布,它们可能(也许是意外地)在自己的评估数据上进行训练。结果,它们在标准化测试上表现越来越好——但当被要求解决这些相同问题的新变体时,它们有时会遇到困难。

为了了解每个模型在常见日常使用任务上的表现,我设计了自己的比较。以下是我发现的高层次概述。

任务胜出者观察结果
创造力ClaudeClaude 的默认写作风格听起来更像人类,不那么泛泛而谈。
校对和事实核查Claude两者都能很好地发现错误,但 Claude 是更好的编辑伙伴,因为它更清晰地呈现错误和更正。
图像处理平局Claude 和 ChatGPT 在识别图像中的物体方面都不是 100% 准确,两者在计数方面都存在问题。只要你不需要绝对精确,两个模型都能提供关于上传图像的卓越洞察。
逻辑和推理ChatGPT从数学到物理再到谜题,两个 LLM 都表现出色。但对于复杂的方程,GPT-4o 比 Claude 3.5 更值得信赖。
情感和伦理平局Claude 早期版本感觉更"人性化"和富有同理心,但 Claude 3.5 和 GPT-4o 采取了同样机械化的方法。
分析和总结ChatGPT虽然 Claude 3.5 官方上下文窗口更大,但在我的测试中,GPT-4o 远远超出了其声明的限制,能够处理比 Claude 大得多的文档。GPT-4o 还提供了更准确的分析。
编码ClaudeClaude 3.5 是更强大的编码助手,其 Artifacts 功能提供了一个方便的(且交互式的)用户界面,让你可以立即看到代码的结果。
集成ChatGPT从其原生的 DALL·E 图像生成工具到互联网访问和第三方 GPT,ChatGPT 的功能超越了 Claude 的标准产品。

ChatGPT vs. Claude:哪个更好?

Claude 和 ChatGPT 有很多共同点:它们都是强大的 AI 聊天机器人,非常适合文本分析、头脑风暴和数据处理等任务。(观察任一工具处理复杂物理方程的过程都令人惊叹。)但根据你预期的 AI 用例,你可能会发现其中一个比另一个更有帮助。

如果你想要一个 AI 工具作为创意项目的对手 - 写作、编辑、头脑风暴或校对 - Claude 是你的最佳选择。你的默认输出将听起来比 ChatGPT 更自然,不那么泛泛而谈,你还将受益于 Claude 3.5 优越的编码能力和更便宜的 API 成本。

如果你在寻找一个多面手工具,ChatGPT 是更好的选择。生成文本只是开始:你还可以创建图像、浏览网页,或连接到为特定目的(如学术研究)训练的自定义 GPT。随着 GPT-4o(一个多模态模型)的发布,它变得更加强大和快速。



🏴‍☠️宝藏级🏴‍☠️ 原创公众号『数据STUDIO』内容超级硬核。公众号以Python为核心语言,垂直于数据科学领域,包括可戳👉 PythonMySQL数据分析数据可视化机器学习与数据挖掘爬虫 等,从入门到进阶!

长按👇关注- 数据STUDIO -设为星标,干货速递

数据STUDIO
点击领取《Python学习手册》,后台回复「福利」获取。『数据STUDIO』专注于数据科学原创文章分享,内容以 Python 为核心语言,涵盖机器学习、数据分析、可视化、MySQL等领域干货知识总结及实战项目。
 最新文章