Claude全面升级,我们试了一下,确实碾压OpenAI o1

文摘   2024-10-24 11:51   美国  
Claude又一次深夜狂炸,推出全新的Claude 3.5Sonnet 和Claude 3.5 Haiku。
下面我会给大家介绍一下基本信息,后续将对全新版本的Claude 3.5 Sonnet进行测评。
注:Claude 3.5 Haiku由于还未发布,暂不做评测。
据官方给出的测评结果我们不难看出此次Claude 3.5 Sonnet的性能进行了全面升级。
在数学、研究生水平的推理能力整体超越GPT-4o。
而且在编程方面,升级过后的 Claude 3.5 Sonnet超越ChatGPT的o1模型。
可事实真的是这样吗?以下是我们对Claude 3.5 Sonnet的测评。
我们将用最新的Claude 3.5 Sonnet和o1-pr模型在编程、数学、写作、经典问题上进行PK,看谁的效果更好一点。
对了,如果对o1模型和Claude注册充值有需要的朋友可以看这篇网站——>海外软件充值方法


编程题对比

首先,我们出一道经典的C语言编程难题。

不出意外,两者都答对了,而且答案极其的标准。

面对目前两个顶级的编程助手,常规的编程题肯定是难不倒它们,于是我们自制了一道博士级别的编程难题。

o1模型:

Claude:

是不是看起来一头雾水。的确,里面的知识已经不是我们所能接触到的了。

不过我们通过第三方知名教授的确认,他认为Claude生成的效果更加好。
给出的原因是:Claude的方案通过面向对象的设计提升了代码的可读性和维护性,并使用优先队列来优化调度,处理了量子计算中的关键挑战,并提供参数调整的灵活性,尽管在某些实现细节需要进一步验证,但它提供了有效解决复杂问题的路径。
所以这一局Claude胜。不愧是Claude,效果杠杠的!

数学题对比:

我们此次选择的是2024年阿里达摩院的比赛真题,看谁在数学领域上能领先一步。
首先来一个简单的单选题。

o1模型:

不过在第一局开头,o1模型就生成错误的答案!o1模型给出的答案是4。

Claude:

反观升级过后的Claude 3.5 seneet轻轻松松就生成了准确的答案!

我还准备了第二道题目,同样也是阿里达摩院的数学竞赛题,不过,这次两者都回答准确了!

选择题可能过于简单,下面我们来测试一下它们对证明题的能力。

同样,依旧是自达摩院的数学竞赛题,不过是此次的压轴题,我们可以看一下那个模型能回答出来!

o1模型:

Claude:

通过上述证明比较,会发现o1模型的效果更好,不仅证明结构更加系统化,同时,关键步骤更加的详细。更重要的是还引入了数学公式支持论证。所以这一局,o1模型胜!

经典问题

9.18比9.9谁大。对于这个问题,它们俩都回答出来了。

不过面对另外一个经典问题:草莓这个单词有多少个r?o1模型却翻车了。


写作能力上

此次写作能力的测试会比较简单,只需模仿某一个人的写作风格进行写作即可。要求是不仅风格相似、语句通顺、而且要像人类写作一样!

首先,我们收集五篇“数字生命卡兹克”的文章,然后分别喂给ChatGPT和Claude,并让他们学习和模仿其写作风格。
最后会让ChatGPT和Claude在同一组提示词下写一篇公众号文章,看谁的效果更好。

o1模型:

Claude:

我只能说,Claude在写作方面完胜o1模型,大家可以清楚的看出,无论是写作风格,还是行文结构,效果都要远远超越o1模型。
我最后只想说,最新版的Claude 3.5 Sonnet太强了!
对了,如果想要上车ChatGPT或Claude的朋友,可以看我往期的文章!

ChatGPT充值订阅教程,支付宝可用(附国内使用方法)

Claude国内注册使用方法,用Claude写代码太爽了


⁠‍‌‌⁠‌‍‌⁠‌⁠⁠‍‍‍⁠‌后台回复:提示词
将获得【超实用】AI提示词大合集(持续更新)

AI工具导航站
AI使用小能手,AI使用教程、工具盘点与资讯大集合,做不被AI淘汰的人类。
 最新文章