Claude又一次深夜狂炸,推出全新的Claude 3.5Sonnet 和Claude 3.5 Haiku。下面我会给大家介绍一下基本信息,后续将对全新版本的Claude 3.5 Sonnet进行测评。注:Claude 3.5 Haiku由于还未发布,暂不做评测。据官方给出的测评结果我们不难看出此次Claude 3.5 Sonnet的性能进行了全面升级。在数学、研究生水平的推理能力整体超越GPT-4o。而且在编程方面,升级过后的 Claude 3.5 Sonnet超越ChatGPT的o1模型。可事实真的是这样吗?以下是我们对Claude 3.5 Sonnet的测评。我们将用最新的Claude 3.5 Sonnet和o1-pr模型在编程、数学、写作、经典问题上进行PK,看谁的效果更好一点。对了,如果对o1模型和Claude注册充值有需要的朋友可以看这篇网站——>海外软件充值方法
编程题对比
不出意外,两者都答对了,而且答案极其的标准。
面对目前两个顶级的编程助手,常规的编程题肯定是难不倒它们,于是我们自制了一道博士级别的编程难题。
o1模型:
Claude:
是不是看起来一头雾水。的确,里面的知识已经不是我们所能接触到的了。
不过我们通过第三方知名教授的确认,他认为Claude生成的效果更加好。给出的原因是:Claude的方案通过面向对象的设计提升了代码的可读性和维护性,并使用优先队列来优化调度,处理了量子计算中的关键挑战,并提供参数调整的灵活性,尽管在某些实现细节需要进一步验证,但它提供了有效解决复杂问题的路径。所以这一局Claude胜。不愧是Claude,效果杠杠的!数学题对比:
我们此次选择的是2024年阿里达摩院的比赛真题,看谁在数学领域上能领先一步。o1模型:
不过在第一局开头,o1模型就生成错误的答案!o1模型给出的答案是4。Claude:
反观升级过后的Claude 3.5 seneet轻轻松松就生成了准确的答案!我还准备了第二道题目,同样也是阿里达摩院的数学竞赛题,不过,这次两者都回答准确了!
选择题可能过于简单,下面我们来测试一下它们对证明题的能力。同样,依旧是自达摩院的数学竞赛题,不过是此次的压轴题,我们可以看一下那个模型能回答出来!
o1模型:
Claude:
通过上述证明比较,会发现o1模型的效果更好,不仅证明结构更加系统化,同时,关键步骤更加的详细。更重要的是还引入了数学公式支持论证。所以这一局,o1模型胜!经典问题
9.18比9.9谁大。对于这个问题,它们俩都回答出来了。不过面对另外一个经典问题:草莓这个单词有多少个r?o1模型却翻车了。
写作能力上
此次写作能力的测试会比较简单,只需模仿某一个人的写作风格进行写作即可。要求是不仅风格相似、语句通顺、而且要像人类写作一样!
首先,我们收集五篇“数字生命卡兹克”的文章,然后分别喂给ChatGPT和Claude,并让他们学习和模仿其写作风格。最后会让ChatGPT和Claude在同一组提示词下写一篇公众号文章,看谁的效果更好。o1模型:
Claude:
我只能说,Claude在写作方面完胜o1模型,大家可以清楚的看出,无论是写作风格,还是行文结构,效果都要远远超越o1模型。我最后只想说,最新版的Claude 3.5 Sonnet太强了!对了,如果想要上车ChatGPT或Claude的朋友,可以看我往期的文章!ChatGPT充值订阅教程,支付宝可用(附国内使用方法)
Claude国内注册使用方法,用Claude写代码太爽了
后台回复:提示词