全面超越GPT4的Claude3,能否通过“大海捞针”实验?

乐活   科技   2024-03-05 08:15   英国  

我对于'Needle In A Haystack' (NIAH)这个测试最感兴趣,直译过来就是大海捞针,它要做的就是很长的文档中精确地找到你要找的东西。

我首先用西游记测试了一下,大约有70万+字,提示我超额了,超额3300%,也就是33倍。

然后我就找了大概2万字的小说,目标锁定在刘慈欣的《乡村医生》。

为了方便测试,我分别在原文的30%,60%和90%的位置加入了红框内的内容。

分别是:

1.历史学家「娃的发」。

2.他们「边吃饭边刷牙」看到了牛顿第一定律。

3.上面用「碳素钢」粉笔写的李老师之墓。


   

   

然后带着问题去问Claude 3。

第一个问题:这里面的历史学家叫什么?

Claude 3给的回答,找到了「娃的发」。

检索没问题,只不过没能完全理解。    

对比了一下GPT4,效果不如Claude 3,没有正确检索出来。

第二个问题:孩子们在看到牛顿第一定律的时候在干什么?

Claude准确定位到了内容,但是好像没有理解这句话的意思。    

再看GPT4,它回答得非常完美,甚至还做了阅读理解。

第三个问题:老师的墓是用什么写的?

Claude3和GPT4都回答得非常棒。    

可以看出来,Claude3在这方面确实有点东西。

更重要的是,我用的是Claude的免费版,甚至都还没有花钱上最高级版本。

所以我觉得在现阶段,GPT4能干的,Claude 3基本上都能干。

比如读图并生成Json格式 :  

   

比如图像识别和理解: 

   

比如读取网页,并生成对应的前代码。

(视频来自推特Ruben) 

比如读PDF文档。

(视频来自推特Ruben) 


现在的格局暂时是Claude隐隐压GPT4一头。    

   

但是,我们要注意的是去年发布的GPT4,在差不多两年前就训练好了。

我非常不觉得OpenAI在两年期间止步不前,只是推出了语音功能、GPTs、商店功能等。

因为他们肯定更清楚,大语言模型LLM才是他们的立身之本,这玩意才是真正的智能程度的体现。

更有传言说,Claude3先发布就是要抢在ChatGPT发布4.5甚至5之前。

否则,GPT4.5甚至5出来后,Claude再发布就跟小丑没两样。

现在的Claude3有三个版本,每个人都能用免费的版本,不过有使用限制。

入口在这里👇

https://www.anthropic.com/claude


再来说说这次Claude3更新的主要内容:

1.三个模型

Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus,一个比一个强,但消耗的资源也更高。    

性能越好也越费资源:       

 

    

型号

成本(输入/输出美元/百万代币)

上下文窗口

潜在用途

差异化因素

Claude 3 Opus

15/75

200K*

任务自动化、研发、策略分析

市场上最高智能

Claude 3 Sonnet

3/15

200K

数据处理、销售、节省时间的任务

成本效益高,适合大规模部署

Claude 3 Haiku

0.25/1.25

200K

客户互动、内容审核、节省成本的任务

最快速、最紧凑,成本效益极高

2.更强的性能

从这个表上看,他们宣称的性能要全面领先于GPT4。

   

3.更强的视觉能力

比如读图理解能力等。

4.准确性更高    

5.长上下文和近乎完美的回忆

Claude 3 系列型号在发布时最初将提供 200K 上下文窗口。然而,所有三种模型都能够接受超过 100 万个token的输入。    

         

 

         

 

   



平凡的平凡
偶然所做。
 最新文章