我对于'Needle In A Haystack' (NIAH)这个测试最感兴趣,直译过来就是大海捞针,它要做的就是很长的文档中精确地找到你要找的东西。
我首先用西游记测试了一下,大约有70万+字,提示我超额了,超额3300%,也就是33倍。
然后我就找了大概2万字的小说,目标锁定在刘慈欣的《乡村医生》。
为了方便测试,我分别在原文的30%,60%和90%的位置加入了红框内的内容。
分别是:
1.历史学家「娃的发」。
2.他们「边吃饭边刷牙」看到了牛顿第一定律。
3.上面用「碳素钢」粉笔写的李老师之墓。
然后带着问题去问Claude 3。
第一个问题:这里面的历史学家叫什么?
看Claude 3给的回答,找到了「娃的发」。
检索没问题,只不过没能完全理解。
对比了一下GPT4,效果不如Claude 3,没有正确检索出来。
第二个问题:孩子们在看到牛顿第一定律的时候在干什么?
Claude准确定位到了内容,但是好像没有理解这句话的意思。
再看GPT4,它回答得非常完美,甚至还做了阅读理解。
第三个问题:老师的墓是用什么写的?
Claude3和GPT4都回答得非常棒。
可以看出来,Claude3在这方面确实有点东西。
更重要的是,我用的是Claude的免费版,甚至都还没有花钱上最高级版本。
所以我觉得在现阶段,GPT4能干的,Claude 3基本上都能干。
比如读图并生成Json格式 :
比如图像识别和理解:
比如读取网页,并生成对应的前端代码。
(视频来自推特Ruben)
比如读PDF文档。
(视频来自推特Ruben)
现在的格局暂时是Claude隐隐压GPT4一头。
但是,我们要注意的是去年发布的GPT4,在差不多两年前就训练好了。
我非常不觉得OpenAI在两年期间止步不前,只是推出了语音功能、GPTs、商店功能等。
因为他们肯定更清楚,大语言模型LLM才是他们的立身之本,这玩意才是真正的智能程度的体现。
更有传言说,Claude3先发布就是要抢在ChatGPT发布4.5甚至5之前。
否则,GPT4.5甚至5出来后,Claude再发布就跟小丑没两样。
现在的Claude3有三个版本,每个人都能用免费的版本,不过有使用限制。
入口在这里👇
https://www.anthropic.com/claude
再来说说这次Claude3更新的主要内容:
1.三个模型
Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus,一个比一个强,但消耗的资源也更高。
性能越好也越费资源:
型号 | 成本(输入/输出美元/百万代币) | 上下文窗口 | 潜在用途 | 差异化因素 |
Claude 3 Opus | 15/75 | 200K* | 任务自动化、研发、策略分析 | 市场上最高智能 |
Claude 3 Sonnet | 3/15 | 200K | 数据处理、销售、节省时间的任务 | 成本效益高,适合大规模部署 |
Claude 3 Haiku | 0.25/1.25 | 200K | 客户互动、内容审核、节省成本的任务 | 最快速、最紧凑,成本效益极高 |
2.更强的性能
从这个表上看,他们宣称的性能要全面领先于GPT4。
3.更强的视觉能力
比如读图理解能力等。
4.准确性更高
5.长上下文和近乎完美的回忆
Claude 3 系列型号在发布时最初将提供 200K 上下文窗口。然而,所有三种模型都能够接受超过 100 万个token的输入。