全面超越GPT4的Claude3，能否通过“大海捞针”实验？

乐活科技 2024-03-05 08:15 英国

我对于'Needle In A Haystack' (NIAH)这个测试最感兴趣，直译过来就是大海捞针，它要做的就是很长的文档中精确地找到你要找的东西。

我首先用西游记测试了一下，大约有70万+字，提示我超额了，超额3300%，也就是33倍。

然后我就找了大概2万字的小说，目标锁定在刘慈欣的《乡村医生》。

为了方便测试，我分别在原文的30%，60%和90%的位置加入了红框内的内容。

分别是：

1.历史学家「娃的发」。

2.他们「边吃饭边刷牙」看到了牛顿第一定律。

3.上面用「碳素钢」粉笔写的李老师之墓。

然后带着问题去问Claude 3。

第一个问题：这里面的历史学家叫什么？

看Claude 3给的回答，找到了「娃的发」。

检索没问题，只不过没能完全理解。

对比了一下GPT4，效果不如Claude 3，没有正确检索出来。

第二个问题：孩子们在看到牛顿第一定律的时候在干什么？

Claude准确定位到了内容，但是好像没有理解这句话的意思。

再看GPT4，它回答得非常完美，甚至还做了阅读理解。

第三个问题：老师的墓是用什么写的？

Claude3和GPT4都回答得非常棒。

可以看出来，Claude3在这方面确实有点东西。

更重要的是，我用的是Claude的免费版，甚至都还没有花钱上最高级版本。

所以我觉得在现阶段，GPT4能干的，Claude 3基本上都能干。

比如读图并生成Json格式：

比如图像识别和理解：

比如读取网页，并生成对应的前端代码。

（视频来自推特Ruben）

比如读PDF文档。

（视频来自推特Ruben）

现在的格局暂时是Claude隐隐压GPT4一头。

但是，我们要注意的是去年发布的GPT4，在差不多两年前就训练好了。

我非常不觉得OpenAI在两年期间止步不前，只是推出了语音功能、GPTs、商店功能等。

因为他们肯定更清楚，大语言模型LLM才是他们的立身之本，这玩意才是真正的智能程度的体现。

更有传言说，Claude3先发布就是要抢在ChatGPT发布4.5甚至5之前。

否则，GPT4.5甚至5出来后，Claude再发布就跟小丑没两样。

现在的Claude3有三个版本，每个人都能用免费的版本，不过有使用限制。

入口在这里👇

https://www.anthropic.com/claude

再来说说这次Claude3更新的主要内容：

1.三个模型

Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus，一个比一个强，但消耗的资源也更高。

性能越好也越费资源：

型号	成本（输入/输出美元/百万代币）	上下文窗口	潜在用途	差异化因素
Claude 3 Opus	15/75	200K*	任务自动化、研发、策略分析	市场上最高智能
Claude 3 Sonnet	3/15	200K	数据处理、销售、节省时间的任务	成本效益高，适合大规模部署
Claude 3 Haiku	0.25/1.25	200K	客户互动、内容审核、节省成本的任务	最快速、最紧凑，成本效益极高

2.更强的性能

从这个表上看，他们宣称的性能要全面领先于GPT4。

3.更强的视觉能力

比如读图理解能力等。

4.准确性更高

5.长上下文和近乎完美的回忆

Claude 3 系列型号在发布时最初将提供 200K 上下文窗口。然而，所有三种模型都能够接受超过 100 万个token的输入。

http://mp.weixin.qq.com/s?__biz=MzAwNzMwOTcyNQ==&mid=2455657167&idx=1&sn=4c8c7cfac49373f110bc72600de844d3

平凡的平凡

偶然所做。

最新文章

AI时代还有必要学计算机编程吗？Python是否还是最优选

本科生科研能力的两种路子：有靠山，靠自己，还是做曹原那样的天才？

怎么看待大学里很水的老师？

博士学位，就是一种明码标价的商品，不必神话它

读博期间如何保持科研干劲避免burn out？

计算机是最难的工科吗？

如何理解“英语+一门技能=王炸”？

深度体验Cursor三周后，这3个tips一定要注意

除了ChatGPT，还有哪些好用的AI工具？

普通人如何抓住AI这个风口?

小红书的封闭内容都可以被搜索的到？AI搜索引擎太强悍了

学生该不该买ChatGPT?

暑假后高达一万的天价账单，刺痛了多少“寒门父母”?

LLM大模型的微调原理以及ChatGPT的API微调操作实践

AI 发展真的会让大部分人失业吗？普通人如何用 AI 提升工作效率？

GPT4o被证实有了中度自我意识，那离强人工智能还远吗？

目前AI领域的自媒体怎么赚钱呢？

学历贬值太快，这类学校的研究生就业可能不如本科

AI公司的“养鱼”战术：免费服务背后的长线布局

揭秘国内大厂高薪招聘：顶尖人才争夺战

AI搜索引擎的结果可信度并没有多高

AI写的内容，确实太容易分辨了

用AI写小说可能是下一次风口

为什么AI眼中9.11大于9.9呢？

老外这次是真的惊了，中国版Sora，可灵开放全球测试

别再被AI忽悠了！手把手教你写出杀手级Prompt

为什么全球只有中美能领先AI创新？

如何看待斯坦福大学报告称：中国人对AI态度最为积极

李彦宏：开源模型是智商税？

AI发展到现在，国内大模型行业还有哪些机会？

为什么这波 AI 浪潮没有带来大量的就业岗位

详细教程：自定义大模型之微调ChatGPT

AI搜索引擎，一个普通搜索引擎的二道贩子

AI 时代，高考选什么专业比较有前景？

聊聊姜萍那套题

卷起来，用AI写高考作文啦

AI时代，对于汉语编程来说是危机还是机遇?

如何让大语言模型输出JSON格式？

通义千问2.5发布：开源大模型中文智能程度直逼GPT4

分享10款能够自动生成视频的AI软件

十天能不能写完一篇毕业论文