DeepSeek-R1挑战GPT4和Claude，6分钟解决它们都无法破解的难题

旅行 2024-11-22 08:00 北京

中国大模型再次展现惊人实力！

DeepSeek-R1-Lite-Preview在一个连GPT4和Claude 3.5 Sonnet都无法解决的逻辑谜题上，展现出了超强的推理能力，让整个AI圈都为之震惊。

一道看似简单的谜题

这个题乍看平平无奇：


9 2 8 5（一个数字正确但位置错误）

1 9 3 7（两个数字正确但位置错误）

5 2 0 1（一个数字正确且位置正确）

6 5 0 7（全部错误）

8 5 2 4（两个数字正确但位置错误）

用户需要通过有限的提示来推理出正确的数字序列。

每次猜测后，系统会告诉你哪些数字是对的，但位置错了，哪些数字位置都是对的。

看起来很简单？

但事实上，这类问题需要极其严密的逻辑推理能力。因为每一步推理都会影响后续的判断，一旦思路出现偏差，就会陷入错误的方向。

就像玩数独一样，前面的选择会直接影响到后面的可能性。

GPT4和Claude也败下阵来

让人惊讶的是，就连号称推理能力最强的GPT4和Claude 3.5 Sonnet在面对这个题时，也都无法得出正确答案。

这两个模型都试图通过快速响应来解决问题，但在面对需要深度思考的场景时，却显得有些力不从心。

它们或是给出错误答案，或是完全无法找到解决方案。这种表现让人不禁思考：是否我们过于追求AI的响应速度，而忽视了深度思考的重要性？

DeepSeek-R1的惊人表现

而DeepSeek-R1的表现却令人刮目相看。

它用了整整6分钟的时间进行深度思考，最终成功找出了正确答案：「3 8 4 1」。

这种「慢工出细活」的方式，让我们看到了AI思考方式的另一种可能。

DeepSeek-R1展现出了几个独特的优势：

超长思考模式：不同于其他模型追求快速响应，它更注重思考的质量
系统化分析能力：通过详尽列举所有可能的猜测，逐步缩小答案范围
精确的逻辑判断：能够准确识别每个数字的正确性和位置关系

深度思考的重要性

DeepSeek-R1的成功告诉我们：在AI领域，速度并不是唯一的衡量标准。有时候，放慢脚步，进行更深入的思考，反而能够解决更复杂的问题。

这种「深思熟虑」的特性，让DeepSeek-R1在处理复杂逻辑问题时表现出色。它不急于给出答案，而是像人类专家一样，耐心地分析每一种可能性。

这种方法虽然看似耗时，但在面对真正复杂的问题时，往往能够得到更准确的结果。

中国AI的新突破

作为中国本土开发的大模型，DeepSeek-R1的这次表现具有重要意义。它不仅证明了中国AI技术已经达到世界一流水平，更展示了不同于主流模型的创新思路。

这种深度思考能力在未来可能会在多个领域发挥重要作用。无论是在科学研究中的复杂推理，还是在工程设计中的方案优化，甚至是在金融领域的风险分析，都能看到它的潜在价值。

DeepSeek-R1的成功，不仅是一次技术突破，更展示了中国AI在探索不同解决方案道路上的创新精神。这种深度思考的能力，或许正是未来AI发展的重要方向。

当然，实测怎么样，还得是你说了算：

https://chat.deepseek.com/

👇

本文同步自知识星球《AGI Hunt》

星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容，并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。

每天约监控6000 条消息，可节省约800+ 小时的阅读成本；
每天挖掘出10+ 热门的/新的 github 开源 AI 项目；
每天转译、点评 10+ 热门 arxiv AI 前沿论文。

星球非免费。定价99元/年，0.27元/天。(每+100人，+20元。元老福利~）

一是运行有成本，我希望它能自我闭环，这样才能长期稳定运转；
二是对人的挑选，鱼龙混杂不是我想要的，希望找到关注和热爱 AI 的人。

欢迎你的加入！

http://mp.weixin.qq.com/s?__biz=MzA4NzgzMjA4MQ==&mid=2453457538&idx=1&sn=46f7c303bfda281730db55006c77d754

AGI Hunt

关注AGI 的沿途风景！

最新文章

阿里推理模型来了！Marco-o1 发布即开源

重磅！OpenAI 要自己造浏览器了！

刚刚，OpenAI 发布红队测试白皮书：AI安全不再是黑盒！

DeepSeek-R1挑战GPT4和Claude，6分钟解决它们都无法破解的难题

斯坦福研究：9.5%的软件工程师在「摸鱼」，每年浪费900亿美元！

这个开源AI项目，让你零成本拥有私人研究助手！

Sam Altman谈OpenAI转型为营利公司的真相

字节跳动开源SeedEdit：「用嘴PS」成为现实！

Andrej Karpathy谈模型的奇葩命名

重磅！Neuralink加拿大获批，脑机接口临床试验正式启动

AlphaQubit：量子计算错误纠正的未来之光

揭秘：这个GPT 套壳应用是如何做到500万用户的？

吴恩达推出大模型游戏创作课程！

重磅！DeepSeek发布R1 推理模型，硬刚OpenAI o1

地球能养活1000 亿人口吗？

OpenAI 悄悄开启 full-O1 测试！

重磅！ChatGPT开启「眼睛」，实时摄像头对话来了！

印度新闻巨头ANI 怒告OpenAI：你偷我家的菜！

Anthropic发布新研究：为AI评估引入统计误差条！

OpenAI发布学生写作指南，终于教会了学生如何「正确」使用ChatGPT！

EEG脑机接口：用脑子来控制机器人！

马斯克：2026年AGI必到，Optimus替你接送孩子！

Windsurf：Cursor 的最大竞争对手来了！

Perplexity重磅推出购物助手：AI购物新时代来了？

Claude变身「claude酱」，和二次元宅对线开口就是「绝绝子」

重磅！OpenAI o1 或于本周发布，API 推迟至2025年！

200M 模型 SOTA 开源图像细节描述！

李开复的01.ai 用3百万造出GPT-4级对手！

AI奶奶专治电信诈骗：40分钟废话连篇，骗子气到爆粗口！

Grok 3 因证明「黎曼假设」而被暂停训练？！

NEO 重磅问世：第一位「全能」机器学习AI工程师！

MoE「现形记」：训练时按需使用，推理时全员出动？

llms.txt：AI时代的robots.txt！

llama-ocr 登顶Hacker News！

AGI 定义之争：DeepMind vs OpenAI vs Anthropic

走近科学之，17岁高中生的“神级Prompt”

来了！ChatGPT 推出桌面级编程助手！

Anthropic推出Claude 智能改进器，「一键优化」你的AI提示词！

谍战！OpenAI 派飞机侦查马斯克xAI 超算中心

重磅！OpenAI「Operator」明年一月发布！

LeCun被指剽窃！Marcus怒斥：我要告你！

重磅！马斯克或将影响特朗普新政府的AI监管政策

Hinton：别学AI，去当水管工吧！

软体机器人的「超级肌肉」来了：力举千倍重物，柔软如肌肤

Ilya Sutskever：预训练已到瓶颈！

Sam Altman的Worldcoin：用眼睛换币，84%人亏损！

重磅！OpenAI前CTO Murati新团队初具规模！挖角OpenAI成功？

独家解密！Lex Fridman与Anthropic CEO 5小时长谈：Claude 4.0、AGI 2026年或将到来！

再见GPT！你好，「o」！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉