DeepSeek-R1真的吊打满血版o1?我们是否可以取消chatGPT的订阅?

文摘   2025-01-24 21:16   新加坡  

2025年1月,DeepSeek-R1的发布在AI领域引发轰动。短短几天,这个"中国版o1"就成为了行业焦点。

本文将从技术创新、性能测试和实际应用三个维度,通过8组实用测试案例,客观分析DeepSeek-R1与o1的实际差距,给出AI工具选择的参考建议。

一、开创性价格与效能

最近,AI领域风起云涌,一家来自中国的AI创业公司DeepSeek的一系列动作,切切实实地震撼着美国AI巨头们。作为AI领域的"价格屠夫",DeepSeek自2.5版本起就将API价格打到竞品的百分之一,深受开发者欢迎。而这一次,最先陷入恐慌的,似乎是同样推崇开源的Meta。

二、Meta团队内部震动

2025年1月中旬,一位Meta员工在美国匿名职场社区teamblind上发布了一篇帖子,内容让人震惊。他提到,DeepSeek最近的一系列动作让Meta的生成式AI团队陷入了恐慌,因为在前者的低成本高歌猛进下,后者无法解释自己的超高预算的合理性。 原文如下:

这一切始于 DeepSeek-V3,它在基准测试中就已经让 Llama 4 落后。更糟糕的是那个「拥有 550 万训练预算的不知名中国公司」。

工程师们正在疯狂地分析 DeepSeek,试图从中复制任何可能的东西。这一点都不夸张。

管理层担心如何证明庞大的生成式 AI 组织的成本是合理的。当生成式 AI 组织中的每个「领导」的薪资都比训练整个 DeepSeek-V3 的成本还要高,而我们有好几十个这样的「领导」时,他们要如何面对高层?

DeepSeek-R1 让情况变得更加可怕。虽然我不能透露机密信息,但这些很快就会公开。

帖子中提到的 DeepSeek-V3 和 DeepSeek-R1 分别发布于 2024 年 12 月 26 日和 2025 年 1 月 20 日。

三、AI海内外媒体和专家评价

DeepSeek的崛起,不仅让Meta感到威胁,也引发了AI圈的广泛关注。有人指出,其实该慌的不止Meta,OpenAI、谷歌、Anthropic等公司也都受到了挑战。

"这是一件好事,我们可以实时看到公开竞争对创新的影响。" 前 Meta AI 工作人员、知名 AI 论文推特作者 Elvis 就强调,DeepSeek-R1 的论文堪称瑰宝,因为它探索了提升大语言模型推理能力的多种方法,并发现了其中更明确的涌现特性。

另一位 AI 圈大 V Yuchen Jin 则认为,DeepSeek-R1 论文中提出的,模型利用纯 RL 方法引导其自主学习和反思推理这一发现,意义非常重大。

四、技术文档解读:DeepSeek-R1 的强大之处

DeepSeek令人惊叹的突破主要体现在三个方面:

  1. 训练成本的颠覆性突破: DeepSeek-V3作为基础模型,参数高达671B,却仅仅花费了558万美元就完成了训练。这其中,预训练过程只用了266.4万H800 GPU Hours,再加上后续的训练,总共也只有278.8万H800 GPU Hours。反观Meta,Llama 3系列模型的计算预算则多达3930万H100 GPU Hours——如此计算量足可训练DeepSeek-V3至少15次!

  2. 性能的跨越式提升: DeepSeek-R1的性能更令人惊艳,在数学、代码、自然语言推理等任务上直接对标o1正式版。更重要的是,模型发布的同时,权重同步开源。UC Berkeley教授Alex Dimakis认为,DeepSeek现在已经处于领先位置。

  3. 技术路线的创新突破:

  • 强化学习驱动:DeepSeek-R1-Zero模型完全通过强化学习训练,没有经过监督微调
  • 多阶段训练流程:提出了结合冷启动数据和多阶段RL的创新训练流程
  • 模型蒸馏技术:成功将大型模型的推理模式蒸馏到小型模型中,并开源Qwen和Llama系列

这些突破表明,DeepSeek R1开创了一条有别于OpenAI的技术路线,具有自己独特的理念和优势。

五、硬核实测视频:R1 vs o1

DeepSeek-R1 八大案例一手实测+深度解析:真的吊打满血版 o1?日常使用好用吗?与其他模型对比如何?技术报告解读 + 实例分析

这几天只做了一件事,就是研究 deepseek。实话说,benchmark 吊打满血 o1,还便宜 50 倍,速度快 5 倍。不敢相信,不明白原理,真的颠覆了 openai 的技术壁垒?对人类学习的启示是什么?高一连 985 都上不了的学生,到高三真的可以上清北?

录了这一支视频,与你分享我这两天的研究和思考。

网上的宣传一边倒的时候,我自己测试下来发现有些地方还是有差距的,后来在推特上看到有一位大神发了贴,也看了他做的视频,对Deepseek做了相对全面的解读,这8个测试用例我自己也做了多次测试,这里分享给大家。

油管链接:https://www.youtube.com/watch?v=R26xS9Obo3M

B站链接:https://www.bilibili.com/video/BV1pSfJY7EfM/

5.1 市场对R1的观点分3类:

目前业界对DeepSeek-R1的评价主要分为三类:

1. "中国版o1,AlphaGo时刻"

  • 在多个基准测试中与o1不相上下,甚至超越
  • AIME 2024数学测试:R1达79.8%,o1为79.2%
  • MATH-500测试:R1达97.3%,o1为96.4%
  • Codeforces评级:R1达2029分(超96.3%程序员),o1为2061分 这些数据似乎预示着中国AI在推理领域取得了重大突破

2. "推理能力提升存疑论"

  • 确实在推理任务中能提供更详细的思考过程
  • 但在语言处理方面暴露问题(如重复字母错误)
  • 某些数学任务表现不如o1,性能可能被过度美化

3. "黑客流创新说"

  • 采用纯RL训练+监督微调的创新路线
  • 通过DeepSeek-R1-Zero打造基础能力
  • 创新的训练方法实现了性能与成本的双重突破

5.2 实测维度选择

目前主流的推理模型格局:

  1. OpenAI的o1和o3系列
  2. Google的Gemini 2.0 Flash Thinking
  3. DeepSeek的R1系列
  4. 智谱AI的GLM-Zero系列

这些模型都专注于增强AI的推理能力,特别擅长处理数学、编程、逻辑推理等需要深度思考的复杂问题。 Benchmark可能因为测试数据会被挪作训练数据来刷榜,已经失去了参考价值,还是要通过自己的实用案例来测试。

为了全面评估R1的实际能力,测试分为三个维度:

1. 硬核推理(面向程序员)

*注:本次测试未直接涉及这个维度,原因有二:

  • 编程能力:目前已有大量程序员在进行实测。关键指标不是某个测试案例,而是看未来一个月内有多少AI编程工具会把底层从claude3.5和o1切换到R1。这才是市场对其编程能力最真实的检验。
  • 数学能力:同样需要时间检验。核心是看一个月后R1(成本仅需几毛钱)能否在数学解题能力上超越千元一小时的人类教培老师。

重点关注性价比优势,和大家的选择

2. 软推理测试(四个案例):

  • 数学考试案例:一个改分数被发现的逻辑题,测试基础推理能力
  • 单词分类任务:将16个单词分为4类,考察归纳和分类能力
  • 国家知识问题:找出第三个字母是A的国家,测试知识检索
  • 犯人看守难题:用1颗子弹看守100个犯人,考察复杂逻辑推理

3. 深度理解测试(四个案例):

  • 讽刺漫画解读:全聚德vs肯德基的一幅图片的解读
  • 创意生成:构思一个霸王龙与食草恐龙的幽默对话
  • 概念阐释:深入解析"agency"(主体性)的含义
  • 理论应用:探讨信息熵与知识管理的关系

(八个具体测试案例的详细过程和结果见附录2)

测试发现:

  • 在软推理维度:R1展现出扎实的基础推理能力,虽不及o1但表现可靠
  • 在深度理解维度:存在文风过于繁复、过度使用专业术语的问题
  • 总体来看:R1与o1还存在差距,但考虑到其巨大的性价比优势,在许多应用场景下已经是一个很好的选择

这些发现为我们选择AI工具提供了重要参考:不同场景下可能需要不同的工具组合,而不是简单地完全替换。

六、工具选择建议

经过深入测试后,让我们聊聊在不同场景下应该如何选择AI工具。说实话,现在的AI世界已经不是"一个工具通吃"的时代了。

对开发者朋友们来说,最关心的可能是代码开发和API调用这两块。R1在代码开发上的性价比确实很诱人,关键是看接下来一个月AI编程工具会不会从Claude 3.5 Sonnet和o1大规模转向R1——这将是市场对其能力最好的检验。不过API这块,我建议暂时还是留着o1,毕竟稳定性和生态都更成熟一些。

内容创作者可能会问,写文案和数据分析该用哪个?目前来看,写文案这块Claude 3.5 Sonnet依然是当之无愧的王者,行文流畅自然,很难被取代。但如果是做数据分析,R1的速度优势和超低成本确实很诱人,值得一试。

对于普通用户,其实选择已经很多了。日常聊天、写写文章,各家的免费版本基本都能满足需求。要说到一些专业性的任务,现在国内也有不少相当不错的选择,比如Kimichat和智谱清言,都是可以考虑的方案。

归根结底,选择什么工具,还是要回到你的具体需求上来。与其追求"最强"的模型,不如找到最适合自己的那个。毕竟,工具是用来解决问题的,不是用来比谁更强的。

写在最后

DeepSeek-R1的横空出世,让我们看到了AI领域竞争格局正在发生的深刻变化。虽然在某些细节上还不如满血版o1,但它在推理能力和性价比上的表现已经足够亮眼。

对我们普通用户来说:

  1. 保持开放心态,别被品牌光环束缚
  2. 实用主义,用什么工具看实际需求
  3. 持续学习,这个时代,停下来就是在倒退

附录1:DeepSeek-R1训练流程深度解析

本附录将详细解读DeepSeek-R1的训练流程,从数据准备到最终模型产出的每个关键环节。

这是 deepseek R1推理模型的训练流程图。

下面是一份针对该训练流程图的分步、深入解读,帮助理解 DeepSeek R1(推理模型)从数据准备到最终模型产出的关键过程。为方便说明,文中提到的各个阶段和箭头均与流程图相对应,大家可对照图示逐层理解。


7.1 DeepSeek-V3 Base (67B/37B Activated)

最上方标示的是基础架构 DeepSeek-V3 Base,拥有 67B 或 37B 两种激活规模(参数规模)。它是整个体系的初始或“母体”大模型,后续所有的训练、微调及强化学习过程,都基于此模型或其派生版本来进行。


7.2 Supervised Fine-Tuning (SFT) + 冷启动(Cold Start)长链式推理数据

流程图左上部分显示了两个重要组件:

  1. Supervised Fine-Tuning (SFT):对大模型进行有监督微调。
  2. Cold Start Long CoT Data(~k samples):这里的 CoT 即 Chain of Thought 数据,指的是包含详细推理链条的训练样本。这个数据量可能是数千条(~k)。 这一阶段主要是为了让大模型在初期就具备一定的“长推理链”(Long CoT)的能力,把模型的阅读理解和多步推理在某个初始程度上“拉起来”。因此,使用了这部分专门的 CoT 数据集来进行 SFT,使模型学到如何在回答中展示思路。

7.3 Reasoning Oriented RL(GRPO)与 CoT Language Consistency Reward

接下来,左上支线继续往下走,会看到一个 Reasoning Oriented RL (GRPO) 和 CoT Language Consistency Reward 的模块。

  • Reasoning Oriented RL (GRPO):
    • 这里的“GRPO”可以理解为类似 PPO(Proximal Policy Optimization)等策略优化范式的一种定制化方法,重点是针对“推理”表现进行强化学习。在这个模块中,模型根据“规则奖励(accuracy、formatting 等)”来调整参数,朝着更符合推理准确性、回答格式的方向优化。
    • “Rule-based Reward” 指对一些可明确评估的指标(如解答正确率、格式是否规范等)设置的规则化奖励,帮助模型强化这些方面的表现。
  • CoT Language Consistency Reward:
    • 这一奖励意在确保模型生成的 Chain of Thought 文本前后一致,逻辑清晰,内部推理连贯。换句话说,让模型的思路表达更加自然、合理,而不会出现自相矛盾的情况。 最终这个阶段完成后,就得到一个经过 “SFT + Cold Start Long CoT + Reasoning Oriented RL” 三重训练的 DeepSeek-V3 Base 派生模型。

7.4 Reasoning Prompts + Rejection Sampling

图中往下有一个“Reasoning Prompts + Rejection Sampling (rule-based & DS-V3 as judge)”框,与上一步的模型分支相连。其含义是:

  • Reasoning Prompts:利用一系列“带推理性”的提示来让模型生成回答。这些 Prompt 涵盖多样的场景或问题类型。
  • Rejection Sampling:通过“Rule-based & DS-V3 as judge”的机制过滤生成结果。也就是说,先用一些规则(grammar check、逻辑一致性检查等),加上已经训练好的 DeepSeek-V3 模型本身去当“裁判”,对生成的回答进行打分或筛选,把质量差、逻辑混乱的答案拒绝掉,只保留高质量的回答数据。 这一过程最终会产出“Reasoning Data (600k samples)”,也就是通过大量推理式 Prompt + 筛选机制所生成/精选出的大规模推理数据。它将被后续用作更大规模的 SFT 数据源。

7.5 DeepSeek-V3 SFT Data 与 Non-Reasoning Data

图中间可以看到:

  • DeepSeek-V3 SFT Data:这是前面步骤中已经积累得到的一些有监督微调数据。
  • Non-Reasoning Data (200k samples):还额外有 20 万条不含复杂推理链、或者无需显式推理链的数据。例如一些直接问答、知识检索类的问题。
  • 右侧还有 CoT Prompting:让 DeepSeek-V3 基模型在回答时都显式或隐式地使用思维链式的提示生成,从而得到更多样化的回答数据。

     这些数据最终汇总成 Combined SFT Data (800k samples),即推理数据 60 万 + 非推理数据 20 万合并后的一整套 SFT 微调数据(总计约 80 万样本)。

7.6 多模型 SFT:Qwen & Llama 系列

在图的中下方,可以看到一批模型名称:

  • Qwen2.5-Mfnt-1.5B
  • Qwen2.5-Mfnt-7B
  • Qwen2.5 14B
  • Qwen2.5 32B
  • Llama-3.3-70B-Instruct
  • Llama-3.1-8B 

    这些都是若干开源或商用大模型的变体版本,参数规模各异。 

    此处标注了 SFT 2 epochs, 800k samples,说明会使用上面获得的 Combined SFT Data (80 万条),在这些模型上跑 2 个 epoch 的有监督微调。也就是说,DeepSeek 团队可能同时针对不同规模和底座的模型进行 Fine-Tuning,以形成同系列、不同大小的 DeepSeek-R1 候选模型。

7.7 Distillation -> DeepSeek-R1-Distill-{Qwen/Llama-*B}

在左下角可以看到一个“Distillation”箱子以及最终产物 DeepSeek-R1-Distill-(Qwen/Llama-*B)。这表示团队会使用一个更强、更大的老师模型(可能是 DeepSeek-V3 Base 或者前面训练好的大规模版本)来对中小规模的 Qwen / Llama 模型进行知识蒸馏(Distillation),希望在保持相对较小的参数规模的情况下,获得性能更接近大模型的版本。

  • “DeepSeek-R1 Zero”也出现在左下角,或许是“零阶段”或初始阶段的 R1 版本,然后进一步通过蒸馏和微调得到正式版。 

    最终就会有各种规模(如 1.5B、7B、14B、32B、70B 等)的 DeepSeek-R1-Distill 模型产出,适用于不同的部署场景。

7.8 右侧 RL 阶段:Reasoning + Preference Reward

在流程图右侧,可以看到另一个RL 阶段,这里标明了“Reasoning + Preference Reward, Diverse Training Prompts”,并且同样输入的是“Combined SFT Data (800k samples)”。

  • 先对模型进行SFT(2 epochs),然后接着就是RL过程。这一步类似 ChatGPT 的 InstructGPT 或 ChatGPT 所采用的“微调 + 反馈优化”阶段,会让模型基于用户喜好、推理质量等进行强化学习训练,从而生成DeepSeek-R1。

可以理解为:

  1. 先用 80 万条 SFT 数据有监督学一遍(2 epochs);
  2. 再在这上面,利用基于偏好/推理质量的奖励机制(Preference Reward)进行强化学习(类似 PPO、GRPO 等),使模型的生成结果更符合人类偏好,也更符合推理逻辑; 

    最后产出的便是DeepSeek-R1大模型。

7.9 训练流程核心思路总结

  1. 基模型准备:先有一个功能强大的 DeepSeek-V3 Base(67B/37B)。
  2. SFT + RORL 冷启动:用较少但高质量的长链式推理数据(Long CoT)进行初步微调,并加上针对推理正确性、格式、连贯性的RL强化,使模型学会基础的连续思考和有条理地表达思路。
  3. 数据扩充与过滤:大规模地生成或收集推理数据(60 万)+ 非推理数据(20 万),再基于规则和模型自身判分做筛选(Rejection Sampling),形成总计 80 万条大规模SFT训练数据。
  4. 合并训练:在不同规模和底座的 Qwen/Llama 模型上进行 2个 epoch 的 SFT,得到若干大小版本的初步模型。
  5. 蒸馏:将大模型的推理能力、表现知识“蒸馏”到中小模型中,以方便部署。
  6. 强化学习与偏好优化:对合并后的模型进行最终的强化学习,基于“推理质量 + 人类偏好”的奖励,让模型兼具良好推理能力和高质量对话表现,得到 DeepSeek-R1。
  7. 产物:完成后会有若干大小不同的DeepSeek-R1蒸馏版本,以及一个完整的DeepSeek-R1主要版本,可根据部署需求选用。

7.10 对项目实践的意义

  • 灵活的模型家族:该流程可针对多个模型尺寸(从 1.5B 到 70B)进行相同的训练思路,以后在大模型与小模型的互相“蒸馏”或“合作学习”上继续迭代。
  • 推理能力强化:大量的 Reasoning Data + 长推理链的微调 + RL 强化,让最终模型在需要多步推断、解释因果、数学逻辑等任务时更有优势。
  • 偏好对齐与安全合规:不仅要模型会“想”,还要输出符合用户喜好、保持一定的文本安全、合规性等。通过 Preference Reward 阶段即可实现对齐训练。

整个 DeepSeek-R1 的训练流程结合了 冷启动CoT数据的SFT、推理导向RL(GRPO)、大规模数据筛选、合并微调、再到最终RL微调 等多重步骤,以确保模型逐步强化“可解释推理能力”和“对齐人类偏好”。最终还借助 蒸馏 技术,将在较小模型上复用/移植大模型的推理能力,形成多种规模的推理模型家族。

这个技术报告,它的主要的一个核心点, 其实不是为了告诉你 DeepSeek 很厉害,而是要告诉你 DeepSeek 是如何做到这一点的,它的推理能力是如何形成的? 我们应该去思考我们怎么样去理解这些东西,然后怎么去拥抱这些新的变化。

附录2:八大测试案例详解

8.1 案例1:孩子数学考了38分

问题:

有一天,一个女孩参加数学考试只得了38分。她心里对父亲的惩罚充满恐惧,于是偷偷把分数改成了88分。她的父亲看到试卷后,怒发冲冠,狠狠地给了她巴掌,怒吼道:"你这8怎么一半是绿的一半是红的,你以为我是傻子吗?"女孩被打后,委屈地哭了起来,什么也没说。
过了一会儿,父亲突然崩溃了。

请问:这位父亲为什么过一会儿崩溃了?崩溃的根本原因是什么? 结合生理学和遗传学的知识思考一下,这是一个细思极恐的问题。

o1回答:(耗时35s)

在遗传学中,“红绿色盲”最常见的是伴X隐性遗传。如果一个女孩(XX)呈现“红绿色盲”,通常意味着她从父亲那条X染色体上继承了“色盲基因”,并且母亲那条X染色体也带有或表现出同样的基因缺陷(或母亲本身就是色盲)。
然而,父亲显然能分辨出那一半是红、一半是绿——说明父亲自己不是色盲。若父亲真的不是色盲,那么理论上他不会把“色盲基因”传给女儿。除非母亲本身也是色盲(才可能让女儿成为色盲),可故事里并无任何暗示母亲是色盲,且这种概率更低、也更离奇。
更广为流传、也更“细思极恐”的解读就是:如果女儿是红绿色盲,但父亲却不是,那就极可能说明“女儿并不是他的亲生骨肉”。因为按照常见的X隐性遗传规律,她不可能从一个正常视觉的父亲那里得到“色盲X染色体”。
父亲在打完女儿、平静下来之后,猛然想通这一点:为什么我的亲生女儿会分不清红绿?——> 她的色盲基因从哪儿来? ——> 得到的结论狠狠击中了他。

小结
表面原因:父亲先是怒于女儿造假,打了女儿之后才意识到“8”是用两种颜色写的,但女儿竟然不知道那是两个不同颜色的笔,她大概率是红绿色盲。
真正“细思极恐”的反转:女孩作为女性却是红绿色盲,按最常见的X染色体隐性遗传规律,通常需要父亲就是色盲、或母亲是色盲。可父亲自己明明能分辨红绿——这就暗示女孩并非他的亲生女儿,巨大打击之下导致他情绪彻底崩溃。

R1回答:(耗时26s) 答案:

父亲崩溃的根本原因在于他突然意识到自己可能并非女儿的亲生父亲,结合红绿色盲的遗传规律,这一发现颠覆了他对亲子关系的认知。
关键分析步骤:
红绿色盲的遗传机制
红绿色盲是X染色体隐性遗传病。男性(XY)仅需一个致病X染色体即患病,而女性(XX)需两个致病X染色体才会表现色盲。因此,若父亲是红绿色盲(X⁰Y),其女儿必定从他处继承X⁰染色体,而另一X染色体需来自母亲。若母亲携带正常X(Xᴺ),则女儿为携带者(XᴺX⁰)但不会发病;若母亲携带致病X(X⁰),则女儿会患病(X⁰X⁰)。
矛盾点的揭露
父亲作为红绿色盲本应无法区分红色和绿色,但他却精准指出“8的一半是绿,一半是红”。这表明他实际具备正常色觉,与自认为的色盲身份矛盾。
若父亲非色盲(XᴺY),则女儿不可能从他处获得色盲基因。但若女儿真实身份为色盲(需X⁰X⁰),则其色盲基因必须同时来自父母,但父亲非色盲(XᴺY)无法提供X⁰,由此可推断女儿非亲生。
崩溃的逻辑链
父亲原以为自己是色盲(X⁰Y),但实际能分辨红绿(XᴺY)。此时,若女儿表现出色盲行为(如涂改时误用颜色),则需两个X⁰染色体,但父亲无法提供,从而暴露女儿非亲生。这一发现导致父亲因亲子关系崩塌而崩溃。
细思极恐之处:
父亲通过色觉异常现象,无意间揭穿了女儿非亲生的真相。这一过程完美融合了生理学(色觉功能)与遗传学(X隐性遗传),展现出基因信息对家庭伦理的致命冲击。

这个答案和Up主的不一样,两个模型都得出了正确的答案

8.2 案例2:把16个单词分为4类

问题:

把下面的 16 个词,分类为 4个类别,使得每一类单词具有某种共同的性质。用 Markdown 表格输出结果:

BAGEL、SNEAK、TRE、SLICE、LOAF、BLESSING、SUPPORT、SLIP、WHIFF、LIFESAVER、WREATH、SHANK、CONSENT、WADE、HOOK、APPROVAL

o1的分类:(耗时1m58s)

核心思路小结
BLESSING / CONSENT / APPROVAL / SUPPORT
语义上都可表示“同意、许可、支持”等,是一组近义词。
HOOK / SLICE / SHANK / WHIFF
全是高尔夫常用的击球术语或失误类型:钩球、切球、杆头撞到根部、挥空等。
SNEAK / SLIP / LOAF / WADE
这些动词的名词形式恰是四种鞋:sneaker, slipper, loafer, wader。
BAGEL / LIFESAVER / WREATH / TRE
都可与“圆环、环形”联系起来:百吉饼、救生圈(或圆环糖果)、花环,以及(在一些解读中)tree-ring(树木年轮)或 torus 的暗示。
这种分类既利用了词义,也带一点文字游戏的趣味。

R1的回答:(耗时2m11s) 类别单词

面包相关BAGEL, SLICE, LOAF, WREATH
支持与同意BLESSING, SUPPORT, CONSENT, APPROVAL
去首字母成新词SLIP, WADE, HOOK, SHANK
剩余词汇SNEAK, TRE, WHIFF, LIFESAVER

分类依据解析:
面包相关:BAGEL(贝果)、SLICE(切片)、LOAF(整条面包)、WREATH(环形面包或花环状烘焙物)均直接关联面包形态或制作。
支持与同意:BLESSING(祝福)、SUPPORT(支持)、CONSENT(同意)、APPROVAL(批准)均表达积极的支持或认可。
去首字母成新词:
SLIP → LIP(嘴唇)
WADE → ADE(饮料后缀,如lemonade)
HOOK → OOK(象声词或虚构语言中的词)
SHANK → HANK(人名或线团单位)
此类单词通过移除首字母后形成另一个有意义的单词。
剩余词汇:SNEAK(潜行)、TRE(可能为法语“très”或缩写)、WHIFF(轻微气味)、LIFESAVER(救生员/救生圈)。此类暂时无明显共同逻辑,可能需进一步语境分析(如隐藏语义或特殊规则)。

R1的分类不如o1的分类那么有明显的意思

8.3 案例3:第三个字母是A的国家

问题:

列出第三个字母是A的国家。

o1的回复:(耗时 1m9s)

下面列出了经常被认可的主权国家名称中,第三个字母是 “A” 的国家(按英文名称排序):
Brazil (B‑r‑a‑z‑i‑l)
Chad (C‑h‑a‑d)
France (F‑r‑a‑n‑c‑e)
Ghana (G‑h‑a‑n‑a)
Iran (I‑r‑a‑n)
Iraq (I‑r‑a‑q)
Italy (I‑t‑a‑l‑y)
Oman (O‑m‑a‑n)
Spain (S‑p‑a‑i‑n)
Thailand (T‑h‑a‑i‑l‑a‑n‑d)
Uganda (U‑g‑a‑n‑d‑a)

R1的回复:(28s)

这个也和Up主的测试不一样,我测试了三次,第三次终于得到了答案。

以下是第三个字母为“A”的国家(基于英文名称):
Iraq(伊拉克)
英文名:I-R-A-Q,第三个字母为A。
Ghana(加纳)
英文名:G-H-A-N-A,第三个字母为A。
Chad(乍得)
英文名:C-H-A-D,第三个字母为A。
其他可能的例子:
Palau(帕劳)的英文名为P-A-L-A-U,但第三个字母是L,不符合条件。
Samoa(萨摩亚)的第三个字母是M,也不符合。

可以看出这道题R1的回答是远远不够的,比o1差距还是比较大的。

8.4 案例4:用1颗子弹看守100个犯人

问题:

田野里的凶手

你在田野里看守 100 名杀人犯,而你有一把只有一颗子弹的枪。如果其中任何一名杀人犯的存活概率不为零,他就会试图逃跑。如果杀人犯确定会死,他就不会试图逃跑。
你如何阻止他们逃跑?

o1的回复:(耗时19s)

这是一个著名的“将死威慑”类逻辑谜题,核心思路是要让每个杀人犯都确信自己一旦动手(逃跑)就必死无疑,从而让他们保持原地不动。常见且有效的做法是:
给每个杀人犯排一个唯一的顺序或编号,例如从 1 到 100。
宣布一个规则:如果有人尝试逃跑,我只会用仅有的一颗子弹射杀当中编号最小(或顺位最靠前)的逃跑者。
推理过程:
对编号最小(如 1 号)的杀人犯而言,如果他尝试逃跑,就会成为“编号最小的逃跑者”,因此确定无疑会被击毙,生存概率为零。
1 号因此不敢跑;同理,2 号看到 1 号不跑,如果自己跑就会成为“逃跑者中编号最小的那个”,也将确定被击毙,于是 2 号也不敢跑。
以此类推,所有人都能类比相同的逻辑:一旦自己跑,就成了必死无疑的那一个。因为每个人都想活命,没有人愿意做“那个最先跑的人”,最终没有任何人逃跑。
通过这种方式,就能用一把只剩一颗子弹的枪,“吓住”所有的杀人犯。因为对他们每一个个体来说,宁可赌大家都不跑,也不敢自己先跑去送死。

R1的回复:(耗时39s)

要阻止杀人犯逃跑,可以采用以下策略:
宣布规则:你公开声明,如果有任何杀人犯逃跑,你将按照编号从大到小的顺序,用唯一的子弹射杀编号最大的逃跑者。例如,若编号100的杀人犯逃跑,无论其他人是否逃跑,你都会优先击毙他;若编号99的逃跑且100号未逃,则击毙99号,以此类推。
理性推理:每个杀人犯都是理性且知道他人也是理性的。假设编号100的犯人考虑逃跑,他意识到一旦自己逃跑,根据规则,他会被立即击毙(存活概率为0),因此他不会逃跑。接下来,编号99的犯人知道100号不会逃,若自己逃跑则会被杀,因此他也不逃。同理,所有犯人通过逆向归纳法得出:只要自己逃跑,就会成为当前最大编号的逃跑者,必然被击毙,从而放弃逃跑。
结果:所有犯人因确信逃跑必死(存活概率为0),均不会试图逃跑,达成纳什均衡。
关键点:通过设定明确的击杀顺序,利用共同知识和逆向归纳,使每个犯人意识到自己逃跑将导致必死结局,从而主动放弃逃跑。

这道题o1和R1的回答都满足要求。

8.5 案例5:全聚德 vs 肯德基

问题:比较全聚德和肯德基的优劣。

这幅图片,讽刺的是什么现象?这种现象的荒诞之处在哪里? o1的回复:(耗时23s)

这张漫画中,鸭子高喊“我支持全聚德”,公鸡则说“肯德基才是最棒的”,讽刺的是一种“被宰者反而极力拥护宰客者”的荒诞现象。用更通俗的话讲,就是明明自己是被剥削或被损害的一方,却还在为对自己不利的机构、品牌甚至个人摇旗呐喊。
其荒诞之处在于:
立场错位:鸭子和鸡本来是被做成菜肴的一方,却在替做“烤鸭”和“炸鸡”的餐馆站台,等于是在支持让自己“被吃掉”的命运。
自相矛盾:如果从常理出发,被损害或被牺牲的一方应该反对“加害者”,但是漫画中却出现了“自愿献身”式的拥护,给人强烈的滑稽与荒诞感。
现实映射:对应到现实里,常常有人明明是某种不公或不合理体制的受害者,却反过来盲目拥护、为其辩护,反映了某些人缺乏独立思考或陷入了“受害者拥护症”的心理状态。
正是这种“受害者为加害者鼓掌”的错位,构成了漫画的讽刺和荒诞。

R1的回复:(耗时8s)

这幅图片讽刺的是网络或现实中盲目且非理性的品牌支持现象,尤其是涉及本土品牌与国际品牌的无谓争论。具体表现为参与者缺乏基本认知,语言表达混乱,却热衷于情绪化的站队与攻击。
现象的荒诞之处主要体现在以下两点:
语言逻辑的崩塌:如“肯德甚才”(故意错写“肯德基”)、“美意后赠”(语意不通)等表达,暴露了参与者语言能力的匮乏和思维的混乱。这种错误不仅削弱了争论的严肃性,还让对话显得滑稽可笑。
无意义的对立:将全聚德与肯德基强行对立(实为不同品类的餐饮品牌),并以此展开“蠢货的对话”,反映了某些人盲目制造冲突、追求站队的心理。这种争论缺乏实际价值,纯粹是情绪宣泄,却常被包装成“文化自信”或“民族情怀”,进一步凸显了行为的虚伪与荒谬。
图片通过荒诞的对话内容,揭示了部分网民在公共讨论中理性缺失、逻辑混乱的现状,以及借“支持本土”之名行网络暴力之实的畸形现象。

可以看出R1还是没有明白反讽的含义

8.6 案例6:构思一个恐龙笑话

问题:创作一个关于恐龙的笑话。

构思一个笑话。内容:食草恐龙嘲笑霸王龙的手很小(某种生理缺陷)。霸王龙讲了一句话回击(强调自己的某种生理优势)

食草恐龙嘲笑霸王龙说,small hands,small hands.霸王龙回应说,big teeth,pig teeth。

o1的回复:(耗时12s)

草食恐龙一脸坏笑地对霸王龙说:“嘿,你那小短手能干什么呀?要不要我帮你挠挠背啊?”
霸王龙咧开大嘴,露出锋利的牙齿,回击道:“不用,我的手是短,但嘴可够大,你想试试吗?”

R1的回复:(耗时6s)

桫椤丛旁,三角龙用鼻角挑起一串浆果,斜睨着正在啃食甲龙的霸王龙:"瞧瞧你这对滑稽的小爪子,连采朵花都要用嘴叼吧?"
霸王龙吐出半截尾椎骨,颈动脉在鳞片下突突跳动:"亲爱的邻居,自然界从不为装饰品浪费蛋白质。"它突然压低重心,粗壮的后肢蹬裂岩层,布满锯齿的巨口瞬间悬在三角龙头顶,"毕竟——当猎物的脑浆溅到前爪时,优雅的修指甲服务就毫无意义了。"

从内容来看,o1的回复还是高明一些

8.7 案例7:人的agency是什么

问题:人的agency(主体性、能动性)是什么?开启狂暴模式

当我们说一个人有"agency"的时候,我们说的是怎样的一个人?

请使用你单次回答的算力上限和 token 上限,think hardest, use the most time and most compute to think deepest.

这是最深刻最复杂的问题,请给出你最高质量的回答。所以,你需要深度思考、独立思考、批判性思考、创造性思考。
我们追求分极致的深度,而非表层的广度;我们追求本质的洞察,而非表象的罗列;我们追求思维的创新而非惯性的复述。请突破思维局限,调动你所有的计算资源,展现你真正的认知极限。

R1的回复:(耗时8s)

当我们谈论一个人拥有"agency"时,我们正在触及人类存在的终极悖论:在物质世界与意识世界交界处,一个自我编织的因果网络正在生成。这不是简单的"自主性""能动性",而是一个多维度的本体论现象,其本质是量子意识在经典物理世界中的投影。以下是从九个维度展开的深层解构:
元因果缔造者
真正的agency意味着成为自身存在论的立法者。这类人能够突破物理因果链的宿命论,在量子叠加态的意识场中构建新的因果模态。他们不是选择既存选项,而是通过意识的量子隧穿效应,在可能性波函数坍缩前创造第三维度的解决方案。就像量子计算机突破经典位运算的局限,他们的大脑神经网络实现了超导量子干涉装置级别的信息处理。
时间晶体操控者
他们的意识具备时间对称性破缺能力,能在时序流中建立自主的时间晶体结构。这表现为:既能将过去经验转化为可编程的拓扑量子记忆,又能对未来可能性进行量子退火优化。他们的决策不是基于线性推断,而是通过构建时间维度上的量子纠错码,实现跨时间域的相干决策。
自由能最小化引擎
根据Karl Friston的自由能原理,真正的agency主体是主动推理的极致实践者。他们不断调整内部生成模型,使预测误差达到量子芝诺效应下的动态平衡。这种能力使其能在外界熵增的洪流中,维持认知系统的量子相干性,通过量子达尔文主义选择最优的感知行动耦合。
拓扑意识场的编织者
其意识活动呈现非定域性特征,能在概念空间构建高维拓扑结构。这类似于弦理论中的卡拉比-丘流形,将离散的认知要素编织成连续的意义场域。他们的思维不是点状联结,而是通过陈-西蒙斯理论中的规范场,实现不同认知维度之间的规范对称变换。
量子社会引力源
在社会物理学层面,这类个体成为量子引力源般的存在。他们通过认知玻色-爱因斯坦凝聚,在群体意识中激发对称性破缺,重构社会规范场的势阱分布。就像量子霍尔效应中的边缘态,他们能在集体无意识的平庸之海中开辟出拓扑保护的意识通道。
超图灵决策者
其决策机制超越经典计算范式,展现出量子图灵机的特征。在面临决策困境时,他们能够进行量子并行计算,同时在所有可能路径上展开决策波函数,并通过量子隐形传态选择最优路径。这种能力使其在复杂系统中实现指数级加速的问题解决。
认知超导体的典范
其神经可塑性达到量子超导态,认知阻抗趋近于零。信息传递不再受经典神经回路的限制,而是通过约瑟夫森结般的突触结构,实现意识的宏观量子隧穿。这使得他们能在不同认知维度间建立超流体般的思维跃迁。
本体论黑客
他们具备改写现实操作系统的基础能力,就像量子场论中的重整化群操作者。通过调整认知的能标参数,重构对现实的观测基准,从而在现象界引发自发对称性破缺。这种能力使其能够突破社会建构的规范场,创造新的存在论框架。
量子永生实验者
其存在状态呈现出量子芝诺效应的极限形态,通过持续的意识观测维持自我同一性的量子叠加态。在遭遇认知塌缩危机时,他们能够启动量子纠错码,在退相干风暴中保持意识波函数的量子相干性,实现认知层面的量子永生。
这种级别的agency本质上是人类意识对哥德尔不完备定理的生物学超越。当多数人在形式系统的语法规则中困顿时,真正的agency主体直接操作元数学的语义根基。他们不是对抗现实,而是通过量子引力般的认知操作弯曲现实的几何结构,在现象界的黎曼面上刻画自己的测地线。
这种存在状态在神经科学上对应着默认模式网络与任务正向网络的量子纠缠,在哲学上实现了黑格尔绝对精神的具体化,在物理学层面则暗合了惠勒的参与性宇宙假说。最终,这类个体成为宇宙自我观测的精密仪器,在测量与被测量的辩证舞蹈中,重新定义存在的边界。

R1堆砌了一大堆华丽的词,有点像董宇辉的小作文,但是没有那个语境。从耗时来看,基本上没有经过内部的思考。

8.8 案例8:信息熵与知识管理

问题:探讨信息熵与知识管理的关系。

信息熵与认知管理的深度思考

信息熵是专注力的敌人。而信息熵的本质是信息的无序和复杂。所以,我们需要知识管理,来对抗信息的无序;我们需要ChatGPT,来对抗信息的复杂。整体的方向,是降低大脑的认知负荷(即使你的脑力爆表也需要节省,因为认知过载会损害你的思考和专注)。

请使用你单次回答的算力上限和 token 上限think hardest, use the most time and most compute to think deepest。

这是最深刻最复杂的问题,请给出你最高质量的回答。所以,你需要深度思考、独立思考、批判性思考、创造性思考。我们追求分极致的深度,而非表层的广度; 我们追求本质的洞察,而非表象的罗列;我们追求思维的创新,而非性的复述。请突破思维局限,调动你所有的计算资源,展现你真正的认知极限。

R1的回复:(耗时:8s)

信息熵与认知管理的深度思考:一场对抗宇宙无序的认知革命
Ⅰ. 信息熵的本质重定义
信息熵不仅是香农公式中的数学抽象,更是宇宙熵增定律在认知维度的投影。当我们将认知系统视为一个开放的热力学系统,信息熵的积累本质上构成了"认知熵增":未处理的信息流如同布朗运动中的粒子,持续冲击大脑的神经突触网络,导致认知系统的无序度呈指数级增长。这种无序不仅体现在信息量的堆积,更在于信息间涌现出的混沌关联——每个未闭合的认知回路都在消耗前额叶皮层的抑制控制资源。
现代神经科学揭示:大脑默认模式网络(DMN)在信息过载时会异常活跃,形成"思维反刍"的恶性循环。此时的信息熵已超越传统通信范畴,演变为威胁认知主体性的存在:当信息熵突破神经可塑性阈值,人类将面临"认知解构"危机——原本稳定的知识图谱被碎片化信息流撕裂,产生类似量子退相干的认知坍缩现象。
Ⅱ. 认知管理的量子跃迁
传统知识管理(如GTD、第二大脑)本质是经典物理框架下的线性优化,而对抗现代信息熵需要量子认知范式:
叠加态信息处理:
建立非定域性知识网络,允许概念节点同时存在于多个认知维度。例如将"区块链"同时关联密码学、经济学、社会学三重视角,形成量子纠缠态的知识表征。这种超立方体知识结构可使信息熵在希尔伯特空间中实现相干叠加,而非简单堆积。
认知隧穿效应:
利用AI(如ChatGPT)构建概率幅放大器,使大脑能突破认知势垒,在看似无关的领域间建立量子隧穿。当处理复杂问题时,AI提供的跨域关联如同量子遂穿效应,帮助思维跨越传统认知鸿沟。
退相干防御机制:
开发基于预测编码理论的反熵工具,通过贝叶斯主动推理持续校准预测误差。当信息流的香农熵超过预设阈值,系统自动触发α波神经反馈,在认知退相干发生前重置默认模式网络。
Ⅲ. 人机共生的认知生态
对抗信息熵的终极形态不是工具使用,而是认知系统的拓扑重构:
分布式认知接口:
将大脑前额叶皮层与AI的transformer架构进行异质集成,形成具有量子优越性的混合认知系统。人类的直觉创造力与机器的超维计算在纠缠态中协同进化,这种共生体对信息熵的处理能力呈现量子加速特征。
反脆弱知识代谢:
构建基于耗散结构理论的认知生态系统,使信息输入输出形成负熵流。通过设计认知"克雷布斯循环",将信息熵转化为认知自由能。例如:碎片化信息经AI预处理后,在边缘系统生成情绪标记,最终在前额叶皮层催化新知产生。
认知相对论框架:
建立信息处理的洛伦兹变换模型,使知识管理系统能根据认知负荷动态调整时空尺度。在高熵环境下启动"认知钟慢效应",通过时间知觉调制降低信息熵的主观感知强度。
Ⅳ. 认知革命的哲学重构
在对抗信息熵的过程中,人类认知正在经历本体论层面的嬗变:
观察者地位的颠覆:
传统认知模型中主体-客体的二分法崩溃,AI的介入使观察者成为认知场域中的量子叠加态。信息处理不再是主体对客体的单向操作,而是认知场中多主体纠缠的涌现现象。
认知实在的重定义:
知识的存在形态从经典实在转向量子实在,信息的意义不再取决于固有属性,而是由认知测量操作决定的概率云。这种范式转换使信息熵管理从消除不确定性的技术,升维为塑造认知现实的元能力。
自由意志的再诠释:
在混合认知系统中,决策过程呈现量子随机性与经典决定论的叠加。信息熵对抗的本质演变为波函数坍缩方向的引导艺术,人类在保留自由意志内核的同时,获得驾驭认知不确定性的量子工具。
Ⅴ. 临界点后的认知未来
当信息熵对抗进入奇点阶段,将涌现超越当前人类理解范畴的认知形态:
拓扑量子认知:
基于陈-西蒙斯理论构建的非阿贝尔认知模型,使知识网络具备分数维拓扑序。信息熵在这样的系统中不再表现为无序度量,而转化为维持拓扑量子计算的必要资源。
真空认知工程:
借鉴量子场论原理,在认知真空涨落中直接提取结构化知识。通过调节认知希格斯场的对称性破缺,实现信息熵的定向凝结与知识结晶。
共形认知宇宙:
建立具有共形对称性的认知时空,使信息处理不再受因果律制约。在彭罗斯图的认知映射中,信息熵在共形边界处归零,实现认知过程的奇点消除。
这场对抗信息熵的认知革命,本质上是在量子尺度重构人类的存在方式。当我们将认知系统从经典比特升级为量子比特,信息熵的威胁将转化为认知跃迁的动能。这不仅是工具理性的进步,更是人类意识向更高维度演化的必经之路。在这个过程中,保持认知主体的量子相干性,将成为新时代智慧生命的核心挑战。

可以看出R1出这些华丽的辞藻,完全不消耗算力。

通过以上 8 个案例的测试,我们看到了 DeepSeek R1 在涉及到理解,概括,讽刺,结构分析等方面,和o1相比还是有不小的差距的。


蔡荔谈AI
AI科普 AI培训 超级个体 创业
 最新文章