点击蓝字 关注我们 · 开工大吉 本文为深度剖析 DeepSeek 的干货分享,预计阅读时长 25 分钟,是全面、系统地拆解 DeepSeek 的原理,可以为您解答以下疑问:
1. DeepSeek R1会让以前的提示词公式没有用了?要重学一遍吗? 2. DeepSeek R1到底做了什么创新?美国为什么要打压? 3. DeepSeek到底有没有偷取OpenAI的数据? 4. 蒸馏模型与满血版模型的区别是什么?他们有何关系? 5. DeepSeek R1本地私有化部署要具备什么条件? 6. 每个人在AI时代要做什么准备?
这个春节,AI 圈热闹非凡,中国对 DeepSeek 的重视和美国对DeepSeek的打压,各大媒体竞相报道,朋友们都被DeepSeek刷满了屏,让人眼花缭乱,一会儿是 R1性能多么好,成本多么低,赶超OpenAI o1;一会儿OpenAI又发布了o3-mini应战又赶超,信息多得让人应接不暇。还有些商业嗅觉敏锐的人趁机推出《DeepSeek 使用指南》《DeepSeek 完全攻略》等内容或课程,宣称 “原来的提示词没用了,DeepSeek 不吃那一套”,还抛出 “推理型” 模型和 “指令型” 模型的概念,这更是让大家一头雾水。为了帮大家拨开迷雾,看清 DeepSeek 的实质,做出正确判断。所以,今天我撰写这篇文章深入剖析,为大家在这繁杂的AI信息中 “祛魅存真”。看完之后,相信你能有所甄别,有所行动。 我先通过一张图,带大家回顾过去几个月 AI 界的关键事件,看看那些激动人心的时刻。
本文会涉及一些技术原理,即便您不是技术人员也能看懂。为确保表达精准,部分技术术语会保留英文原名标注。大家无需深入钻研这些英文技术名称,理解中文表述的含义即可。
一,理解DeepSeek的R1模型与其他AI大模型有何不同?
当 DeepSeek V3 发布时,市场反应或许只是 “还可以”。但 R1 一经推出,市场瞬间被惊艳。DeepSeek 的 APP 在多个国家和地区的下载量超越了 ChatGPT。R1 不仅能力与昂贵的 O1 相当,推理思路甚至超越人类。那么,R1 与普通 AI 大模型的差异究竟在哪?实际上,R1 模拟了人类的 “慢思考” 模式,养成了仔细思考后再输出答案的习惯。
在探讨 DeepSeek R1 的 “慢思考” 前,先了解下 “快思考” 与 “慢思考” 的概念。这两种思维模式源自诺贝尔经济学奖得主丹尼尔・卡尼曼的《思考,快与慢》。书中,“快思考” 对应系统 1,是无需费脑力、无意识且反应快速的直觉系统,凭借情感、记忆和经验自动做出反应。在 AI 领域,GPT 系列就类似 “快思考”,能快速做出直觉决策,实现多模态快速语言响应。它依靠大量积累的数据和训练经验,迅速给出答案,满足用户对效率的需求。
而 “慢思考” 对应系统 2,属于费脑力、需集中注意力的理性系统,通常在系统 1 无法解决问题时启动,调动注意力分析、解决难题。DeepSeek R1 模拟的正是 “慢思考” 模式。 面对问题,它不像 “快思考” 模型那样仓促作答,而是如人类深思熟虑般,把复杂问题拆解成简单步骤。处理数学问题时,它会一步步推导,仔细检查每一步的合理性,这种深入思考极大地提升了答案的准确性与可靠性。
此前,若想让 AI 大模型具备慢思考能力,往往要借助提示词构建思维链(CoT,Chain of Thought),其本质就是用提示词引导 AI 大模型分步骤思考。过去,AI 大模型在数学能力方面表现欠佳,不过借助思维链,教它解题步骤,它就能给出正确答案。就像早期的 GPT 版本,连简单数学题都可能答错,可运用思维链提示词后,就能答对了 。
上图回答错误的情况下, 在提示词中告诉ChatGPT怎么分步骤执行,并举个例子,然后GPT可回答正确:
R1 模型与其他大多数 AI 大模型的不同之处在于:无需借助提示词构建思维链来引导其进行慢思考。DeepSeek 团队创新了模型的训练方式,使 R1 模型能够本能地进行慢思考。
1,DeepSeek 不需要提示词了?
其实,使用 DeepSeek R1 依然需要提示词,只是使用门槛降低了。我们无需特意在提示词中教导模型思考,因为它可能比我们思考得更好,一开始就教它思考反而可能限制它。然而,如果 R1 的思考过程不符合我们的期望,我们仍需通过思维链的形式告知它该如何思考。所以,要充分发挥 DeepSeek 的作用,同样需要掌握提示词技巧。使用 DeepSeek 时,我们可以先尝试简单提示词,若无法满足需求,再逐步使用复杂提示词。它降低了提示词的运用门槛,但并不意味着提示词不重要。网上有人声称以前的提示词公式失效,要用新公式,这实际上是没有理解 AI 大模型的本质,我们下面的第2点会详细阐述这一点。
(预约最近的大飞老师的直播,了解更多实战玩法)
2,R1 是 “推理” 型模型,其他 AI 大模型不是?
我在《洞见未来:2025 年 AI 应用新趋势与企业赋能路径》一文中提到过,国内外所有的 AI 大模型,本质上都是 “推理引擎”。从技术原理来看,大模型并非 “知识库”,它获取知识不是依靠搜索查询,而是通过上亿参数进行推理运算,这种运算实际上是 “概率计算”。既然是概率运算,结果就不可能 100% 准确,所以 AI 大模型会出现 “幻觉”(即自认为正确的知识可能并非正确)。DeepSeek R1 同样存在幻觉问题,它并没有解决这一难题, 所以,即使是DeepSeek R1 的“思考”部分,也会有出差的时候,还离不开人类加以判断。
有人称 R1 是 “推理” 型模型,其他大模型是 “指令” 型模型,这种说法并不正确。实际上,其他大模型同样是推理引擎,只是大部分其他大模型采用 “快思考” 的推理方式,而 R1 是 “慢思考” 大模型。除了DeepSeek R1,国内的kimi的K1、讯飞星火的X1、天工AI的o1也都是 “慢思考” 模型。
关于是不是以前的老提示词公式失效要用新公式?
提示词的本质,是为 “推理引擎” 提供更多 “推理逻辑” 与 “推理依据”,使大模型依据我们给出的内容,推理出更优结果。部分提示词公式,能帮助我们借助公式更好地梳理推理逻辑和依据。并不存在绝对最好的提示词公式,关键在于审视自己提供的推理逻辑和依据是否足够充分。我自己实测发现,并不存在老公式失效的情况。就像我常对学员们说的:每个大模型都有自己的 “脑回路”(有独特的思维方式),DeepSeek 与 GPT 的脑回路不同,实际上 Kimi、豆包等和 GPT 的脑回路也不一样。所以在 GPT 上调整好的提示词,换到其他模型上(不仅是 DeepSeek),都需要重新调整提示词的语言表述,但这并不代表原有的提示词公式就没用了。
英伟达高级科学家 Jim Fan 在2024年的年底OpenAI o1 发布后第一时间预测:大量计算将被转移到服务推理而不是大模型的训练前/后。 每个大语言模型从训练到使用有三个阶段,分别是:预训练(Pre-training):从海量的数据中学习数据特征。后训练(Post-raining):个性化“定制学习”,特定领域的任务,包括微调(fine-tuning)和蒸馏(KD,Knowledge Distillation)也是属于模型的后训练。推理(Interence):这个阶段是大众用户调用模型的时候,模型已经训练好,普通用户能与大模型对话的时候。
越来越多的大模型企业会将大量计算将被转移到服务推理而不是训练前/后,让模型的推理效果更好,R1 将成为数据飞轮,反过来将进一步优化 DeepSeek未来版本的推理核心。
二, DeepSeek是战术的创新,不是战争的胜利。
OpenAI 的 o1 模型同样采用 “慢思考” 模式,然而它既未开源,思考过程也未公开。DeepSeek R1 性能与 o1 相当,也正因为 R1 选择开源,所以引发了全球关注。不过,R1 和 OpenAI 的 o3 相比,还是有一定差距的。因此,即便 DeepSeek 热度高涨,也不意味着中国人工智能相对美国已取得战争的全面胜利。此次 DeepSeek 更多体现在“战术创新”上,主要是模型“训练方式”的创新。这就如同在大模型的 “战场” 上,多数企业采用 “阵地战” 模式,每次想要取得成果,都要付出巨大代价,对“武器装备” 要求极高。而 DeepSeek 创新地采用了类似 “游击战” 的策略,不需要装备那么的精良,也能用较小的资源投入收获不错的成果。
1. 什么是强化学习?它如何造就了 DeepSeek 强大的推理能力?
OpenAI-O1 的训练采用有监督微调(SFT,Supervised Fine-Tuning)与强化学习(RL,Reinforcement Learning)相结合的混合训练方式。与之不同,DeepSeek 首次证明了仅通过纯强化学习(RL)进行训练的可行性。借助这种训练方式,DeepSeek 的模型能够自我进化,自发涌现出反思、长链推理等能力 。
有监督微调(SFT)与强化学习(RL)有何不同?为了让非技术背景的朋友们更好理解,我打个比方,弄懂强化学习,就能明白它为何能有效训练出模型的推理能力。
有监督微调(SFT)的模型训练对数据要求颇高,训练数据必须经过标注。就像图中训练小人走出房间的任务,用于有监督微调训练的数据,得标注出每张图片里门的位置才能开展训练。而强化学习(RL)完全不做数据标注,仅设定奖励机制:走出屋子就能获得积分。在强化学习中,模型需要不断自行尝试,找到最有效的策略以获取更多奖励积分。一开始,模型就像个莽撞的新手,总是 “撞到墙”,经过无数次碰壁后才能找到 “门”。到了训练后期,模型掌握技能,撞墙次数减少,甚至能不撞墙就找到门。
模型通过数据训练,旨在学习数据 “特征”,并将其泛化为模型参数值。 显然,强化学习能让模型学到更多特征。这是为什么呢?有监督微调虽能快速 “出门”,却容易只识别 “门” 的特征,对屋子其他特征缺乏了解。而强化学习不一样,它不仅认识了 “门”,还熟知 “墙” 的特征。因为它经历了无数次 “撞墙”,从而自行推理出:“墙不能撞,一撞就‘疼’,有光的地方是门,朝着有光的地方走“, 这也是为什么R1被训练出来后推理能力极强的原因。
然而,强化学习向来存在训练时间长、算力消耗多的问题,因此以往没有 AI 大模型单纯采用强化学习的方式。但 DeepSeek 不仅做到了,还降低了训练时的算力要求。其训练成本仅为 o1 的 1/30 ,训练时间是 Llama3(4050 亿参数)的 1/11。DeepSeek 通过架构创新与优化,采用 Multi - head Latent Attention (MLA) 和 DeepSeekMoE 等架构,搭配 GRPO(Group Relative Policy Optimization)强化学习框架,通过组内奖励标准化有效降低训练成本,并基于规则设计奖励系统(准确性奖励 + 格式奖励),成功避免神经奖励模型中常见的 “奖励黑客” 问题。
2,什么是蒸馏?DeepSeek怎么做到了普惠社会?
DeepSeek-R1 还开放了多个蒸馏版本的模型,以最小参数的 DeepSeek-R1-Distill-Qwen-1.5B 为例,该模型仅有 15 亿参数,对显卡要求极低,仅需 4G 显存便能运行,这意味着个人手机和电脑都可以轻松部署。别看它参数小,推理性能却能达到 GPT4o 级别。我亲自上手对 DeepSeek R1 的 1.5B 小模型在本地私有化部署的表现进行了测评,结果着实令人惊叹!
演示视频中使用的是经过技术改造的 “魔改” 显卡,通过独特手段将 11G 显存提升至 22G,性能直逼 4090 显卡,成本却大幅降低。这一高性价比的部署方案,正是我为企业在 2025 年实现 DeepSeek 模型私有化落地而精心打造的 。
从 DeepSeek-R1-Distill-Qwen-1.5B 这个模型名称便能看出,它是将 DeepSeek R1 的知识蒸馏到通义千问 1.5B 模型上。严格来说,这个模型已不能完全等同于 DeepSeek 模型,而是 DeepSeek 把自身知识传授给了通义千问模型,从而增强了原本通义千问模型的能力。蒸馏的过程就如同老师教学,DeepSeek R1 充当老师模型,通义千问模型则是学生模型,而我们所使用的蒸馏版本模型,正是这个学生模型 。
知识蒸馏(KD)是由AI领域的三位大佬Geoffrey Hinton、Oriol Vinyals和Jeff Dean在2015年提出的技术,旨在通过将复杂教师模型的知识迁移到较简单的学生模型中,使学生模型在保持高性能的同时,能够实现更小的模型规模和更快的推理速度。
为什么DeepSeek的蒸馏这么有效?怎么理解蒸馏技术呢?
蒸馏在模型训练中属于后训练(Post-training)环节,实际上可以将蒸馏技术视为有监督微调(SFT)的进阶版训练方式。模型训练的核心目的是让模型从数据中学习特征。蒸馏训练同样是一种有监督的训练,这就意味着数据需要进行标注。不过,与原本的有监督微调(SFT)相比,蒸馏训练不仅有原始的数据标注,还能让老师模型直接将数据特征传递给学生模型。就像 DeepSeek R1 这个老师模型,是通过强化学习掌握了 “墙不能撞” 的特征。在学生模型进行蒸馏训练时,一方面数据标注会直接告知学生模型“门”的位置,另一方面老师模型也会直接将 “墙不能撞” 的特征传递给学生模型。通过这种蒸馏方式,学生模型能够以更低的成本、更高的效率学习到更多的数据特征。
因此,DeepSeek 的 R1 不仅向开源社区证明了纯强化学习可有效增强大模型能力,还充分展现出蒸馏技术在提升小模型能力方面的显著成效。可以预见,2025 年将会有更多企业选择运用蒸馏技术来训练垂直领域的小模型。
下图梳理与DeepSeek不同版本模型的关系:
3, 美国在担心什么?
综上所述,DeepSeek 创新训练方式,在实现比肩 o1 效果的同时大幅降低成本,并且选择开源,这一成果震动全球科技圈。尽管 DeepSeek 的火热并不意味着中国人工智能已超越美国,但美国各方却表现出明显担忧。1 月 27 日,美股主要科技公司市值蒸发上万亿美元。与此同时,DeepSeek 服务器遭遇多次大规模恶意网络攻击。特朗普也表示,DeepSeek 的崛起给美国企业敲响了 “警钟”,中国公司发布的 DeepSeek 人工智能,应让美国行业意识到必须专注竞争,才能赢得胜利。
关于美国科技巨头 OpenAI 和微软无端指责 DeepSeek,称其在训练 R1 和 V3 模型时“蒸馏”了他们的数据的问题;实际,“蒸馏” 是业内通用技术,OpenAI也提升中文能力方面做蒸馏了中国的大模型,所以指责DeepSeek盗取数据实际是在污名化“蒸馏”技术。国内也不少人上了当,跟风指责,认为DeepSeek是又一个“中国汉芯”,这种现象实在值得我们深思与警惕。
在以往,“技术创新” 的主导者总是美国,中国常被视为美国技术创新的 “跟随者”,而这次 DeepSeek 却以创新者之姿闯入全球 AI 赛道,打破了美国长久以来的技术优越感和领先惯性。这不仅让美国在技术层面感到威胁,更在心理和战略层面引发了强烈震动。尽管美国长期对中国芯片与人工智能领域实施封锁,2024 年底海关数据显示,中国芯片出口额达1.03万亿,大涨了21.4%,这意味着中国在芯片层面已然实现突围。而 DeepSeek 的横空出世,或将补齐中国高新技术领域的最后一块短板。
三,2025年,如何抓住DeepSeek的机遇。
DeepSeek 的意义,就好比曾经只有在大饭店才能品尝到的美味佳肴,如今各个小饭店也都能提供了。也许并非每家公司都有能力部署 6000 亿参数的大模型,但现在,每家公司都有条件部署 1.5B、7B、14B 的小模型,而且效果能与 ChatGPT4o 相媲美。我在《洞见未来:2025 年 AI 应用新趋势与企业赋能路径》中提到,2025 年端侧应用将迎来爆发,这一年 AI 的应用形式将是:智能体 + 端侧应用 + RPA。关于企业在其中的机会,我在这篇文章里已阐述得十分详尽。接下来,我着重讲讲在 AI 时代,个人层面该如何行动。
1. 如何判断自己是否跟上 AI 时代,两个验证标准
第一点:AI 是否成为自己的 “认知加速器”。这里强调的是 “认知”,而非信息和知识,因为通过传统搜索引擎就能获取信息和知识。认知能力是我们洞察事物本质的能力,人理应每天都致力于提升认知,以往这个过程较为缓慢,那么有了 AI 后,它是否加快了你每天提升认知的速度呢?
第二点:AI 是否成为我们的 “生产力”。会使用 AI 并不等同于 AI 已成为我们的生产力。人类需要的并非 AI 本身,而是让 AI 转化为人类的生产力。判断 AI 是否成为生产力的标准是,我们每天都有核心业务或工作依赖于 AI 的产出,一旦哪天不使用 AI,就会感觉生产力大幅倒退。
在生产力方面,拿我自己举例几点,这几点要做创始人IP的老板们完全可以借鉴:
(1)我身边朋友们明显发现我输出文章的速度变快了,实际是AI发挥了助力的作用。包括选题、资料整理、公众号排版等我都用到了AI。
(2)我坚持在每天分享AI日报和AI内容的朋友圈,这是因为我的智能体每天在跟我收集信息, AI日报的图片也是智能体生成的, 没有AI我自己完全是做不到的。
(3)我做的短视频是AI数字人制作的,内容也是AI参与策划的, 没有AI我完全做不到。
另外我还用AI做项目的编程开发:当下AI在AI写代码方面的能力已经十分强大了,最近我有一个项目代码99%都由AI写, 可以说有了AI,一人能抵10人的团队。研发团队用上AI生产力就不可能退回人工编码的时代了。
我们不仅自己掌握了AI编程能力,也形成了方法论和沉淀了企业私有化部署编程助手的方案。
2. 如何判断自己是否驾驭了 AI 能力,三个阶段
第一阶段:了解 AI。这需要全面、系统地学习,不能仅凭片面地看一篇文章、刷一个短视频就觉得了解 AI 了。在过去一年,我接触过大量企业老板,其中不少人仅把 AI 看作是 “数字人”,这都是碎片化了解导致的片面认知。所以,静下心来认认真真地进行系统性学习是第一步。我们已经开发了系统性的“全员AI”课程(共20+3节课),最近还针对 DeepSeek 专门推出了小包课(共3节课),大家可以关注,也可以预约文末的直播。
第二阶段:会用 AI。会用不是浅尝辄止,打开 DeepSeek 用一两次,或者用 AI 绘画模型生成几张图就觉得自己会用了,这远远不够。都说在一个行业成为专家需要花费 1 万小时,那么在用 AI 这件事上,我们可以先给自己定一个小目标,投入 100 小时。如果连 100 小时都没花过,我认为距离真正会用还有很大差距。
第三阶段:驾驭 AI。达到驾驭的状态时,我们已经积累了丰富经验和独特的 AI 应用技巧,与人交流如何使用 AI 时,能够条理清晰地讲述 AI 应用的各个方面。
(活动预告)
元宇宙与人工智能三十人论坛
因微信公众号整改,没有加“星标⭐️ ”的订阅号有时无法收到消息
1.为防止错过最新资讯,请将元宇宙与人工智能三十人论坛设为星标⭐️
2.点击“赞”和“在看”,提高我们相遇的几率。
3.精彩文章,请点击文末左下角“分享”给好友。
了解更多关注