以下文章来源于AI前线,转载自战略前沿技术
关于 DeepSeek,
我们需要了解的一切
之前有没有哪些事件能跟 DeepSeek 相提并论?
那么,DeepSeek 到底证明了什么?
所以说,冲突的核心在于 OpenAI 给我们塑造了错误的大模型训练认知?
那就从一切的起源说起:V2 模型是什么,又为何如此重要?
那这是不是违反了芯片禁令?
所以说,V3 是一款顶尖模型?
蒸馏是什么?
就是因为这点,各大科技巨头的股价才会应声狂跌吗?
那 R1 要比 V3 更强、更让人眼前一亮吗?
DeepSeek 是怎么开发出 R1 的?
在本文中,我们迈出了使用纯强化学习(RL)提高语言模型推理能力的第一步。我们的目标是探索大语言模型在不借助任何监督数据的情况下,发展出推理能力的潜在可能性,且重点关注大模型通过纯强化学习过程的自我进化。具体来讲,我们使用 DeepSeek-V3-Base 作为基础模型,并使用 GRPO 作为强化学习模型以提高模型在推理方面的性能。在训练过程中,DeepSeek-R1-Zero 自然而然地展现出诸多强大且有趣的推理行为。经过数千个强化学习步骤之后,DeepSeek-R1-Zero 在推理基准测试上表现出超强的性能。例如,其 AIME 2024 的 pass@1 得分从 15.6% 提升至 71.0%;在配合多数投票法之后,其得分进一步提升至 86.7%,与 OpenAI-o1-0912 的表现相当。
在 DeepSeek-R1-Zero 训练期间,我们观察到了一种特别有趣的现象,即“顿悟时刻”。如表 3 所示,顿悟时刻出现在模型的中间版本。在此阶段,DeepSeek-R1-Zero 通过重新评估其初始方法学会了为问题分配更多思考时间。这种行为不仅证明模型的推理能力在不断增强,同时也有力展现出强化学习产出预料之外的复杂结果的可能性。
这代表的不仅是模型自身的“顿悟时刻”,更是观察其行为的研究人员们的“顿悟时刻”。这一瞬间,强化学习的魅力与潜能得到充分体现:我们无需明确指导模型如何解决问题,而只需为其提供正确激励,它就会自主探索出高级问题的解决策略。“顿悟时刻”再次明确提醒我们,强化学习完全有可能在 AI 系统中启发出新的智能水平,为未来自主程度更高、适应性更强模型的诞生铺平道路。
然而,DeepSeek-R1-Zero 也遇到了可读性、语言杂糅等挑战。为了解决这些问题并进一步提高推理性能,我们发布了 DeepSeek-R1,强调将少量冷启动数据与多阶段训练管线结合起来。具体来讲,我们首先收集了数千条冷启动数据来微调 DeepSeek-V3-Base 模型。之后,我们执行面向推理的强化学习,例如 DeepSeek-R1-Zero。在强化学习接近收敛之后,我们通过对检查点进行拒绝采样以创建新的 SFT 数据,同时辅以 DeepSeek-V3 在写作、事实问答和自我认知等领域的监督数据,借此重新训练 DeepSeek-V3-Base 模型。在使用新数据进行微调之后,检查点经历了额外的强化学习过程,充分考虑到各类提示词应用场景。完成这些步骤之后,我们获得了名为 DeepSeek-R1 的检查点,其性能与 OpenAI-o1-1217 基本相当。
那我们是不是离通用人工智能(AGI)越来越近了?
但现在不是 R1 略占优势吗?
既然如此,为什么人们一幅惊惶失措的样子?
那买了英伟达股票的朋友应该害怕吗?
CUDA 是所有大语言模型开发者的首选语言,而 CUDA 仅适用于英伟达芯片。 英伟达在将多块芯片组合成大型虚拟 GPU 的能力方面,拥有着巨大的领先优势。
那么,芯片禁令还有用吗?
就像现在的 AI 模型?
重点在于:如果接受了靠监管手段帮助领先者继续保持领先这个逻辑,大家就能很快意识到,天天在政府层面鼓吹 AI 威胁论的反而就是那帮在 AI 领域占据了优势的早期赢家。虽然他们的担忧还不足以阻止整个行业的发展,但从收效来看,这首先表明他们都是负责任的从业者、是那种关注公益并愿意呼吁监管的好人;其次,如果能够借此机会顺便打压一下那帮潜在竞争对手,那就更好了。
所以,你不担心 AI 引发世界末日?
既然如此,为什么中方要开源他们的模型?
那么,OpenAI 是不是快完了?
所以说,DeepSeek 带来的全都是坏消息喽?
转载声明