上一次我介绍了 DeepSeek V3:《万万没想到,一家中国量化基金公司年底发布了最强开源LLM:DeepSeek V3》,相当让我惊讶。
没想到 DeepSeek 又开始放大招:发布了一款革命性的推理LLM——DeepSeek-R1,该模型在数学、编程和推理任务上与 OpenAI 的前沿推理 LLM o1 相媲美。与o1 不同,DeepSeek-R1 在提供相似性能的同时,价格便宜了 90-95%,成为了一款极具吸引力的高性价比推理模型。
这一发布标志着开源 AI 领域的重大进步,表明开源模型正在缩小与商业模型之间的差距,在实现人工通用智能(AGI)的竞赛中占据重要地位。DeepSeek 还利用 DeepSeek-R1 对包括 Llama 和 Qwen 在内的六个模型进行了蒸馏,并将其性能提升至新高度。在某些数学基准测试中,蒸馏版的 Qwen-1.5B 甚至超过了 GPT-4o 和 Claude 3.5 Sonnet 这样更大规模的模型。
DeepSeek将 DeepSeek-R1 及其蒸馏模型开源,已在 Hugging Face 上发布,并提供 MIT 许可,进一步推动了开源 AI 生态的发展。
https://huggingface.co/deepseek-ai
DeepSeek-R1 的核心特点
DeepSeek-R1 的发布,是朝着 AGI 目标迈出的重要一步,AGI 旨在开发能够像人类一样进行知识性任务的 AI。OpenAI 率先通过其 o1 模型采取了这一方向,o1 模型使用链式推理来解决问题、优化策略,并通过强化学习(RL)纠正错误或尝试新方法。
基于此思路,DeepSeek-R1 结合了强化学习和监督微调,成功处理了复杂的推理任务,并与 o1 模型的性能相媲美。在基准测试中,DeepSeek-R1 在 AIME 2024 数学测试中得分 79.8%,在 MATH-500 测试中得分 97.3%,在某些领域超越了 o1。
该模型还展示了强大的通识知识,在 MMLU 测试中取得了 90.8% 的准确率,仅次于 o1 的 91.8%。在编程基准测试中,DeepSeek-R1 在 Codeforces 上排名前 3.7%,超越了 o1 的表现。
训练和开发过程
DeepSeek-R1 的开发经历了一个多步骤的过程,首先使用 DeepSeek-V3 基础模型,并通过强化学习增强其推理能力。最初的 DeepSeek-R1-Zero 是一个纯强化学习的模型,虽然展现出了强大的推理能力,但存在可读性差和语言混杂的问题。为了解决这些问题,DeepSeek结合了监督学习和强化学习,开发出了增强版的DeepSeek-R1,并通过对领域特定数据进行微调,进一步提高了性能。
最终,DeepSeek-R1 成为了一款能够匹敌 OpenAI o1 的推理模型,具备了更深入的反思和探索替代方案的能力。
更具性价比的选择
除了提升性能几乎与 OpenAI o1 在基准测试中的表现相当外,DeepSeek-R1 的价格也十分亲民。具体来说,OpenAI o1 每百万输入 token 收费 15 美元,每百万输出 token 收费 60 美元,而 DeepSeek-R1 则只需每百万输入 token 0.55 美元,每百万输出 token 2.19 美元。这使得 DeepSeek-R1 成为企业和开发者寻找高质量 AI 推理的经济实惠选择。
用户可以通过 DeepSeek 的聊天平台 DeepThink 测试该模型,或者通过 Hugging Face 访问模型权重和代码库,模型采用 MIT 许可发布,也可以通过 API 直接集成到应用程序中。
https://huggingface.co/deepseek-ai
总结
DeepSeek-R1 代表了开源 AI 领域的重大突破,在提供强大推理能力的同时,价格远低于 OpenAI o1。通过开源这款强大的工具,DeepSeek 正在帮助推动 AI 技术的普及,缩小开源模型与商业模型之间的差距。
标志着经济实惠且强大的 AGI-like 系统的新时代的开始。