国内首个对标o1的推理模型发布：DeepSeek-R1-Lite初体验！

文摘 2024-11-21 07:30 美国

大家好，我是木易，一个持续关注AI领域的互联网技术产品经理，国内Top2本科，美国Top10 CS研究生，MBA。我坚信AI是普通人变强的“外挂”，所以创建了“AI信息Gap”这个公众号，专注于分享AI全维度知识，包括但不限于AI科普，AI工具测评，AI效率提升，AI行业洞察。关注我，AI之路不迷路，2024我们一起变强。

2024年9月12日，OpenAI的首个推理模型o1重磅发布。从该模型的命名也可以看出，o1走的路和GPT系列模型不是同一条，否则它就应该被命名为GPT-5了。

推理模型的推理二字，是指模型在回答问题前会主动思考，将一个复杂问题拆解为多个子问题，逐个击破，再生成最终答案。这种方式和我们人类解决难题的过程是一样的，回想如果我们面对一道数学难题，是不是也是同样的思路，先思考，然后一步步解答。这个思考过程被称为内部思维链（internal chain of thought）。关于思维链更详细的介绍，可以看我这篇文章：《思维链(Chain-of-Thought)技术的背后，是人类思考问题的方式！》。

o1模型经过了思维链的加持后，在物理、化学和生物学等复杂学科的高难度基准任务上，表现几乎与博士生相当。在数学和编码领域则更加出色。在国际数学奥林匹克（IMO）资格考试中，o1模型的正确率达到了惊人的83%，作为对比，GPT-4o的正确率为13%。在Codeforces编程竞赛中，o1的表现达到了第89百分位（即表现超过了89%的评估对象，排名前11%）。

在接下来的几个月里，国内的不少AI公司也在纷纷尝试，但更多的是在应用方面，如Kimi、智谱、天工和360的推理型AI搜索。单就推理模型而言，除了上周月之暗面（Kimi）官宣的数学推理模型k0-math，并没有太多的更新。但由于k0-math还处于PPT阶段，并未真正开放使用，真实体验如何还未可知。

然而，今天文章的主角并不是月之暗面的k0-math，而是DeepSeek（中文名：深度求索）的DeepSeek-R1-Lite。和k0-math的宣传预热阶段不同，DeepSeek-R1-Lite是已经切切实实发布了的对标o1的国产推理模型。

关于DeepSeek

DeepSeek由知名量化私募幻方量化于2023年成立的AI初创公司，专注于开发通用人工智能（AGI）底层模型和技术。DeepSeek的产品和技术以开源为主，包括多个百亿级参数的模型，如DeepSeek-LLM、DeepSeek-Coder，以及混合专家模型（MoE）DeepSeek-V2和V2.5。值得一提的是，该公司以高性价比和性能著称，被称为“AI界的拼多多”。比如，DeepSeek-V2的API定价为每百万Tokens输入1元、输出2元。

在LMSYS聊天机器人竞技场排名榜中，目前DeepSeek-V2.5模型综合排名为22名。

关于DeepSeek-R1-Lite

DeepSeek-R1-Lite是DeepSeek于2024年11月20日发布的推理模型，目前已经发布的为预览版（和OpenAI的o1一样）。根据DeepSeek官方介绍，R1系列模型使用强化学习训练，推理过程包含大量反思和验证，思维链长度可达数万字。该系列模型在数学、代码以及各种复杂逻辑推理任务上，取得了媲美o1-preview的推理效果，并为用户展现了o1没有公开的完整思考过程。

下面是DeepSeek官方放出的基准测试对比图。

DeepSeek-R1-Lite初体验

目前DeepSeek-R1-Lite在DeepSeek官网上免费可用，每用户每天使用数量限制为50次。在这里不得不吐槽Kimi探索版，每人每天只能用5次，我做个测试还得分几天才能测试完。

DeepSeek官网：https://chat.deepseek.com/

另外需要指出的是，和o1一样，DeepSeek-R1-Lite也是个纯文本模型，目前不支持解析文件。

1. 几何推理

一个圆的半径为10，在其内部随机选择两点，计算这两点之间的平均距离。

先上结果。这道需要用到积分的题目结果完全正确。

附上DeepSeek-R1-Lite长达61秒的思考过程。

2. 组合数学

一个班有12名男生和10名女生，要从中选出6人组成一个小组，要求至少有2名女生，问有多少种不同的选法？

19秒就得到了答案65769，完全正确。并且还附上了一个反向思考的验证过程，有点厉害。

3. 逻辑推理

观察以下数列，推断规律并预测下一个数字：2，6，15，31，56

这道题目，相邻数字的差值为递增的平方数4，9，16，25。所以下一个数字应该是56加36，92。回答正确。

4. 真假话推理

三个囚犯 A、B 和 C，分别戴着红帽或蓝帽（但无法看到自己的帽子）。守卫说：“至少有一个囚犯戴着红帽。” A 说：“我不知道我的帽子颜色。” B 说：“我也不知道。” C 说：“我知道了。” 问 C 的帽子是什么颜色？

总算有一道题难倒DeepSeek-R1-Lite了，回答错误。这道题其实可以简单思考，只有A蓝B蓝的情况下，C才能根据“至少有一个红帽”来断定自己的帽子颜色。所以C应该是红色。

经过检查DeepSeek-R1-Lite的思维链，我发现它把自己绕进去了，直到最后也没能绕出来，属于“过度思考”了。

作为对比，附上o1-preview的答案。

结语

在测试过程中，我还遇到了中英文思考、输出混乱的问题。但综合来看，DeepSeek-R1-Lite已经展现出了一个推理模型应有的推理能力，并且还是免费使用，值得尝试。

精选推荐

都读到这里了，点个赞鼓励一下吧，小手一赞，年薪百万！😊👍👍👍。关注我，AI之路不迷路，原创技术文章第一时间推送🤖。

http://mp.weixin.qq.com/s?__biz=MzkwMzYzMTc5NA==&mid=2247491972&idx=1&sn=aded0a1222293b393bb9c73f638d214a

AI信息Gap

AI信息差，让一部分人先AI起来。

一文带你了解红队测试！

AI眼中的麦琳...

国内首个对标o1的推理模型发布：DeepSeek-R1-Lite初体验！

ChatGPT高级语音模式正在向Web网页端推出！

ChatGPT Search VS Kimi探索版：AI搜索哪家强？！

AI Weekly『11月11-17日』：Kimi发布新一代数学推理模型，腾讯推出AI工作台ima！

谷歌Gemini发布iOS版App，live语音聊天免费用！

『深度分析』AI搜索的3大使用场景！

马斯克的xAI已开通网页版！目前免费！附详细教程和初体验

OpenAI花费千万美元购买了这个域名！

AI Weekly『11月4-10日』: Anthropic发布Claude 3.5 Haiku，腾讯开源混元-Large模型！

Sam Altman：年底将有重磅更新，但不是GPT-5！

马斯克发福利，每月免费25美元xAI API！附详细教程

我找了8个AI搜索工具总结2024美国大选，哪个最强？

Apple Intelligence体验报告/使用教程（一）：写作工具篇

ChatGPT Search浏览器插件手把手教学！OpenAI官方出品！

ChatGPT Search重磅发布！OpenAI牌搜索引擎来了！

聊一聊ChatGPT的两个更新：不起眼，但很重要！

一文记录Apple Intelligence从开始到设置全过程！

Apple Intelligence正式发布，送你这份完全攻略！

OpenAI CEO山姆·奥特曼亲自辟谣新模型Orion：假新闻失控了！

刚刚，Claude发布了数据分析功能！附详细教程！

OpenAI低调发布多智能体工具Swarm：让多个智能体协同工作！

重磅！Anthropic发布Claude 3.5 Haiku、升级版Sonnet和计算机自动化操作功能！

Claude Financial Data Analyst：基于Claude的金融数据分析工具！免费开源！

ChatGPT官方桌面客户端的平替，Github 52.7K Stars！支持Mac、Win、Linux！

刚刚，ChatGPT推出Windows客户端！

Kimi VS 智谱 VS 360：推理型AI搜索哪家强？！

盘点5个你应该知道的ChatGPT近期更新！免费实时语音终于来了！

OpenAI提示词生成工具详解！一键生成提示词！

『深度分析』Kimi版o1来了！Kimi探索版全面解读！

准备进入AI第三阶段：OpenAI推出AI Agent基准MLE-bench！

AI教父荣获2024诺贝尔物理学奖：杰弗里·辛顿和他的深度学习之路！

公众号GPT-4o mini免费AI聊天机器人已恢复！

Apple Intelligence将于10月28日发布，ChatGPT集成推迟！

『建议收藏』ChatGPT Canvas功能进阶使用指南！

OpenAI为ChatGPT推出Canvas功能，对标Claude Artifacts！

媲美GPT-4o mini的小模型，Meta Llama 3.2模型全面解读！

ChatGPT实时语音将于本周向免费用户推出：OpenAI DevDay 2024详细解读

使用OpenAI最新模型o1的6种方式，总有一种适合你！

现实版宫斗剧《OpenAI传》，正在上演！

关于ChatGPT实时语音功能，你需要知道的15点总结！

重磅！ChatGPT实时语音终于要来了！附详细使用说明

让AI激发创作力：OpenAI分享5位专业作家利用ChatGPT写作的案例技巧

『深度长文』Anthropic推出全新“上下文检索”：大幅增加RAG检索准确性！

国内支付宝开通ChatGPT Plus和Claude Pro 2024最新教程！

美联储四年来首次降息意味着什么？来看看新模型o1怎么回答！

注意，传统的提示工程对新模型o1可能失效：来自OpenAI官方的4条提示词建议！

免费的新模型o1 mini即将到来：OpenAI正在逐步开放！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉