国内首个对标o1的推理模型发布:DeepSeek-R1-Lite初体验!

文摘   2024-11-21 07:30   美国  

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于AI科普AI工具测评AI效率提升AI行业洞察。关注我,AI之路不迷路,2024我们一起变强。

2024年9月12日,OpenAI的首个推理模型o1重磅发布。从该模型的命名也可以看出,o1走的路和GPT系列模型不是同一条,否则它就应该被命名为GPT-5了。

推理模型的推理二字,是指模型在回答问题前会主动思考,将一个复杂问题拆解为多个子问题,逐个击破,再生成最终答案。这种方式和我们人类解决难题的过程是一样的,回想如果我们面对一道数学难题,是不是也是同样的思路,先思考,然后一步步解答。这个思考过程被称为内部思维链(internal chain of thought)。关于思维链更详细的介绍,可以看我这篇文章:《思维链(Chain-of-Thought)技术的背后,是人类思考问题的方式!》。

o1模型经过了思维链的加持后,在物理、化学和生物学等复杂学科的高难度基准任务上,表现几乎与博士生相当。在数学编码领域则更加出色。在国际数学奥林匹克(IMO)资格考试中,o1模型的正确率达到了惊人的83%,作为对比,GPT-4o的正确率为13%。在Codeforces编程竞赛中,o1的表现达到了第89百分位(即表现超过了89%的评估对象,排名前11%)。

在接下来的几个月里,国内的不少AI公司也在纷纷尝试,但更多的是在应用方面,如Kimi、智谱、天工和360的推理型AI搜索。单就推理模型而言,除了上周月之暗面(Kimi)官宣的数学推理模型k0-math,并没有太多的更新。但由于k0-math还处于PPT阶段,并未真正开放使用,真实体验如何还未可知。

然而,今天文章的主角并不是月之暗面的k0-math,而是DeepSeek(中文名:深度求索)的DeepSeek-R1-Lite。和k0-math的宣传预热阶段不同,DeepSeek-R1-Lite是已经切切实实发布了的对标o1的国产推理模型。

关于DeepSeek

DeepSeek由知名量化私募幻方量化于2023年成立的AI初创公司,专注于开发通用人工智能(AGI)底层模型和技术。DeepSeek的产品和技术以开源为主,包括多个百亿级参数的模型,如DeepSeek-LLMDeepSeek-Coder,以及混合专家模型(MoE)DeepSeek-V2V2.5。值得一提的是,该公司以高性价比和性能著称,被称为“AI界的拼多多”。比如,DeepSeek-V2的API定价为每百万Tokens输入1元、输出2元。

在LMSYS聊天机器人竞技场排名榜中,目前DeepSeek-V2.5模型综合排名为22名。

关于DeepSeek-R1-Lite

DeepSeek-R1-Lite是DeepSeek于2024年11月20日发布的推理模型,目前已经发布的为预览版(和OpenAI的o1一样)。根据DeepSeek官方介绍,R1系列模型使用强化学习训练,推理过程包含大量反思和验证,思维链长度可达数万字。该系列模型在数学、代码以及各种复杂逻辑推理任务上,取得了媲美o1-preview的推理效果,并为用户展现了o1没有公开的完整思考过程。

下面是DeepSeek官方放出的基准测试对比图。

DeepSeek-R1-Lite初体验

目前DeepSeek-R1-Lite在DeepSeek官网上免费可用,每用户每天使用数量限制为50次。在这里不得不吐槽Kimi探索版,每人每天只能用5次,我做个测试还得分几天才能测试完。

DeepSeek官网:https://chat.deepseek.com/

另外需要指出的是,和o1一样,DeepSeek-R1-Lite也是个纯文本模型,目前不支持解析文件。

1. 几何推理

一个圆的半径为10,在其内部随机选择两点,计算这两点之间的平均距离。

先上结果。这道需要用到积分的题目结果完全正确

附上DeepSeek-R1-Lite长达61秒的思考过程。

2. 组合数学

一个班有12名男生和10名女生,要从中选出6人组成一个小组,要求至少有2名女生,问有多少种不同的选法?

19秒就得到了答案65769,完全正确。并且还附上了一个反向思考的验证过程,有点厉害。

3. 逻辑推理

观察以下数列,推断规律并预测下一个数字:2,6,15,31,56

这道题目,相邻数字的差值为递增的平方数4,9,16,25。所以下一个数字应该是56加36,92。回答正确

4. 真假话推理

三个囚犯 A、B 和 C,分别戴着红帽或蓝帽(但无法看到自己的帽子)。守卫说:“至少有一个囚犯戴着红帽。” A 说:“我不知道我的帽子颜色。” B 说:“我也不知道。” C 说:“我知道了。” 问 C 的帽子是什么颜色?

总算有一道题难倒DeepSeek-R1-Lite了,回答错误。这道题其实可以简单思考,只有A蓝B蓝的情况下,C才能根据“至少有一个红帽”来断定自己的帽子颜色。所以C应该是红色。

经过检查DeepSeek-R1-Lite的思维链,我发现它把自己绕进去了,直到最后也没能绕出来,属于“过度思考”了。

作为对比,附上o1-preview的答案。

结语

在测试过程中,我还遇到了中英文思考、输出混乱的问题。但综合来看,DeepSeek-R1-Lite已经展现出了一个推理模型应有的推理能力,并且还是免费使用,值得尝试。



精选推荐

  1. 国内支付宝开通ChatGPT Plus和Claude Pro 2024最新教程!
  2. 『AI保姆级教程』无需手机号!三分钟注册ChatGPT账号!2024年最新教程!
  3. 『AI保姆级教程』手把手教你注册Claude账号!建议收藏!


都读到这里了,点个赞鼓励一下吧,小手一赞,年薪百万!😊👍👍👍。关注我,AI之路不迷路,原创技术文章第一时间推送🤖。

AI信息Gap
AI信息差,让一部分人先AI起来。
 最新文章