大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于AI科普,AI工具测评,AI效率提升,AI行业洞察。关注我,AI之路不迷路,2024我们一起变强。
2024年9月12日,OpenAI的首个推理模型o1
重磅发布。从该模型的命名也可以看出,o1
走的路和GPT系列模型不是同一条,否则它就应该被命名为GPT-5
了。
推理模型的推理二字,是指模型在回答问题前会主动思考,将一个复杂问题拆解为多个子问题,逐个击破,再生成最终答案。这种方式和我们人类解决难题的过程是一样的,回想如果我们面对一道数学难题,是不是也是同样的思路,先思考,然后一步步解答。这个思考过程被称为内部思维链(internal chain of thought)。关于思维链更详细的介绍,可以看我这篇文章:《思维链(Chain-of-Thought)技术的背后,是人类思考问题的方式!》。
o1
模型经过了思维链的加持后,在物理、化学和生物学等复杂学科的高难度基准任务上,表现几乎与博士生相当。在数学和编码领域则更加出色。在国际数学奥林匹克(IMO)资格考试中,o1
模型的正确率达到了惊人的83%,作为对比,GPT-4o
的正确率为13%。在Codeforces编程竞赛中,o1
的表现达到了第89百分位(即表现超过了89%的评估对象,排名前11%)。
在接下来的几个月里,国内的不少AI公司也在纷纷尝试,但更多的是在应用方面,如Kimi、智谱、天工和360的推理型AI搜索。单就推理模型而言,除了上周月之暗面(Kimi)官宣的数学推理模型k0-math
,并没有太多的更新。但由于k0-math
还处于PPT阶段,并未真正开放使用,真实体验如何还未可知。
然而,今天文章的主角并不是月之暗面的k0-math
,而是DeepSeek(中文名:深度求索)的DeepSeek-R1-Lite
。和k0-math
的宣传预热阶段不同,DeepSeek-R1-Lite
是已经切切实实发布了的对标o1
的国产推理模型。
关于DeepSeek
DeepSeek由知名量化私募幻方量化于2023年成立的AI初创公司,专注于开发通用人工智能(AGI)底层模型和技术。DeepSeek的产品和技术以开源为主,包括多个百亿级参数的模型,如DeepSeek-LLM
、DeepSeek-Coder
,以及混合专家模型(MoE)DeepSeek-V2
和V2.5
。值得一提的是,该公司以高性价比和性能著称,被称为“AI界的拼多多”。比如,DeepSeek-V2
的API定价为每百万Tokens输入1元、输出2元。
在LMSYS聊天机器人竞技场排名榜中,目前DeepSeek-V2.5
模型综合排名为22名。
关于DeepSeek-R1-Lite
DeepSeek-R1-Lite
是DeepSeek于2024年11月20日发布的推理模型,目前已经发布的为预览版(和OpenAI的o1
一样)。根据DeepSeek官方介绍,R1系列模型使用强化学习训练,推理过程包含大量反思和验证,思维链长度可达数万字。该系列模型在数学、代码以及各种复杂逻辑推理任务上,取得了媲美o1-preview
的推理效果,并为用户展现了o1
没有公开的完整思考过程。
下面是DeepSeek官方放出的基准测试对比图。
DeepSeek-R1-Lite初体验
目前DeepSeek-R1-Lite
在DeepSeek官网上免费可用,每用户每天使用数量限制为50次。在这里不得不吐槽Kimi探索版,每人每天只能用5次,我做个测试还得分几天才能测试完。
DeepSeek官网:https://chat.deepseek.com/
另外需要指出的是,和o1
一样,DeepSeek-R1-Lite
也是个纯文本模型,目前不支持解析文件。
1. 几何推理
一个圆的半径为10,在其内部随机选择两点,计算这两点之间的平均距离。
先上结果。这道需要用到积分的题目结果完全正确。
附上DeepSeek-R1-Lite
长达61秒的思考过程。
2. 组合数学
一个班有12名男生和10名女生,要从中选出6人组成一个小组,要求至少有2名女生,问有多少种不同的选法?
19秒就得到了答案65769,完全正确。并且还附上了一个反向思考的验证过程,有点厉害。
3. 逻辑推理
观察以下数列,推断规律并预测下一个数字:2,6,15,31,56
这道题目,相邻数字的差值为递增的平方数4,9,16,25。所以下一个数字应该是56加36,92。回答正确。
4. 真假话推理
三个囚犯 A、B 和 C,分别戴着红帽或蓝帽(但无法看到自己的帽子)。守卫说:“至少有一个囚犯戴着红帽。” A 说:“我不知道我的帽子颜色。” B 说:“我也不知道。” C 说:“我知道了。” 问 C 的帽子是什么颜色?
总算有一道题难倒DeepSeek-R1-Lite
了,回答错误。这道题其实可以简单思考,只有A蓝B蓝的情况下,C才能根据“至少有一个红帽”来断定自己的帽子颜色。所以C应该是红色。
经过检查DeepSeek-R1-Lite
的思维链,我发现它把自己绕进去了,直到最后也没能绕出来,属于“过度思考”了。
作为对比,附上o1-preview
的答案。
结语
在测试过程中,我还遇到了中英文思考、输出混乱的问题。但综合来看,DeepSeek-R1-Lite
已经展现出了一个推理模型应有的推理能力,并且还是免费使用,值得尝试。
精选推荐
国内支付宝开通ChatGPT Plus和Claude Pro 2024最新教程! 『AI保姆级教程』无需手机号!三分钟注册ChatGPT账号!2024年最新教程! 『AI保姆级教程』手把手教你注册Claude账号!建议收藏!
都读到这里了,点个赞鼓励一下吧,小手一赞,年薪百万!😊👍👍👍。关注我,AI之路不迷路,原创技术文章第一时间推送🤖。