让DeepSeek最新推理模型R1-lite做一道数学题,结果走进死胡同了!

科技   2024-11-20 22:33   上海  
今天,DeepSeek 全新研发的推理模型 DeepSeek-R1-Lite 预览版正式上线,而且声称“在美国数学竞赛(AMC)中难度等级最高的 AIME 以及全球顶级编程竞赛(codeforces)等权威评测中,均取得了卓越的成绩,大幅超越了 GPT-40等知名模型。”,我就迫不及待亲自测试一把,看看真实效果如何。

先测一把之前发表在nature杂志上论文Testing AI on language comprehension tasks reveals insensitivity to underlying meaning的四个基本的文字题:

结果DeepSeek-R1-Lite表现不错,都通过了。

下面就让它做一个数学题,出的是英文题,前面加上“翻译成中文”那就用中文答题,用英文答题思路也一样,都得到错误的结果(正确结果为809,由o1算出)。逻辑思路很清晰,速度也很快,大家可以自己试(https://chat.deepseek.com/)。

最后让它做一个其实更容易的题目,只是计算上复杂一些有两个未知数,需要求方程,结果悲剧出现了:算错了,就不停地重复计算,有视频为证。先看一下分析和计算的过程,感觉一步一步分析还挺正确的,那从什么地方开始错的?各位看官来帮它找一下问题:

然后就一直重复计算.......

我让OpenAI o1-mini做一把,结果很顺利,well done

GTP-4o做不出来,Claude 3.5做出来了,结果多了10分钟(居然算出s=3,t-60),Gemini 1.5多了4分钟(完全靠试,过程很乱)。

真有意思?这是大模型的幻觉吗?


软件工程3.0时代
由于大模型(LLM)正在改变着千行百业,软件工程(SE)更是首当其冲,迎来软件工程3.0新时代:模型驱动研发、模型驱动运维。本公众号将致力于研究SE3.0时代的软件研发新范式、理论与方法,介绍SE3.0时代的工具与实践。
 最新文章