让DeepSeek最新推理模型R1-lite做一道数学题，结果走进死胡同了！

科技 2024-11-20 22:33 上海

今天，DeepSeek 全新研发的推理模型 DeepSeek-R1-Lite 预览版正式上线，而且声称“在美国数学竞赛（AMC）中难度等级最高的 AIME 以及全球顶级编程竞赛（codeforces）等权威评测中，均取得了卓越的成绩，大幅超越了 GPT-40等知名模型。”，我就迫不及待亲自测试一把，看看真实效果如何。

先测一把之前发表在nature杂志上论文Testing AI on language comprehension tasks reveals insensitivity to underlying meaning的四个基本的文字题：

结果DeepSeek-R1-Lite表现不错，都通过了。

下面就让它做一个数学题，出的是英文题，前面加上“翻译成中文”那就用中文答题，用英文答题思路也一样，都得到错误的结果（正确结果为809，由o1算出）。逻辑思路很清晰，速度也很快，大家可以自己试（https://chat.deepseek.com/）。

最后让它做一个其实更容易的题目，只是计算上复杂一些，有两个未知数，需要求方程，结果悲剧出现了：算错了，就不停地重复计算，有视频为证。先看一下分析和计算的过程，感觉一步一步分析还挺正确的，那从什么地方开始错的？各位看官来帮它找一下问题：

然后就一直重复计算.......

我让OpenAI o1-mini做一把，结果很顺利，well done

GTP-4o做不出来，Claude 3.5做出来了，结果多了10分钟（居然算出s=3，t-60），Gemini 1.5多了4分钟（完全靠试，过程很乱）。

真有意思？这是大模型的幻觉吗？

软件工程3.0时代

由于大模型（LLM）正在改变着千行百业，软件工程（SE）更是首当其冲，迎来软件工程3.0新时代：模型驱动研发、模型驱动运维。本公众号将致力于研究SE3.0时代的软件研发新范式、理论与方法，介绍SE3.0时代的工具与实践。

最新文章

敏捷教练会悲伤吗？Agile Alliance已并入PMI

展望2025年智能软件工程

共促软件行业智能化转型，智能化软件开发产业图谱编制正式启动

2024年，大模型驱动的智能软件研发有哪些进展？

汽车将进化成为智能时代的空间机器人

大模型时代的软件工程教育，路在何方？

OpenAI 将一场发布会改为12天直播：Day 1发布了两大产品chatGPT pro和o1正式版

想了解智能化软件工程现状？快来参与 2024 年度调研吧！

做正确之事：软件研发的成功之道

2024 年 12 个最佳UI自动化测试工具推荐

大模型下半场：如何开发出杀手级的工具或应用？

从自动化软件测试到自主测试，还差几步？

错了，打开“深度思考”，的确做对了

让DeepSeek最新推理模型R1-lite做一道数学题，结果走进死胡同了！

重磅消息：Grok-3终结了黎曼猜想？而却因此被迫暂停训练

Tong test：AGI测试评级的标准与平台

“软件质量报道” 下决心迎接 “软件工程3.0时代”

大模型时代的软件研发：正确的打开方式

十大生成式 AI 趋势和20家有前途的初创公司

谷歌DORA：2024年加速DevOps状态报告

AiDD峰会的“AI+测试”议题全面亮相

神了：Claude 3.5能像人一样使用计算机，而且在编程、软件研发上进步显著

邀您共赴年末盛会｜QECon北京站议题出炉

深度剖析：字节跳动大模型训练被实习生“投毒”事件

当AI接连不断赢得诺贝尔奖：是人类的终点还是新的起点？

从木匠到AI教父：Geoffrey Hinton的传奇之路

历史性里程碑：诺贝尔物理学奖首次授予AI学者

两张架构图，让你感受一下大模型的惊艳

最新！明天上交所全网测试

A股沸腾，系统被买崩了？压力测试没做好？

Sam Altman昨天发文：AI 奇点近在咫尺，我们将进入“智能时代”

QECon主旨演讲之一：代码大模型改进的双引擎:数据增强和知识增强

强化学习中的自博弈（Self-play）会开启大模型的“后训练”时代？

chatGPT o1 preview用一个小时干完了博士一年写的代码

软件工程3.0的解释

OpenAI o1 新模型在解决博士级别的科学问题上超越人类

AI 大模型：软件研发的革新力量与未来展望

面向开发人员的 12款强大的 AI 工具（下）

面向开发人员的 12个款强大的 AI 工具（上）

再次扬帆起航：启动2024年「软件研发应用大模型」的调查

推荐一款强大的开源编程助手Cursor

AiDD2024 「AI+研发数字峰会」北京站圆满收官！

由一份财报解读，给您参加AiDD峰会的四大理由

AI代替了我的右手，而且我再也回不去了！

AI+人访谈录：半路入行找到“人生坐标”

刚刚，与GPT-4o相媲美的开源大模型Llama 3.1发布了！

万字长文技术分析：CrowdStrike导致大规模系统崩溃事件

测试三大难题之一 “测试有效性” 的应对策略

软银孙正义：10年内，超级智能ASI水平将是人类的10000倍

测试三大难题之一 “测试充分性” 的应对策略

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉