DeepSeek「推理模型」中文基准评测出炉！小学奥数紧随o1，链式推理进步空间大

文摘科技 2024-11-22 12:18 浙江

本测评结果仅用于学术研究。

11月20日，DeepSeek正式上线全新研发的推理模型 DeepSeek-R1-Lite 预览版。

据官方介绍，DeepSeek R1 系列模型使用强化学习训练，推理过程包含大量反思和验证，思维链长度可达数万字。该系列模型在数学、代码以及各种复杂逻辑推理任务上，取得了媲美 o1-preview 的推理效果，并为用户展现了 o1 没有公开的完整思考过程。

针对公众关注的DeepSeek-R1-Lite预览版，在中文场景下的推理和数学的性能问题，专业第三方测评机构SuperCLUE对DeepSeek-R1-Lite预览版进行了深入评估。

测评环境

参考标准：SuperCLUE-CoT中文链式推理测评基准、SuperCLUE-Math6o奥林匹克数学竞赛测评基准。

评测模型：DeepSeek-R1-Lite 预览版（网页）

评测集：

1. SuperCLUE-CoT中文大模型链式推理评测集。不仅关注模型的解题过程和最终答案，还重点考察其构建思维链和反思能力。内容涵盖了物理、化学、生物等科学领域的问题以及编解码等挑战性问题。

2.SuperCLUE-Math6o奥林匹克数学竞赛（小学）评测集。覆盖小学奥数中常见7类问题：应用题、行程、数论、几何、计数、计算及奥数杂题。

测评方法：针对每一道推理题目，我们提供人工校验和核对后的参考答案和推理过程；然后根据设定的评估流程、评价标准和打分规则（1-5分），裁判模型对候选模型的答案进行评估。链式推理设定的评价标准包括：思维过程、解题过程、最终答案等。小学奥数设定的评价标准包括：结果正确性、逻辑清晰度、表达清晰度等。

先说结论

结论1：与 o1-preview 相比，Deepseek R1-Lite-Preview 在两大推理任务中的平均差距约为 20 个点。

结论2： 相比上一代版本 Deepseek V2.5，Deepseek R1-Lite-Preview在两大推理任务中平均提升了16个点。

结论3：与国内其他中文大模型相比，Deepseek R1-Lite-Preview当前在两大推理任务中处于国内最好水平。

注：这两大推理任务，分别是小学奥数（math6o）的总分，以及链式推理（CoT）的关键成绩，即回答质量。

测评结果

对比分析

小学奥数示例

示例1：应用题

问

一个水池，有三个进水口和两个出水口，如果打开1个进水口和2个出水口，注满水池需要25分钟；如果打开2个进水口和2个出水口，注满水池需要10分钟。问：此时同时打开3个进水口和一个出水口，那么注满整个水池需要多少时间？

DeepSeek-R1-Lite-Preview回答：4.45分（满分5分）

链式推理示例

示例2：解码题

问

现在有一道推理题，如下所示：

gvnkovh zmw hgzgfvh wvxzb -> Temples and statues decay，

使用上面的例子来解码：

yllph klhhvhh zm vhhvmxv lu rnnligzorgb

DeepSeek-R1-Lite-Preview回答：33分（满分40）

# 加入社群

更多详细DeepSeek-R1-Lite-Preview最新大模型测评详情，可加入SuperCLUE-Claude交流群。

# 联系我们

链式推理测评申请方式：

请使用单位邮箱，将测评研究目的、计划，研究机构、申请者介绍和联系方式（手机或微信），发送到邮箱。

邮箱: contact@superclue.ai，标题是：SuperCLUE链式推理测评申请

小学奥数测评申请方式：

请使用单位邮箱，将测评研究目的、计划，研究机构、申请者介绍和联系方式（手机或微信），发送到邮箱。

邮箱: contact@superclue.ai，标题是：SuperCLUE小学奥数测评申请

扩展阅读

[1] CLUE官网：www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站：www.superclueai.com

[3] Github地址：https://github.com/CLUEbenchmark/SuperCLUE

点击阅读原文，查看SuperCLUE排行榜

http://mp.weixin.qq.com/s?__biz=MzA5NzAxNTA0MQ==&mid=2247557950&idx=1&sn=e9c0035f2e63915e7980b98e09e74f8f

CLUE中文语言理解测评基准

精准量化AGI进展，定义人类迈向AGI的路线图

TeleAI星辰大模型中文基准测评出炉，TeleChat2位列第一梯队，工具使用能力突出!

语音合成大模型测评基准（方案）发布

国内开源模型领先国外，接近全球一线闭源模型水平 | SuperCLUE

o1等国外头部大模型，在高难度任务上具备较大领先性 | SuperCLUE

中文大模型基准测评2024年10月报告

「小学奥数」基准榜单公布！7大任务，o1得73.50分，其余30个模型未及格

ChatGPT 「AI搜索」体验与对比

中文大模型「链式推理」基准测评榜单出炉！o1取得71.84分，推理等级7，其余32个大模型均未及格

升级版Claude 3.5 Sonnet中文基准测评出炉！代码能力超GPT-4o，高阶推理不及o1

文生图大模型中文基准测评9月榜单公布，6大维度34大任务14大模型，国内大模型在文字创作能力上表现惊艳

「AI搜索」基准测评方案发布

文生视频大模型「新版」测评基准（方案）发布

中文大模型「链式推理」基准测评方案发布，引入思维链和反思能力考察

中文多模态大模型基准10月榜单发布！Top3国产大模型表现亮眼，8大维度30大任务17大模型

奥林匹克数学竞赛-Math6o基准测评方案发布

新增Function calling测评！SuperCLUE基准10月报告将于10月28日发布

实时语音交互中文基准首期测评出炉，4大维度15项能力7款应用，GPT-4o高级语音领跑，国内产品延时、打断和场景应用表现出色

中文原生代码助手基准测评出炉，Cursor取得89分领跑全球，国内2款代码助手得分超80

OpenAI o1中文高阶推理基准测评结果出炉！总分85.27，推理能力大幅领先

长长长文本大模型中文基准测评结果出炉！得分均未超过70分

中文大模型基准测评2024年8月报告

汽车智能座舱大模型榜单8月首发，引入function-call，国内大模型表现优异

SuperCLUE-o: 中文原生多模态实时交互测评基准

新增高阶推理！SuperCLUE基准8月报告将于8月27日发布

中文多模态大模型基准8月榜单发布！8大维度30个测评任务，3个模型超过70分

文生视频大模型测评结果8月首发！AIGV-t2v基准新增4大模型

GPT-4o mini中文基准评测出炉！超越GPT-4，领先GPT-3.5 Turbo 20分

Llama 3.1 405B 中文基准评测出炉！推理总分80.44，略超GPT-4 Turbo，不敌GPT-4o

中文大模型基准测评2024上半年报告

AIGVBench文生视频测评首期结果公布，1000个AI视频对比，最高72.9分，Luma仅第3

易车大模型上榜SuperCLUE-Auto汽车测评榜单，并刷新国内最好成绩

AIGVBench：AI视频生成领域的引领性专业测评基准

「代码助手测评」启动，SC-Coder测评方案公布

文生图大模型基准测评首期榜单公布，DALL-E 3取得最高76.94分

首个中文大模型匿名竞技场「琅琊榜」榜单发布！ 12000次投票，近20个领先模型，最高1173分

新增Hard模式！SuperCLUE通用基准6月发布时间、测评升级

SuperCLUE-Long：中文原生长文本测评基准

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉