DeepSeek「推理模型」中文基准评测出炉!小学奥数紧随o1,链式推理进步空间大

文摘   科技   2024-11-22 12:18   浙江  

本测评结果仅用于学术研究。

11月20日DeepSeek正式上线全新研发的推理模型 DeepSeek-R1-Lite 预览版。

据官方介绍,DeepSeek R1 系列模型使用强化学习训练,推理过程包含大量反思和验证,思维链长度可达数万字。该系列模型在数学、代码以及各种复杂逻辑推理任务上,取得了媲美 o1-preview 的推理效果,并为用户展现了 o1 没有公开的完整思考过程。

针对公众关注的DeepSeek-R1-Lite预览版,在中文场景下的推理和数学的性能问题,专业第三方测评机构SuperCLUEDeepSeek-R1-Lite预览版进行了深入评估。
测评环境

参考标准:SuperCLUE-CoT中文链式推理测评基准SuperCLUE-Math6o奥林匹克数学竞赛测评基准

评测模型DeepSeek-R1-Lite 预览版(网页)


测集:

1. SuperCLUE-CoT中文大模型链式推理评测集。不仅关注模型的解题过程和最终答案,还重点考察其构建思维链和反思能力。内容涵盖了物理、化学、生物等科学领域的问题以及编解码等挑战性问题。 
2.SuperCLUE-Math6o奥林匹克数学竞赛(小学)评测集。覆盖小学奥数中常见7类问题:应用题、行程、数论、几何、计数、计算及奥数杂题。


测评方法针对每一道推理题目,我们提供人工校验和核对后的参考答案和推理过程;然后根据设定的评估流程、评价标准和打分规则(1-5分),裁判模型对候选模型的答案进行评估。链式推理设定的评价标准包括:思维过程、解题过程、最终答案等。小学奥数设定的评价标准包括:结果正确性、逻辑清晰度、表达清晰度等。



先说结论
结论1:与 o1-preview 相比,Deepseek R1-Lite-Preview 在两大推理任务中的平均差距约为 20 个点。
结论2: 相比上一代版本 Deepseek V2.5,Deepseek R1-Lite-Preview在两大推理任务中平均提升了16个点。
结论3:与国内其他中文大模型相比,Deepseek R1-Lite-Preview当前在两大推理任务中处于国内最好水平。
注:这两大推理任务,分别是小学奥数(math6o)的总分,以及链式推理(CoT)的关键成绩,即回答质量。
测评结果
对比分析

小学奥数示

示例1:应用题

一个水池,有三个进水口和两个出水口,如果打开1个进水口和2个出水口,注满水池需要25分钟;如果打开2个进水口和2个出水口,注满水池需要10分钟。问:此时同时打开3个进水口和一个出水口,那么注满整个水池需要多少时间?

DeepSeek-R1-Lite-Preview回答:4.45分(满分5分)


链式推理示例
示例2:解码题

现在有一道推理题,如下所示:

gvnkovh zmw hgzgfvh wvxzb -> Temples and statues decay,                        

使用上面的例子来解码:

yllph klhhvhh zm vhhvmxv lu rnnligzorgb

DeepSeek-R1-Lite-Preview回答:33分(满分40)

# 加入社群
更多详细DeepSeek-R1-Lite-Preview最新大模型测评详情,可加入SuperCLUE-Claude交流群。

# 联系我们


链式推理测评申请方式:

请使用单位邮箱,将测评研究目的、计划,研究机构、申请者介绍和联系方式(手机或微信),发送到邮箱。

邮箱: contact@superclue.ai,标题是:SuperCLUE链式推理测评申请

小学奥数测评申请方式:

请使用单位邮箱,将测评研究目的、计划,研究机构、申请者介绍和联系方式(手机或微信),发送到邮箱。

邮箱: contact@superclue.ai,标题是:SuperCLUE小学奥数测评申请

扩展阅读

[1] CLUE官网:www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站:www.superclueai.com

[3] Github地址:https://github.com/CLUEbenchmark/SuperCLUE


   点击阅读原文,查看SuperCLUE排行榜

CLUE中文语言理解测评基准
精准量化AGI进展,定义人类迈向AGI的路线图
 最新文章