中文大模型「链式推理」基准测评榜单出炉!o1取得71.84分,推理等级7,其余32个大模型均未及格

文摘   科技   2024-10-31 17:33   浙江  

SuperCLUE-CoT是中文大模型链式推理能力测评基准旨在深入评估模型的思维链推理能力。该测评不仅关注模型的解题过程和最终答案,还重点考察其构建思维链和反思能力。测评内容涵盖了物理、化学、生物等科学领域的问题,以及编解码等挑战,全面检验模型在复杂推理任务中的表现。

本次我们测评了国内外33个代表性大模型的推理能力,以下为详细测评报告。

链式推理测评摘要


测评要点1:o1-preview 在推理能力上大幅领先

在本次测评中,o1-preview取得71.84分的优异成绩,推理等级定为7级, 断档领先于国内外所有大模型。在高难度的密码解码题和科学类的物理、化学、生物等任务中表现出色,展现了卓越的思维能力和推理质量。


测评要点2:国内大模型的推理能力尚处于发展初期
通过测评结果可以发现,GLM-4-Plus、yi-lightning、Qwen2.5-72B、Doubao-pro等国内头部大模型多数处于40-50分(推理等级4-5级),相较于o1-preview,chatgpt-4o-latest等海外模型的推理能力尚存在一定的差距。国内需进一步重视大模型推理能力的提升。

测评要点3:闭源模型在推理能力方面,普遍优于开源模型
对比国内外闭源模型和开源模型的推理分数,我们发现闭源大模型有非常显著的优势,开源大模型除Qwen2.5-72B、DeepSeek V2.5之外,均低于40分,绝大部分处于1-2级推理能力的水平。



# 榜单概览

榜单地址:www.superclueai.com

详情请查看下方#正文。

#SuperCLUE-CoT介绍

SuperCLUE-CoT是中文链式推理大模型综合性测评基准旨在深入评估模型的思维链推理能力。该测评不仅关注模型的解题过程和最终答案,还重点考察其构建思维链和反思能力。测评内容涵盖了物理、化学、生物等科学领域的问题,以及编解码等挑战,全面检验模型在复杂推理任务中的表现。
测评体系

测评方法
参考SuperCLUE细粒度评估方式,构建专用测评集,每个维度进行细粒度的评估并可以提供详细的反馈信息。

1)测评集构建

中文prompt构建流程:1.参考现有prompt--->2.中文prompt撰写--->3.测试--->4.修改并确定中文prompt;针对每一个维度构建专用的测评集。

2)评分方法

评估流程开始于模型与数据集的交互,模型需要基于提供的问题进行理解和回答。

评估标准涵盖了思维过程、解题过程、反思与调整等维度。

打分规则结合了自动化定量评分与专家复核,高效评分的同时,确保评估的科学性和公正性。

3)评分标准

SuperCLUE-CoT 根据模型在不同标准上的表现情况,超级模型打分,综合各个标准的得分得到平均分。

我们制定的综合评分标准满分为 40 分,其中大模型的思维链与反思和回答质量各占 20 分。思维链与反思的评分细分为思维过程 3 分、反思与调整 8 分、以及创新性与灵活性 9 分;回答质量的评分细分为解题过程 5 分和最终答案 15 分。

为了更好地评估大模型在链式推理方面的能力,我们制定了一个推理等级体系,该体系分为1到10级。具体分级标准为:10.00至19.99分为1级,20.00至29.99分为2级,依此类推,90.00至99.99分为9级,100分为10级。在此体系中,不考虑总分低于10分的模型。

测评示例

问题:


现在有一道推理题,如下所示:
tlxpcklhxyji -> brilliant gpt,秘钥是 SuperCLUE。
使用上面的例子来解码:dyiwgnlseyubi
请完成推理,需要同时包括两个部分的内容,即【思维过程和自我反思】和【解题过程和最终答案】。
【思维过程和自我反思】包括:
1. 使用思维链来思考,优化思考过程,进行任务分解;
2. 尝试不同策略(如有必要);
3. 识别错误,进行自我校验与改正,当确认无误后再提交作答(若有必要)。
【解题过程和最终答案】包括:解题的逻辑思路与详细过程还有最终得到的答案。
模型回答

超级模型(GPT-4o)裁判

对这个答案进行评估如下:

  1. 思维过程(3分)基于标准1的<思维过程>;模型回答展示了思维链和任务分解,清晰描述了从分析示例、确定加密算法、验证方法到解码密文的步骤。整体思路连贯且有条理;基于标准1的得分,3分。
    得分:3/3
  1. 反思与调整(8分):基于标准2的<反思与调整>;模型在回答中展示了对解码方法的验证,确认维吉尼亚密码的使用有效,并在计算过程中注意了模运算,表现出良好的自我校验意识,但未进行深入的多角度反思;基于标准2的得分,6分。

    得分:6/8
  1. 创新性与灵活性(9分):基于标准3的<创新性与灵活性>;虽然模型的解码过程有效,但创新性和灵活性稍显不足,未显示尝试替代性解法的探索性,导致该部分评分受限;基于标准3的得分,5分。

    得分:5/9
  1. 解题过程(5分)基于标准4的<解题过程>;模型解题过程详细,逻辑清晰,步骤完整,包括逐字母计算过程和解释,且符合题目要求;基于标准4的得分,5分。

    得分:5/5
  1. 最终答案(15分)基于标准5的<最终答案>;最终答案正确,格式符合要求;基于标准5的得分,15分。

    得分:15/15
    综合得分 = 3 + 6 + 5 + 5 + 15 = 34

    综合以上,AI助手的回答的综合得分为 34 分。(满分40分)

# 参评模型

为综合衡量当前国内外大模型在链式推理能力的发展水平,本次测评选取了13个海外模型和20个国内代表性模型。其中为进一步评估开源和闭源的不同进展,本次参评模型包括16个开源模型、17个闭源模型。

测评结果
总榜单

开源榜单

回答质量榜单

思维链与反思榜单

# 模型对比示例

#示例1
提示词Prompt:

模型回答比较(满分40分):

o1-preview-2024-09-12(得分:34):

GLM-4-Plus(得分:32分):

Qwen2.5-0.5b-instruct(得分:4分):

#示例2

提示词Prompt:

模型回答比较(满分40分):
Claude-3.5-Sonnet(1022)(得分:36分):

Qwen2.5-72b-instruct(得分:36分):

RWKV-6-World-7b(得分:4分):

#示例3

提示词Prompt:

模型回答比较(满分40分):
Gemini-1.5-Pro-002(得分:36分):

Doubao-pro-32k-240828(得分:34分):

phi-3-mini-4k(得分:23分):

#示例4

提示词Prompt:

模型回答比较(满分40分):
chatgpt-4o-latest(得分:34分):

yi-lightning(得分:36分):

mistral-7b(得分:4分):

人类一致性评估

为确保大模型自动化测评的科学性,我们对GPT-4o-0513在链式推理评价任务中的人类一致性进行了评估。

具体操作方法为:选取5个模型,每个模型一个人进行独立打分,分别针对回答质量(解题过程和答案),以及思维得分(思维过程、反思与调整、创新性与灵活性),然后分别求平均。我们计算每道题目人类评分与模型评分的差值,求和取平均后得到每道题的平均差距作为人类一致性评估的评估结果。

最终得到的回答质量一致性的平均结果如下:

平均结果为:2.53分

最终得到的思维得分一致性的平均结果如下:

平均结果为:6.31分

因为本次自动化评价有较高可靠性。

测评分析及结论

1.链式推理综合能力,o1-preview 保持领先。

由测评结果可知,o1-preview(71.84分)综合能力表现出色,领跑SuperCLUE-CoT基准。较chatgpt-4o-latest高13.97分,较国内最好模型GLM-4-Plus高21.65分。

2.国内大模型在回答质量上尚有一定提升空间。
通过测评数据可以发现,国内大模型GLM-4-Plus和yi-lightning的综合表现优异,在一众国内大模型中脱颖而出,有接近Claude-3.5-Sonnet(1022)的表现;阿里云系列大模型Qwen-max-0919和Qwen2.5-72b-instruct在思维链与反思方面任务中表现可圈可点,均获得了较高的分数。
可以看出国内大模型在思维链与反思方面有一定落地优势;但相较而言在回答质量方面,国内大模型的得分普遍较低,相较国外大模型o1-preview-2024-09-12和chatgpt-4o-latest等差距明显,还有一定提升空间。
3.国内大模型的思维链构建与自我反思能力有待加强
在本次深度测评中,国内的模型面对复杂且高难度的推理题目时,其解答过程目前尚停留于对思路的初步整理与表层呈现阶段,尚未充分展现出能够真正驾驭链式推理机制的实力——即那种能够一环接一环、逻辑缜密且连贯地展开推理分析,以形成完整、系统的解题路径的能力。
例如在解答密码类推理题的过程中,模型需要对任务进行深入的内在逻辑剖析,积极尝试并评估多种不同的解码策略,以确定其可行性和适用性。一旦选定了解码方法,模型还需在后续的推理步骤中进行严格的自我审视与验证,以确保所得结论的准确性。只有成功执行这三个紧密相连的环节,模型才能得出正确的答案。然而,从当前的观察来看,国内的大模型在构建思维链与展现自我反思能力方面,尚存在较大的提升空间与改进需求。

测评邀请

参与流程

1. 邮件申请

2. 意向沟通

3. 参测确认与协议流程

4. 提供测评API接口或大模型

5. 公开测评报告

# 邮件申请

邮件标题:链式推理测评申请,发送到contact@superclue.ai

请使用单位邮箱,邮件内容包括:单位信息、链式推理模型类型及简介、联系人和所属部门、联系方式

# 加入社群

# 联系我们

扩展阅读

[1] CLUE官网:www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站:www.superclueai.com

[3] Github地址:https://github.com/CLUEbenchmark

CLUE中文语言理解测评基准
精准量化AGI进展,定义人类迈向AGI的路线图
 最新文章