SuperCLUE-CoT是中文大模型链式推理能力测评基准,旨在深入评估模型的思维链推理能力。该测评不仅关注模型的解题过程和最终答案,还重点考察其构建思维链和反思能力。测评内容涵盖了物理、化学、生物等科学领域的问题,以及编解码等挑战,全面检验模型在复杂推理任务中的表现。
本次我们测评了国内外33个代表性大模型的推理能力,以下为详细测评报告。
链式推理测评摘要
在本次测评中,o1-preview取得71.84分的优异成绩,推理等级定为7级, 断档领先于国内外所有大模型。在高难度的密码解码题和科学类的物理、化学、生物等任务中表现出色,展现了卓越的思维能力和推理质量。
# 榜单概览
榜单地址:www.superclueai.com
#SuperCLUE-CoT介绍
1)测评集构建
2)评分方法
评估流程开始于模型与数据集的交互,模型需要基于提供的问题进行理解和回答。
评估标准涵盖了思维过程、解题过程、反思与调整等维度。
打分规则结合了自动化定量评分与专家复核,高效评分的同时,确保评估的科学性和公正性。
3)评分标准
SuperCLUE-CoT 根据模型在不同标准上的表现情况,超级模型打分,综合各个标准的得分得到平均分。
为了更好地评估大模型在链式推理方面的能力,我们制定了一个推理等级体系,该体系分为1到10级。具体分级标准为:10.00至19.99分为1级,20.00至29.99分为2级,依此类推,90.00至99.99分为9级,100分为10级。在此体系中,不考虑总分低于10分的模型。
问题:
对这个答案进行评估如下:
思维过程(3分):基于标准1的<思维过程>;模型回答展示了思维链和任务分解,清晰描述了从分析示例、确定加密算法、验证方法到解码密文的步骤。整体思路连贯且有条理;基于标准1的得分,3分。
反思与调整(8分):基于标准2的<反思与调整>;模型在回答中展示了对解码方法的验证,确认维吉尼亚密码的使用有效,并在计算过程中注意了模运算,表现出良好的自我校验意识,但未进行深入的多角度反思;基于标准2的得分,6分。
创新性与灵活性(9分):基于标准3的<创新性与灵活性>;虽然模型的解码过程有效,但创新性和灵活性稍显不足,未显示尝试替代性解法的探索性,导致该部分评分受限;基于标准3的得分,5分。
解题过程(5分):基于标准4的<解题过程>;模型解题过程详细,逻辑清晰,步骤完整,包括逐字母计算过程和解释,且符合题目要求;基于标准4的得分,5分。
最终答案(15分):基于标准5的<最终答案>;最终答案正确,格式符合要求;基于标准5的得分,15分。
综合以上,AI助手的回答的综合得分为 34 分。(满分40分)
# 参评模型
为综合衡量当前国内外大模型在链式推理能力的发展水平,本次测评选取了13个海外模型和20个国内代表性模型。其中为进一步评估开源和闭源的不同进展,本次参评模型包括16个开源模型、17个闭源模型。
开源榜单
# 模型对比示例
模型回答比较(满分40分):
Qwen2.5-0.5b-instruct(得分:4分):
提示词Prompt:
Qwen2.5-72b-instruct(得分:36分):
RWKV-6-World-7b(得分:4分):
提示词Prompt:
Doubao-pro-32k-240828(得分:34分):
phi-3-mini-4k(得分:23分):
提示词Prompt:
yi-lightning(得分:36分):
为确保大模型自动化测评的科学性,我们对GPT-4o-0513在链式推理评价任务中的人类一致性进行了评估。
具体操作方法为:选取5个模型,每个模型一个人进行独立打分,分别针对回答质量(解题过程和答案),以及思维得分(思维过程、反思与调整、创新性与灵活性),然后分别求平均。我们计算每道题目人类评分与模型评分的差值,求和取平均后得到每道题的平均差距作为人类一致性评估的评估结果。
最终得到的回答质量一致性的平均结果如下:
平均结果为:2.53分
最终得到的思维得分一致性的平均结果如下:
平均结果为:6.31分
因为本次自动化评价有较高可靠性。
# 测评分析及结论
由测评结果可知,o1-preview(71.84分)综合能力表现出色,领跑SuperCLUE-CoT基准。较chatgpt-4o-latest高13.97分,较国内最好模型GLM-4-Plus高21.65分。
# 测评邀请
参与流程
1. 邮件申请
2. 意向沟通
3. 参测确认与协议流程
4. 提供测评API接口或大模型
5. 公开测评报告
# 邮件申请
邮件标题:链式推理测评申请,发送到contact@superclue.ai
请使用单位邮箱,邮件内容包括:单位信息、链式推理模型类型及简介、联系人和所属部门、联系方式
# 联系我们
扩展阅读
[1] CLUE官网:www.CLUEBenchmarks.com
[2] SuperCLUE排行榜网站:www.superclueai.com
[3] Github地址:https://github.com/CLUEbenchmark