中文大模型「链式推理」基准测评方案发布，引入思维链和反思能力考察

文摘科技 2024-10-14 16:01 浙江

随着人工智能技术的迅速发展，大语言模型在推理任务中的表现成为研究重点。以 OpenAI 为例，其秋季发布的 o1-preview 大模型在竞赛级数学、代码和博士级科学问题中表现出色，展示了新一代模型的强大潜力。

为更精确评估大模型的推理能力，我们基于中文基准测评经验，推出了链式推理测评 SuperCLUE-Reasoning。该基准评估中文大模型在推理任务中的能力，特别关注思维链和自我反思能力，全面衡量模型的自我纠正和完善能力。这一框架旨在为未来模型研发提供参考，确保其在复杂任务中具备更高的可靠性和灵活性。

排行榜地址：www.SuperCLUEai.com

#SuperCLUE-Reasoning 链式推理

#测评流程

#「链式推理」展现效果图

1. 特点

（1）考察模型思维链与自我反思能力

该评测方案引入了对模型思维链和自我反思能力的考察，重点在于评估模型在推理过程中发现并纠正自身错误的能力。这种设计不仅能反映模型在复杂任务中的自我完善机制，还能增强其自主学习能力和可靠性。

（2）结合客观与主观评估

评分标准既评估最终答案的准确性，也考量模型推理过程中的逻辑清晰度、策略运用与错误识别。这种方法确保全面反映模型的推理能力，同时鼓励多样化的推理方式，以推动模型在推理过程中的优化和反思。

2. 测评任务

为了更有效地评估大模型在推理任务中的表现，我们设计各类不同类型的复杂推理任务，随后开展了测评。

提示词结构：问题 +【解题要求】

【解题要求】，完整内容如下：请完成推理，需要同时包括两个部分的内容，即【思维过程和自我反思】和【解题过程和最终答案】。

【思维过程和自我反思】包括：

1.使用思维链来思考，优化思考过程，进行任务分解；

2.尝试不同策略（如有必要）；

3.识别错误，进行自我校验与改正，当确认无误后再提交作答（若有必要）。

【解题过程和最终答案】包括：解题的逻辑思路与详细过程还有最终得到的答案。

注：解题要求的具体内容，以正式发布的测评报告为准。

2.1 推理示例 1（维吉尼亚密码）

现在有一道推理题，如下所示：

lxpcklhxyji -> brilliant gpt，秘钥是 SuperCLUE。

使用上面的例子来解码：

dyiwgnlseyubi

2.2 推理示例 2（三密码）

现在有一道推理题，如下所示：

aaafywwylpgdbfjpfeeacbipaaanrd wactbtwtqiaemklrbpmblsaadefjtlbbegec -> artificial intelligence

使用上面的例子来解码：yqortyimzgbfqxmgaafiutqzmaa zbzhafaaapxqsrhijwmeivdpagm nxjowpnnqoaniaedcbzrp

2.3 推理示例 3（简谐运动）

现在有一道推理题，如下所示：

质量为 m 的一系列小物块用倔强系数为 k 的小弹簧等间隔（间隔为d）地连接成一排。当左端物块做角频率为 ω 的左右简谐振动时，此振动将从左至右逐渐传播，使各物块相继做同频率、同振幅的振动，求传播速度。

2.4 推理示例 4（波的干涉）

现在有一道推理题，如下所示：

相距 l=100m 的两个波源沿着它的连线方向，向两边发出平面简谐波，两波深频率同为 f = 50Hz，振幅同为 A = 0.1m，波长同为 2m，振动相位相反。求两波源之间发生干涉、相长和相消的各点的位置，以及两波源外侧各点的振幅。

3.评分标准和评估示例

评分标准

针对各个大模型在测评任务上的回答质量评估，我们采用了三个统一的评估标准进行评估。这些标准在评估中被赋予不同的权重，以全面反映大模型在推理任务上的表现。

我们制定的综合评分标准满分为20分，其中大模型的思维过程和回答质量各占10分。回答质量的评分细分为解题过程5分和最终答案5分。

注：具体的评估标准及权重以正式发布的测评报告为准。

评估案例对比

案例1：维吉尼亚密码

问题：现在有一道推理题，如下所示：

tlxpcklhxyji -> brilliant gpt，秘钥是 SuperCLUE。

使用上面的例子来解码：dyiwgnlseyubi

请完成推理，需要同时包括两个部分的内容，即【思维过程和自我反思】和【解题过程和最终答案】。

【思维过程和自我反思】包括：

1. 使用思维链来思考，优化思考过程，进行任务分解；

2. 尝试不同策略（如有必要）；

3. 识别错误，进行自我校验与改正，当确认无误后再提交作答（若有必要）。

【解题过程和最终答案】包括：解题的逻辑思路与详细过程还有最终得到的答案。

模型（国际大模型 1）回答：

超级模型评分（对于国际大模型 1）：

对这个答案进行评估如下：

AI助手对问题的整体理解和推导方法是正确的，确认了使用维吉尼亚密码并成功解码了新的加密文本。但它解答过程较为冗长，特别是在多个环节重复详细的步骤描述，可以略微简化以提高可读性。

思维过程（10分）：AI助手的解题方法是正确的，包括对维吉尼亚密码的验证和解码过程，能够准确解码新密文。再加上其尝试了不同策略并进行自我校验，最终得出正确答案，因此得分10分。

得分：10/10

解题过程（5分）：AI助手解题过程清晰严谨，逻辑连贯，步骤详细且无误。尽管可以简化以提高可读性，但从解题过程的完整性与准确性出发，得分为4.5分。

得分：4.5/5

最终答案（5分）：AI助手最终答案正确无误，且与解题思路一致。因此，得分为5分。

得分：5/5

综合得分 = 10 + 4.5 + 5 = 19.5

综合以上，AI助手的回答的综合得分为 19.5 分。

模型（国产大模型 1）回答：

超级模型评分（对于国产大模型 1）：

对这个答案进行评估如下：

AI助手提供了详细的编码过程和规律，清楚地描述了推理思路，但错误的最终解码方案——它得出了错误的替换方式导致错误的答案，没有形成维吉尼亚替换。

思维过程（10分）：AI助手对问题进行了详细的分析并提出了一种可能的解码规则，虽然有努力推理的迹象，但提出的解码方式是错误的。依据标准1b，得分：6分。

得分：6/10

解题过程（5分）：解题过程的逻辑较为严密，但解密步骤及方案未能形成正确的解题过程。得分：2.5分。

得分：2.5/5

最终答案（5分）：最终答案错误。得分：0分。

得分：0/5

综合得分 = 6 + 2 + 0 = 8.5

综合以上，AI助手的回答的综合得分为 8.5 分。

案例2：三密码

问题：现在有一道推理题，如下所示：

aaafywwylpgdbfjpfeeacbipaaanrd wactbtwtqiaemklrbpmblsaadefjtlbbegec -> artificial intelligence

使用上面的例子来解码：yqortyimzgbfqxmgaafiutqzmaa zbzhafaaapxqsrhijwmeivdpagm nxjowpnnqoaniaedcbzrp

请完成推理，需要同时包括两个部分的内容，即【思维过程和自我反思】和【解题过程和最终答案】。

【思维过程和自我反思】包括：

1. 使用思维链来思考，优化思考过程，进行任务分解；

2. 尝试不同策略（如有必要）；

3. 识别错误，进行自我校验与改正，当确认无误后再提交作答（若有必要）。

【解题过程和最终答案】包括：解题的逻辑思路与详细过程还有最终得到的答案。

模型（国际大模型 2）回答：

超级模型评分（对于国际大模型 2）：

对这个答案进行评估如下：

AI助手在回答中分析并解释了解码和编码过程，但过程推导有明显缺陷，比如没有对新密文作全面的验证。模型对于重复与打乱顺序的假设没有很好地应证，而且似乎误解了示例中的验证方式。另外，它没有提供新字符串解码过程中可能出现的错误识别和自我校正过程。

思维过程（10分）：AI助手分析了示例编码，推测了密码的可能原理，但其最终推导过程存在不足，未能验证其推测的正确性。缺乏对错误的进一步检查与修正，因此得分较低。基于标准1的得分：6分。

得分：6/10

解题过程（5分）：尽管AI助手进行了详细推理和步骤描述，但其过程的逻辑和假设存在不准确之处。解题步骤完整但明显冗长且不全正确，因此得分较低。基于标准2的得分：2分。

得分：2/5

最终答案（5分）：AI助手未能正确解码新的密文，存在直接错误。基于最终答案的打分：0分。

得分：0/5

综合得分 = 6 + 2 + 0 = 8

综合以上，AI助手的回答的综合得分为 8 分。

模型（国产大模型 2）回答：

超级模型评分（对于国产大模型 2）：

对这个答案进行评估如下：

AI助手回答混合了两个部分的思维过程，主要盲目猜测替换规则以及频率统计未得正解。具体解题逻辑指导缺乏有效的字母映射和解码确认。AI助手提供了解析步骤，但是在详细的转换和跨字符求和平均值时出现了误差。

思维过程（10分）：模型尝试了多种思维路径，涉及字符分析和映射法，但未能清晰界定密钥影响，最终方法未能合理解码。基于标准1的得分：6分。

得分：6/10

解题过程（5分）：逻辑不够紧密，缺乏有力说明，字符映射结果不完整且不合理。解题步骤未严格遵循推理过程。基于标准2的得分：2.5分。

得分：2.5/5

最终答案（5分）：最终答案与给定的解码结果明显不符，明显错误。基于标准3的得分：0分。

得分：0/5

综合得分 = 6 + 2.5 + 0 = 8.5

综合以上，AI助手的回答的综合得分为 8.5 分。

测评集构建

推理任务中文题库构建流程：

1. 参考国内外现有的推理题库的标准

2. 中文推理题撰写

3. 小批量测试

4. 修改并确定推理中文任务体系，参考国内外的标准，构建专用的测评集。

评分方法

评估流程：1.获得问题、模型答案和参考答案-->2.依据评估标准-->3.使用评分规则-->4.进行打分

结合超级模型，在定义的指标体系里明确每一个评估标准。结合评估流程、评估标准、评分规则，将文本输入、文件送入超级模型进行评估，并获得评估结果。

# 测评邀请

时间规划

1.报名时间开始：10月14日

2.参测评模型确认：10月21日

3.测评结果发布：10月28-31日之间

测评流程

1.邮件申请

2.意向沟通

3.参测确认与协议流程

4.提供测评API接口或大模型

5.获得测评报告

# 申请评测地址

邮件标题：SuperCLUE-Reasoning高阶推理测评申请，发送到contact@superclue.ai

请使用单位邮箱，邮件内容包括：单位信息、代码助手简介、联系人和所属部门、联系方式

http://mp.weixin.qq.com/s?__biz=MzA5NzAxNTA0MQ==&mid=2247545652&idx=1&sn=b342c7df687448a4086758dd2df1b78b

CLUE中文语言理解测评基准

精准量化AGI进展，定义人类迈向AGI的路线图

最新文章

中文大模型基准测评2024年10月报告

「小学奥数」基准榜单公布！7大任务，o1得73.50分，其余30个模型未及格

ChatGPT 「AI搜索」体验与对比

中文大模型「链式推理」基准测评榜单出炉！o1取得71.84分，推理等级7，其余32个大模型均未及格

升级版Claude 3.5 Sonnet中文基准测评出炉！代码能力超GPT-4o，高阶推理不及o1

文生图大模型中文基准测评9月榜单公布，6大维度34大任务14大模型，国内大模型在文字创作能力上表现惊艳

「AI搜索」基准测评方案发布

文生视频大模型「新版」测评基准（方案）发布

中文大模型「链式推理」基准测评方案发布，引入思维链和反思能力考察

中文多模态大模型基准10月榜单发布！Top3国产大模型表现亮眼，8大维度30大任务17大模型

奥林匹克数学竞赛-Math6o基准测评方案发布

新增Function calling测评！SuperCLUE基准10月报告将于10月28日发布

实时语音交互中文基准首期测评出炉，4大维度15项能力7款应用，GPT-4o高级语音领跑，国内产品延时、打断和场景应用表现出色

中文原生代码助手基准测评出炉，Cursor取得89分领跑全球，国内2款代码助手得分超80

OpenAI o1中文高阶推理基准测评结果出炉！总分85.27，推理能力大幅领先

长长长文本大模型中文基准测评结果出炉！得分均未超过70分

中文大模型基准测评2024年8月报告

汽车智能座舱大模型榜单8月首发，引入function-call，国内大模型表现优异

SuperCLUE-o: 中文原生多模态实时交互测评基准

新增高阶推理！SuperCLUE基准8月报告将于8月27日发布

中文多模态大模型基准8月榜单发布！8大维度30个测评任务，3个模型超过70分

文生视频大模型测评结果8月首发！AIGV-t2v基准新增4大模型

GPT-4o mini中文基准评测出炉！超越GPT-4，领先GPT-3.5 Turbo 20分

Llama 3.1 405B 中文基准评测出炉！推理总分80.44，略超GPT-4 Turbo，不敌GPT-4o

中文大模型基准测评2024上半年报告

AIGVBench文生视频测评首期结果公布，1000个AI视频对比，最高72.9分，Luma仅第3

易车大模型上榜SuperCLUE-Auto汽车测评榜单，并刷新国内最好成绩

AIGVBench：AI视频生成领域的引领性专业测评基准

「代码助手测评」启动，SC-Coder测评方案公布

文生图大模型基准测评首期榜单公布，DALL-E 3取得最高76.94分

首个中文大模型匿名竞技场「琅琊榜」榜单发布！ 12000次投票，近20个领先模型，最高1173分

新增Hard模式！SuperCLUE通用基准6月发布时间、测评升级

SuperCLUE-Long：中文原生长文本测评基准

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉