新增Hard模式!SuperCLUE通用基准6月发布时间、测评升级

文摘   2024-06-04 12:04   浙江  


SuperCLUE-6月

通知

各位好:

为全面评估截至2024年6月的中文大模型的综合性能和发展进程,SuperCLUE团队计划将于2024年6月27日发布中文大模型通用基准测评榜单及相应的6月评估报告。本次测评在4月SuperCLUE通用测评基准体系基础上进行了升级。
SuperCLUE十大任务-4月

6月将新增SuperCLUE-Hard模式,这一模式涵盖了解决高难度问题、复杂任务推理和精确指令遵循三个高挑战性任务旨在通过提升任务难度来考察国内外模型的高阶能力。

01

时间安排

即日起-6月13日:报名申请

6月10日-6月14:模型对接

6月15日-6月21日:模型测评

6月22日-6月26日:结果统计

6月27:发布榜单及报告

02


Hard模式升级

1

高难度问题解决


该类别考察AI模型解决实际生活或专业领域中的复杂问题的能力。这些问题通常需要深入的专业知识、创新思维和策略性分析。需展示出识别问题、分析问题组成部分并提出有效解决方案的能力,经常需要适应新信息或约束。


2

复杂任务推理

该类别主要考察模型在复杂任务中的多步推理能力。复杂任务推理涉及在多个变量和条件下进行逻辑推理,通常需要对数据、情况或假设进行深入分析以达到结论。要求AI逐步处理信息,通过连续的逻辑步骤解决问题,涉及从初始数据到终端解决方案的一系列推理过程。

3

精确指令遵循

该类别主要考察模型的指令遵循能力,要求AI严格按照给定的指令进行回复,包括但不限于定义的输出格式或标准来生成响应,精确地呈现要求的数据和信息。

03

6月总分计算规则

6月SuperCLUE将由SC-理科、SC-文科和SC-Hard三部分构成,每部分占总分的权重相当。即:

总分=(理科+文科+Hard)/3

04


参与方式

请各大模型团队于6月13日18:00前使用单位邮箱参与申请,发送至:

contact@superclue.ai

邮件内容包括:单位信息、大模型简介、联系人和所属部门、联系方式。

05


其他

(一)发布形式

6月测评将会发布【总榜】、【模型象限】及【各专项榜单】,并发布【中文大模型SuperCLUE测评基准6月报告】,总体表现和各任务分数将同步更新在www.superclueai.com官方排行榜网站。

(二)注意事项

为防止数据污染,本次测评集均为新题。

(三)SuperCLUE交流群

(四)联系人

另:请关注“CLUE”官网(www.CLUEbenchmarks.com)

或微信公众号随时了解SuperCLUE最新动态。

点击阅读原文可查看往期榜单

发起 / SuperCLUE团队



CLUE中文语言理解测评基准
精准量化AGI进展,定义人类迈向AGI的路线图
 最新文章