新增高阶推理!SuperCLUE基准8月报告将于8月27日发布

文摘   2024-08-05 11:44   浙江  


SuperCLUE-8月

通知

各位好:

为全面评估截至2024年8月的中文大模型的综合性能和发展进程,SuperCLUE团队计划将于2024年8月27日发布中文大模型通用基准测评榜单及相应的8月评估报告。本次测评在6月SuperCLUE通用测评基准体系基础上进行了升级。
SuperCLUE基准体系-6月


8月将升级SuperCLUE-Hard模式,在原有的精确指令遵循基础上,新增高阶任务推理旨在通过提升任务难度来考察国内外模型的高阶能力。

01

时间安排

即日起-8月13日:报名申请

8月10日-8月14:模型对接

8月15日-8月21日:模型测评

8月22日-8月26日:结果统计

8月27:发布榜单及报告

02


Hard模式升级

1

精确指令遵循


该类别主要考察模型的指令遵循能力,要求AI严格按照给定的指令进行回复,包括但不限于定义的输出格式或标准来生成响应,精确地呈现要求的数据和信息。本次升级在现有基础上进一步丰富题目类型,增加更多样化的题目形式,同时部分题目将包含上下文信息,以考察处理复杂信息的能力。


2

高阶任务推理

该类别主要考察模型在复杂任务中的多步推理能力。复杂任务推理涉及在多个变量和条件下进行逻辑推理,通常需要对数据、情况或假设进行深入分析以达到结论。要求AI逐步处理信息,通过连续的逻辑步骤解决问题,涉及从初始数据到终端解决方案的一系列推理过程。

8月总分计算规则

8月SuperCLUE将由SC-理科、SC-文科和SC-Hard三部分构成,每部分占总分的权重相当。即:

总分=(理科+文科+Hard)/3

04


参与方式

请各大模型团队于8月13日18:00前使用单位邮箱参与申请,发送至:

contact@superclue.ai

邮件内容包括:单位信息、大模型简介、联系人和所属部门、联系方式。

05


其他

(一)发布形式

8月测评将会发布【总榜】、【模型象限】及【各专项榜单】,并发布【中文大模型SuperCLUE测评基准8月报告】,总体表现和各任务分数将同步更新在www.superclueai.com官方排行榜网站。

(二)注意事项

为防止数据污染,本次测评集均为新题。

(三)SuperCLUE交流群

(四)联系人

另:请关注“CLUE”官网(www.CLUEbenchmarks.com)

或微信公众号随时了解SuperCLUE最新动态。

点击阅读原文可查看往期榜单

发起 / SuperCLUE团队



CLUE中文语言理解测评基准
精准量化AGI进展,定义人类迈向AGI的路线图
 最新文章