新增Function calling测评!SuperCLUE基准10月报告将于10月28日发布

文摘   2024-10-08 15:35   浙江  


SuperCLUE-10月

通知

各位好:

为全面评估截至2024年10月的中文大模型的综合性能和发展进程,SuperCLUE团队计划将于2024年10月28日发布中文大模型通用基准测评榜单及相应的10月评估报告。本次测评在8月SuperCLUE通用测评基准体系基础上进行了升级。
SuperCLUE基准体系-8月

10月将升级SuperCLUE文理科的测评集,在原有数据集基础上,将工具使用从文科转入到理科当中,题型进行全面升级,具有更加标准化的输入输出方式旨在考察模型调用外部函数或API的能力。


01

时间安排

即日起-10月13日:报名申请

10月10日-10月14:模型对接

10月15日-10月21日:模型测评

10月22日-10月27日:结果统计

10月28:发布榜单及报告

02


数据集更新

1

工具使用更新


该类别主要考察模型的考察模型的函数调用能力,要求AI能够准确识别并调用外部函数或API,正确传递参数,处理返回结果,并确保信息的准确性和一致性本次更新将原有的题型都升级为Function calling的调用模式,更加注重模型的推理和理解能力,具有更为严格的回答标准,旨在全面评估国内外模型在实际应用中的综合性能和实用性

10月总分计算规则

10月SuperCLUE将由SC-理科、SC-文科和SC-Hard三部分构成,每部分占总分的权重相当。即:

总分=(理科+文科+Hard)/3

04


参与方式

请各大模型团队于10月13日18:00前使用单位邮箱参与申请,发送至:

contact@superclue.ai

邮件内容包括:单位信息、大模型简介、联系人和所属部门、联系方式。

05


其他

(一)发布形式

10月测评将会发布【总榜】、【模型象限】及【各专项榜单】,并发布【中文大模型SuperCLUE测评基准10月报告】,总体表现和各任务分数将同步更新在www.superclueai.com官方排行榜网站。

(二)注意事项

为防止数据污染,本次测评集均为新题。

(三)SuperCLUE交流群

(四)联系人

另:请关注“CLUE”官网(www.CLUEbenchmarks.com)

或微信公众号随时了解SuperCLUE最新动态。

点击阅读原文可查看往期榜单

发起 / SuperCLUE团队



CLUE中文语言理解测评基准
精准量化AGI进展,定义人类迈向AGI的路线图
 最新文章