首页时事民生政务教育文化科技财富体娱健康情感

旅行百科职场楼市企业乐活学术汽车时尚创业美食幽默美体文摘

新增高阶推理！SuperCLUE基准8月报告将于8月27日发布

文摘 2024-08-05 11:44 浙江

SuperCLUE-8月

通知

各位好：

为全面评估截至2024年8月的中文大模型的综合性能和发展进程，SuperCLUE团队计划将于2024年8月27日发布中文大模型通用基准测评榜单及相应的8月评估报告。本次测评在6月SuperCLUE通用测评基准体系基础上进行了升级。

SuperCLUE基准体系-6月

8月将升级SuperCLUE-Hard模式，在原有的精确指令遵循基础上，新增高阶任务推理，旨在通过提升任务难度来考察国内外模型的高阶能力。

01

时间安排

即日起-8月13日：报名申请

8月10日-8月14日：模型对接

8月15日-8月21日：模型测评

8月22日-8月26日：结果统计

8月27日：发布榜单及报告

02

Hard模式升级

1

精确指令遵循

该类别主要考察模型的指令遵循能力，要求AI严格按照给定的指令进行回复，包括但不限于定义的输出格式或标准来生成响应，精确地呈现要求的数据和信息。本次升级在现有基础上进一步丰富题目类型，增加更多样化的题目形式，同时部分题目将包含上下文信息，以考察处理复杂信息的能力。

2

高阶任务推理

该类别主要考察模型在复杂任务中的多步推理能力。复杂任务推理涉及在多个变量和条件下进行逻辑推理，通常需要对数据、情况或假设进行深入分析以达到结论。要求AI逐步处理信息，通过连续的逻辑步骤解决问题，涉及从初始数据到终端解决方案的一系列推理过程。

8月总分计算规则

8月SuperCLUE将由SC-理科、SC-文科和SC-Hard三部分构成，每部分占总分的权重相当。即：

总分=（理科+文科+Hard）/3

04

参与方式

请各大模型团队于8月13日18:00前使用单位邮箱参与申请，发送至：

contact@superclue.ai

邮件内容包括：单位信息、大模型简介、联系人和所属部门、联系方式。

05

其他

（一）发布形式

8月测评将会发布【总榜】、【模型象限】及【各专项榜单】，并发布【中文大模型SuperCLUE测评基准8月报告】，总体表现和各任务分数将同步更新在www.superclueai.com官方排行榜网站。

（二）注意事项

为防止数据污染，本次测评集均为新题。

（三）SuperCLUE交流群

（四）联系人

另：请关注“CLUE”官网（www.CLUEbenchmarks.com）

或微信公众号随时了解SuperCLUE最新动态。

点击阅读原文可查看往期榜单

发起 / SuperCLUE团队

http://mp.weixin.qq.com/s?__biz=MzA5NzAxNTA0MQ==&mid=2247530994&idx=1&sn=b102fc3dec1568e7dcd17c03e230a08a

CLUE中文语言理解测评基准

精准量化AGI进展，定义人类迈向AGI的路线图

最新文章

中文大模型基准测评2024年10月报告

「小学奥数」基准榜单公布！7大任务，o1得73.50分，其余30个模型未及格

ChatGPT 「AI搜索」体验与对比

中文大模型「链式推理」基准测评榜单出炉！o1取得71.84分，推理等级7，其余32个大模型均未及格

升级版Claude 3.5 Sonnet中文基准测评出炉！代码能力超GPT-4o，高阶推理不及o1

文生图大模型中文基准测评9月榜单公布，6大维度34大任务14大模型，国内大模型在文字创作能力上表现惊艳

「AI搜索」基准测评方案发布

文生视频大模型「新版」测评基准（方案）发布

中文大模型「链式推理」基准测评方案发布，引入思维链和反思能力考察

中文多模态大模型基准10月榜单发布！Top3国产大模型表现亮眼，8大维度30大任务17大模型

奥林匹克数学竞赛-Math6o基准测评方案发布

新增Function calling测评！SuperCLUE基准10月报告将于10月28日发布

实时语音交互中文基准首期测评出炉，4大维度15项能力7款应用，GPT-4o高级语音领跑，国内产品延时、打断和场景应用表现出色

中文原生代码助手基准测评出炉，Cursor取得89分领跑全球，国内2款代码助手得分超80

OpenAI o1中文高阶推理基准测评结果出炉！总分85.27，推理能力大幅领先

长长长文本大模型中文基准测评结果出炉！得分均未超过70分

中文大模型基准测评2024年8月报告

汽车智能座舱大模型榜单8月首发，引入function-call，国内大模型表现优异

SuperCLUE-o: 中文原生多模态实时交互测评基准

新增高阶推理！SuperCLUE基准8月报告将于8月27日发布

中文多模态大模型基准8月榜单发布！8大维度30个测评任务，3个模型超过70分

文生视频大模型测评结果8月首发！AIGV-t2v基准新增4大模型

GPT-4o mini中文基准评测出炉！超越GPT-4，领先GPT-3.5 Turbo 20分

Llama 3.1 405B 中文基准评测出炉！推理总分80.44，略超GPT-4 Turbo，不敌GPT-4o

中文大模型基准测评2024上半年报告

AIGVBench文生视频测评首期结果公布，1000个AI视频对比，最高72.9分，Luma仅第3

易车大模型上榜SuperCLUE-Auto汽车测评榜单，并刷新国内最好成绩

AIGVBench：AI视频生成领域的引领性专业测评基准

「代码助手测评」启动，SC-Coder测评方案公布

文生图大模型基准测评首期榜单公布，DALL-E 3取得最高76.94分

首个中文大模型匿名竞技场「琅琊榜」榜单发布！ 12000次投票，近20个领先模型，最高1173分

新增Hard模式！SuperCLUE通用基准6月发布时间、测评升级

SuperCLUE-Long：中文原生长文本测评基准

分类

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉