中文大模型基准测评2024年10月报告

文摘科技 2024-11-08 08:13 浙江

SuperCLUE团队

2024/11

背景

自2023年以来，AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。进入2024年，全球大模型竞争态势日益加剧，随着Sora、GPT-4o、o1的发布，国内大模型在2024年进行了波澜壮阔的大模型追逐赛。中文大模型测评基准SuperCLUE持续对国内外大模型的发展趋势和综合效果进行了实时跟踪。

基于此，我们发布了《中文大模型基准测评2024年10月报告》，在AI大模型发展的巨大浪潮中，通过多维度综合性测评，对国内外大模型发展现状进行观察与思考。

点击文章底部【阅读原文】查看高清完整PDF版。

在线完整报告地址（可下载）：

www.cluebenchmarks.com/superclue_2410

SuperCLUE排行榜地址：

www.superclueai.com

报告核心内容摘要

摘要1：OpenAI发布o1后，全球大模型竞争加剧

o1-preview的推出进一步拉大了与其他模型的差距。经测评，目前国内大模型正在持续接近Claude 3.5 Sonnet和ChatGPT-4o-latest的能力，但与o1-preview在中文难任务（Hard任务）上相差约为14%，在中文通用能力上相差约8%。

摘要2：国内大模型第一梯队竞争激烈，持续迭代表现不俗

国内开源模型Qwen2.5-72B-Instruct、DeepSeek V2.5领跑全球开源模型，最新发布的TeleChat2-35B同样表现出色，超过了国内外众多开源模型；国内闭源模型GLM-4-Plus、SenseChat 5.5、AndesGPT-2.0表现优异，与ChatGPT-4o-latest相距2分以内。

摘要3：国内外大模型在不同任务上表现各有优势

国内外模型在不同维度任务表现各有特色。o1-preview在Hard任务中表现卓越，有较大领先性，国内大模型则更擅长理科和文科任务。

摘要4：端侧小模型表现惊艳

端侧小模型进展迅速，部分小尺寸模型表现要好于上一代的稍大尺寸模型，如Qwen2.5-1.5B-Instruct、MiniCPM3-4B，均展现出很高的性价比和落地可行性。

一、国内大模型关键进展

1. 2023-2024年大模型关键进展

2. 2024年值得关注的中文大模型全景图

3. 2023-2024年度国内外大模型技术发展趋势

二、SuperCLUE通用能力测评

1. 中文大模型基准SuperCLUE介绍

2. SuperCLUE测评体系及数据集说明

3. 测评模型列表

4. SuperCLUE通用能力测评：总分

5. SuperCLUE模型象限

6. SuperCLUE通用能力测评：一级维度分数

7. SuperCLUE通用能力测评：二级细粒度分数

8. SuperCLUE测评方法说明

9. SuperCLUE开源榜单

10. 10B级别小模型榜单

11. 端侧5B级别小模型榜单

12. 大模型对战胜率分布图

13. SuperCLUE成熟度指数

14. 评测与人类一致性验证

三、SuperCLUE-AI产品能力测评

1.SuperCLUE-Coder代码助手产品测评

2.SuperCLUE-AISearch搜索产品测评

3.SuperCLUE-Voice实时语音产品测评

四、SuperCLUE多模态能力测评

1.SuperCLUE-V多模态理解测评

2.AIGVBench视频生成测评

3.SuperCLUE-Image文生图测评

五、SuperCLUE专项与行业测评

1. 专项基准：SuperCLUE-CoT链式推理

2. 专项基准：SuperCLUE-Math6o数学竞赛

3. 专项基准：SuperCLUE-Math6数学推理

4. 专项基准：SuperCLUE-RAG检索增强生成

5. 专项基准：SuperCLUE-Code3代码生成

6. 专项基准：SuperCLUE-Agent智能体

7. 专项基准：SuperCLUE-Safety安全

8. 专项基准：SuperCLUE-Long长文本

9. 专项基准：SuperCLUE-200K超长文本

10. 专项基准：SuperCLUE-Role角色扮演

11. 行业基准：SuperCLUE-Auto汽车

12. 行业基准：SuperCLUE-Fin金融

13. 行业基准：SuperCLUE-Industry工业

14. 行业基准：SuperCLUE-ICabin智能座舱

15. 竞技场：琅琊榜对战结果及分析

16. 未来两个月基准发布计划

五、优秀模型案例介绍

1. 优秀模型案例介绍

正文

一、国内大模型关键进展

1. 2023年大模型关键进展与中文大模型全景图

自2022年11月30日ChatGPT发布以来，AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内学术和产业界在过去一年半也有了实质性的突破。大致可以分为四个阶段，即准备期（ChatGPT发布后国内产学研迅速形成大模型共识）、成长期（国内大模型数量和质量开始逐渐增长）、爆发期（各行各业开源闭源大模型层出不穷，形成百模大战的竞争态势）、繁荣期（更多模态能力的延伸和应用）。

2. 2024年值得关注的中文大模型全景图

截止目前为止，国内已发布开源、闭源通用大模型及行业大模型已有上百个，SuperCLUE梳理了2024年值得关注的大模型全景图。

3. 2023-2024年度国内外大模型技术发展趋势

2023年5月至今，国内外大模型能力持续发展。其中GPT系列模型为代表的海外最好模型经过了从GPT3.5、GPT4、GPT4-Turbo、GPT4o、o1的多个版本的迭代升级。国内模型也经历了波澜壮阔的18个月的迭代周期，其中Top1的模型经历了10次易主，不断提升国内模型的最强战力。

总体趋势上，国内外第一梯队大模型在中文领域的通用能力差距在持续缩小，从2023年5月的30.12%的差距，缩小至2024年8月的1.29%。不过随着o1的发布，差距再次拉大到8.19%。

二、SuperCLUE通用能力测评

1. 中文大模型基准SuperCLUE介绍

中文语言理解测评基准CLUE（The Chinese Language Understanding Evaluation）是致力于科学、客观、中立的语言模型评测基准，发起于2019年。陆续推出CLUE、FewCLUE、KgCLUE、DataCLUE等广为引用的测评基准。

SuperCLUE是大模型时代CLUE基准的发展和延续。聚焦于通用大模型的综合性测评。SuperCLUE根据多年的测评经验，基于通用大模型在学术、产业与用户侧的广泛应用，构建了多层次、多维度的综合性测评基准。

传统测评与SuperCLUE的区别

SuperCLUE三大特征

1) 独立第三方测评，非大模型方主导

随着国内外大模型的竞争日益激烈，模型开发方主导的评测可能存在偏向自家产品的风险。与之形成鲜明对比的是，SuperCLUE作为一个完全独立的第三方评测机构，承诺提供无偏倚的客观评测结果。SuperCLUE采用先进的自动化评测技术，有效消除人为因素带来的不确定性，确保每一项评测都公正无私。

2) 测评方式与真实用户体验目标一致

不同于传统测评通过选择题形式的测评，SuperCLUE目标是与真实用户体验目标保持一致，所以纳入了开放主观问题的测评。通过多维度多视角多层次的评测体系以及对话的形式，模拟大模型的应用场景，真实有效的考察模型生成能力。

3) “Live”更新，测评体系/方法与时俱进

不同于传统学术领域的评测，SuperCLUE根据全球的大模型技术发展趋势，不断升级迭代测评体系、测评维度和方法，以保证尽可能精准量化大模型的技术演进程度。并且每次测评集均为原创的新题，且保证题目的高保密性。

2. SuperCLUE测评体系及数据集说明

本次10月报告聚焦通用能力测评，采用多维度、多层次的综合性测评方案，由理科、文科和Hard三大维度构成。题目均为原创新题，总量为2900道多轮简答题。

【理科任务】分为计算、逻辑推理、代码、工具使用测评集；

【文科任务】分为知识百科、语言理解、长文本、角色扮演、生成与创作、安全六大测评集；

【Hard任务】分为精确指令遵循测评集，复杂任务高阶推理测评集。

3. 测评模型列表

本次测评数据选取了SuperCLUE-10月测评结果，模型选取了国内外有代表性的43个大模型在10月份的版本。

4.SuperCLUE通用能力测评：总分

5.SuperCLUE模型象限

基于大模型在基础能力和应用能力的表现，本次共有23个国内大模型入选SuperCLUE模型象限。

SuperCLUE评测任务可划分为基础能力和应用能力两个维度。基础能力，包含：计算、逻辑推理、精确指令遵循、传统安全、高阶推理、语言理解、长文本和知识百科；应用能力，包括：工具使用、角色扮演、代码、生成创作能力；

四个象限的含义。它们代表大模型所处的不同阶段与定位，其中【潜力探索者】代表模型正在探索阶段未来拥有较大潜力；【技术领跑者】代表模型在基础技术方面具备领先性；【实用主义者】代表模型在场景应用深度上具备领先性；【卓越领导者】代表模型在基础和场景应用上处于领先位置，引领国内大模型发展。

6.SuperCLUE通用能力测评：一级维度分数

1）Hard成绩

2）理科成绩

3）文科成绩

7.SuperCLUE通用能力测评：二级细粒度分数

8. SuperCLUE测评方法说明

1）理科（计算、逻辑推理、工具使用）测评方法

2）理科（代码）测评方法

3）文科测评方法

4）Hard（精确指令遵循）测评方法

5）Hard（高阶推理）测评方法

9. SuperCLUE开源榜单

a. 中文场景国内开源模型具备较强竞争力

Qwen2.5-72B-Instruct、DeepSeek-V2.5领跑全球开源模型，较Llama-3.1系列模型在中文能力上有一定领先性。TeleChat2-35B排名国内开源第3名，有超过Llama-3.1-70B-Instruct的表现。
MiniCPM3-4B、Yi-1.5系列和GLM-4系列模型系列模型在开源中同样有不俗的表现。
小参数量的模型发展迅速，如Qwen2.5-1.5B-Instruct和Qwen2.5-0.5B-Instruct表现好于部分7B模型。

b. 在高难度任务上，不同的开源模型区分度较大。

在Hard任务中，Qwen2.5-72B-Instruct领先幅度很大。DeepSeek-V2.5同样表现优异，其他开源模型均未超过40分。

10. 10B级别小模型榜单

a.10B级别模型中，Qwen2.5-7B-Instruct和Gemma-2-9b-it分列国内外榜首

在本次SuperCLUE测评中，Qwen2.5-7B-Instruct取得60.61分，取得10B以内模型的最高分，并且是国内10B以内唯一超过60分的模型。GLM-4-9B-chat取得56.83分排名第2。MiniCPM3-4B取得53.16分排名国内第3，是Top5中唯一5B以内的模型。Gemma-2-9b-it取得55.48分，领跑海外10B以内模型。

b.10B以内模型进展迅速，展现出极致的性价比

在10B以内模型中，超过50分的模型有6个，分别为Qwen2.5-7B-Instruct、GLM-4-9B-Chat、Gemma-2-9b-it、MiniCPM3-4B、Llama-3.1-8B-Instruct、Yi-1.5-9B-Chat-16K。其中国内4个模型，海外2个模型。展现出10B以内小参数量级模型的极致的性价比。

11. 端侧5B级别小模型榜单

国内端侧小模型进展迅速，相比国外小模型，国内小模型在中文场景下展现出更好的性能表现

MiniCPM3-4B表现惊艳，取得总分53.16分的优异成绩，在SuperCLUE端侧5B小模型榜单中排名榜首。其中理科63.04分、文科69.87分、Hard26.56分，与同等参数量级模型Phi-3-Mini-4K-Instruct相比各个维度均有不同幅度的领先，展示出小参数量级模型极高的性价比。
Qwen2.5系列小模型同样表现不俗，Qwen2.5-1.5B-Instruct取得总分43.92分，有超过Gemma-2-2b-it和Phi-3-Mini-4K-Instruct等更大参数量级模型的效果。Qwen2.5-0.5B-Instruct是本次上榜中参数量最小的模型，仅有5亿参数，依然能达到部分70亿参数模型的效果。

12. 大模型对战胜率分布图

我们统计了所有大模型在测评中与GPT4-Turbo-0409的对战胜率。模型在每道题上的得分与GPT4-Turbo-0409相比计算差值，得到胜（差值大于0.25分）、平（差值在-0.25～+0.25分之间）、负（差值低于-0.25）。

13. SuperCLUE成熟度指数

SuperCLUE成熟度指数用以衡量国内大模型在SuperCLUE能力上是否成熟。

1）高成熟度能力

高成熟度指大部分闭源大模型普遍擅长的能力，SC成熟度指数在0.9至1.0之间。
当前国内大模型成熟度较高的能力是【语言理解】、【知识与百科】和【生成与创作】，也是目前产业和用户侧大模型的重点应用场景。

2）中成熟度能力

中成熟度指的是不同大模型能力上有一定区分度，但不会特别大。SC成熟度指数在0.8至0.9之间。
当前国内大模型表现出中成熟度的能力是【工具使用】、【长文本】、【计算】、【角色扮演】、【传统安全】、【逻辑推理】和【高阶推理】，还有一定优化空间。

3）低成熟度能力

低成熟度指的是少量大模型较为擅长，很多模型无法胜任。SC成熟度指数在0.7至0.8之间。
当前国内大模型低成熟度的能力是【代码】。

4）极低成熟度能力

极低成熟度指的是大多数模型无法胜任。SC成熟度指数在0.7以下。
当前国内大模型极低成熟度的能力是【指令遵循】。

14. 评测与人类一致性验证

1) SuperCLUE VS Chatbot Arena

Chatbot Arena是当前英文领域较为权威的大模型排行榜，由LMSYS Org开放组织构建，它以公众匿名投票的方式，对各种大型语言模型进行对抗评测。将SuperCLUE得分与ChatBot Arena得分进行相关性计算，得到皮尔逊相关系数：0.95，P值：3.60e-08；斯皮尔曼相关系数：0.87，P值：2.05e-05；说明SuperCLUE基准测评的成绩，与人类对模型的评估（以大众匿名投票的Chatbot Arena为典型代表），具有高度一致性。

2) 自动化评价可靠性的人工评估

为验证自动化评价的可靠性，SuperCLUE团队在进行正式测评之前，从2900道题目中针对4个模型，每个模型随机抽取了137道题目进行人工复审。

人类按照相同的评价标准，对每道题目进行评价。统计人类评分与模型评分在所有题目上的平均差距，最终计算得到可靠性。

最终各模型可靠性指标结果如下：

注：最终可靠性=sum（人类评分-模型评分）/总题目量

通过4个模型的可靠性分析验证，我们发现可靠性数据分别为99.82%、90.73%、92.37%、96.21%，其中可靠性最低有90.73%，最高为模型的99.82%。最终有96.67%的可靠性。

所以，经过验证，SuperCLUE自动化评价有较高的可靠性。

报告完整详细内容，如AI产品测评、多模态测评、行业、专项测评、优秀案例介绍以及更详细测评数据分析，请查看完整PDF报告。

点击文章底部【阅读原文】查看高清完整PDF版。

在线完整报告地址（可下载）：

www.cluebenchmarks.com/superclue_2410

未来两个月基准发布计划

未来2-3个月SuperCLUE会持续完善大模型专项能力及行业能力的测评基准。现针对于所有专项及行业测评基准征集大模型，欢迎申请。有意愿参与测评的厂商可发送邮件至contact@superclue.ai，标题：SuperCLUE专项/行业测评，请使用单位邮箱，邮件内容包括：单位信息、大模型简介、联系人和所属部门、联系方式。

预告：SuperCLUE通用基准测评2024年度报告将在2024年12月26日发布，欢迎反馈意见、参与测评。

欢迎加入【2024年10月报告】交流群。

扩展阅读

[1] CLUE官网：www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站：www.superclueai.com

[3] Github地址：https://github.com/CLUEbenchmark/SuperCLUE

[4] 在线报告地址：www.cluebenchmarks.com/superclue_2410

http://mp.weixin.qq.com/s?__biz=MzA5NzAxNTA0MQ==&mid=2247553028&idx=1&sn=9f1509d7d18698874a4472dc9a0f8d66

CLUE中文语言理解测评基准

精准量化AGI进展，定义人类迈向AGI的路线图

最新文章

中文大模型基准测评2024年10月报告

「小学奥数」基准榜单公布！7大任务，o1得73.50分，其余30个模型未及格

ChatGPT 「AI搜索」体验与对比

中文大模型「链式推理」基准测评榜单出炉！o1取得71.84分，推理等级7，其余32个大模型均未及格

升级版Claude 3.5 Sonnet中文基准测评出炉！代码能力超GPT-4o，高阶推理不及o1

文生图大模型中文基准测评9月榜单公布，6大维度34大任务14大模型，国内大模型在文字创作能力上表现惊艳

「AI搜索」基准测评方案发布

文生视频大模型「新版」测评基准（方案）发布

中文大模型「链式推理」基准测评方案发布，引入思维链和反思能力考察

中文多模态大模型基准10月榜单发布！Top3国产大模型表现亮眼，8大维度30大任务17大模型

奥林匹克数学竞赛-Math6o基准测评方案发布

新增Function calling测评！SuperCLUE基准10月报告将于10月28日发布

实时语音交互中文基准首期测评出炉，4大维度15项能力7款应用，GPT-4o高级语音领跑，国内产品延时、打断和场景应用表现出色

中文原生代码助手基准测评出炉，Cursor取得89分领跑全球，国内2款代码助手得分超80

OpenAI o1中文高阶推理基准测评结果出炉！总分85.27，推理能力大幅领先

长长长文本大模型中文基准测评结果出炉！得分均未超过70分

中文大模型基准测评2024年8月报告

汽车智能座舱大模型榜单8月首发，引入function-call，国内大模型表现优异

SuperCLUE-o: 中文原生多模态实时交互测评基准

新增高阶推理！SuperCLUE基准8月报告将于8月27日发布

中文多模态大模型基准8月榜单发布！8大维度30个测评任务，3个模型超过70分

文生视频大模型测评结果8月首发！AIGV-t2v基准新增4大模型

GPT-4o mini中文基准评测出炉！超越GPT-4，领先GPT-3.5 Turbo 20分

Llama 3.1 405B 中文基准评测出炉！推理总分80.44，略超GPT-4 Turbo，不敌GPT-4o

中文大模型基准测评2024上半年报告

AIGVBench文生视频测评首期结果公布，1000个AI视频对比，最高72.9分，Luma仅第3

易车大模型上榜SuperCLUE-Auto汽车测评榜单，并刷新国内最好成绩

AIGVBench：AI视频生成领域的引领性专业测评基准

「代码助手测评」启动，SC-Coder测评方案公布

文生图大模型基准测评首期榜单公布，DALL-E 3取得最高76.94分

首个中文大模型匿名竞技场「琅琊榜」榜单发布！ 12000次投票，近20个领先模型，最高1173分

新增Hard模式！SuperCLUE通用基准6月发布时间、测评升级

SuperCLUE-Long：中文原生长文本测评基准

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉