中文大模型基准测评2024年8月报告

文摘科技 2024-09-02 18:09 浙江

SuperCLUE团队

2024/09

背景

自2023年以来，AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。进入2024年，全球大模型竞争态势日益加剧，随着GPT-4o、Claude3.5、Gemini-1.5-pro和Llama3.1的发布，国内大模型同样在2024年上半年内进行了波澜壮阔的大模型追逐赛。中文大模型测评基准SuperCLUE持续对国内外大模型的发展趋势和综合效果进行了实时跟踪。

基于此，我们发布了《中文大模型基准测评2024年8月报告》，在AI大模型发展的巨大浪潮中，通过多维度综合性测评，对国内外大模型发展现状进行观察与思考。

点击文章底部【阅读原文】查看高清完整PDF版。

在线完整报告地址（可下载）：

www.cluebenchmarks.com/superclue_2408

报告核心内容摘要

摘要1：国内外大模型差距进一步缩小

ChatGPT-4o-latest是中文上全球表现最好的模型，但国内顶尖模型在部分通用能力上已将差距缩小至2%以内。

摘要2：国内大模型竞争加剧

国内闭源模型中Hunyuan-Turbo-Preview、AndesGPT-2.0、SenseChat 5.5、Doubao_pro_preview表现优异；开源模型表现最好的是DeepSeek-V2-0628、Qwen2-72B-Instruct，并且超过了众多国内外闭源模型。

摘要3：国内外大模型在不同任务上表现各有优势

在文科、理科和Hard任务中，ChatGPT-4o-latest在Hard任务中表现突出，Hunyuan-Turbo-Preview、AndesGPT-2.0在理科和文科任务上表现优异。

摘要4：端侧小模型表现惊艳

端侧小模型进展迅速，部分小尺寸模型表现要好于上一代的稍大尺寸模型，极大提升了落地的可行性。

一、国内大模型关键进展

1. 2023-2024年大模型关键进展

2. 2024年值得关注的中文大模型全景图

3. 2023-2024年度国内外大模型技术发展趋势

二、SuperCLUE通用能力测评

1. 中文大模型基准SuperCLUE介绍

2. SuperCLUE测评体系及数据集说明

3. 测评模型列表

4. SuperCLUE通用能力测评：一级总分

5. SuperCLUE模型象限

6. SuperCLUE通用能力测评：二级维度分数

7. SuperCLUE通用能力测评：三级细粒度分数

8. SuperCLUE测评方法说明

9. SuperCLUE开源榜单

10. 10B级别小模型榜单

11. 端侧5B级别小模型榜单

12. 大模型对战胜率分布图

13. SuperCLUE成熟度指数

14. 评测与人类一致性验证

三、SuperCLUE多模态能力测评

1.SuperCLUE-o实时多模态交互测评

2.SuperCLUE-V多模态理解测评

3.AIGVBench视频生成测评

4.SuperCLUE-Image文生图测评

四、SuperCLUE专项与行业测评

1. 专项基准：SuperCLUE-Math6数学推理

2. 专项基准：SuperCLUE-Coder代码助手

2. 专项基准：SuperCLUE-RAG检索增强生成

3. 专项基准：SuperCLUE-Code3代码生成

4. 专项基准：SuperCLUE-Agent智能体

5. 专项基准：SuperCLUE-Safety安全

6. 专项基准：SuperCLUE-200K超长文本

7. 专项基准：SuperCLUE-Role角色扮演

8. 专项基准：SuperCLUE-Video文生视频

9. 行业基准：SuperCLUE-Auto汽车

11. 行业基准：SuperCLUE-Fin金融

12. 行业基准：SuperCLUE-Industry工业

13. 行业基准：SuperCLUE-ICabin智能座舱

14. 竞技场：琅琊榜对战结果及分析

15. 未来两个月基准发布计划

五、优秀模型案例介绍

1. 优秀模型案例介绍

正文

一、国内大模型关键进展

1. 2023年大模型关键进展与中文大模型全景图

自2022年11月30日ChatGPT发布以来，AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内学术和产业界在过去一年半也有了实质性的突破。大致可以分为四个阶段，即准备期（ChatGPT发布后国内产学研迅速形成大模型共识）、成长期（国内大模型数量和质量开始逐渐增长）、爆发期（各行各业开源闭源大模型层出不穷，形成百模大战的竞争态势）、繁荣期（更多模态能力的延伸和应用）。

2. 2024年值得关注的中文大模型全景图

截止目前为止，国内已发布开源、闭源通用大模型及行业大模型已有上百个，SuperCLUE梳理了2024年值得关注的大模型全景图。

3. 2023-2024年度国内外大模型技术发展趋势

2023年5月至今，国内外大模型能力持续发展。其中GPT系列模型为代表的海外最好模型经过了从GPT-3.5、GPT-4、GPT-4-Turbo、GPT-4o的多个版本的迭代升级。国内模型也经历了波澜壮阔的16个月的迭代周期，其中Top1的模型经历了9次易主，不断提升国内模型的最强战力。

总体趋势上，国内外第一梯队大模型在中文领域的通用能力差距在持续缩小，从2023年5月的30.12%的差距，缩小至2024年8月的1.29%

二、SuperCLUE通用能力测评

1. 中文大模型基准SuperCLUE介绍

中文语言理解测评基准CLUE（The Chinese Language Understanding Evaluation）是致力于科学、客观、中立的语言模型评测基准，发起于2019年。陆续推出CLUE、FewCLUE、KgCLUE、DataCLUE等广为引用的测评基准。

SuperCLUE是大模型时代CLUE基准的发展和延续。聚焦于通用大模型的综合性测评。SuperCLUE根据多年的测评经验，基于通用大模型在学术、产业与用户侧的广泛应用，构建了多层次、多维度的综合性测评基准。

传统测评与SuperCLUE的区别

SuperCLUE三大特征

1) 独立第三方测评，非大模型方主导

随着国内外大模型的竞争日益激烈，模型开发方主导的评测可能存在偏向自家产品的风险。与之形成鲜明对比的是，SuperCLUE作为一个完全独立的第三方评测机构，承诺提供无偏倚的客观评测结果。SuperCLUE采用先进的自动化评测技术，有效消除人为因素带来的不确定性，确保每一项评测都公正无私。

2) 测评方式与真实用户体验目标一致

不同于传统测评通过选择题形式的测评，SuperCLUE目标是与真实用户体验目标保持一致，所以纳入了开放主观问题的测评。通过多维度多视角多层次的评测体系以及对话的形式，模拟大模型的应用场景，真实有效的考察模型生成能力。

3) “Live”更新，测评体系/方法与时俱进

不同于传统学术领域的评测，SuperCLUE根据全球的大模型技术发展趋势，不断升级迭代测评体系、测评维度和方法，以保证尽可能精准量化大模型的技术演进程度。并且每次测评集均为原创的新题，且保证题目的高保密性。

2. SuperCLUE测评体系及数据集说明

本次8月报告聚焦通用能力测评，采用多维度、多层次的综合性测评方案，由理科、文科和Hard三大维度构成。题目均为原创新题，总量为3226道多轮简答题。

【理科任务】分为计算、逻辑推理、代码测评集；

【文科任务】分为知识百科、语言理解、长文本、角色扮演、生成与创作、安全和工具使用七大测评集；

【Hard任务】分为精确指令遵循测评集，复杂任务高阶推理测评集。

3. 测评模型列表

本次测评数据选取了SuperCLUE-8月测评结果，模型选取了国内外有代表性的43个大模型在8月份的版本。

4.SuperCLUE通用能力测评：一级总分

5.SuperCLUE模型象限

基于大模型在基础能力和应用能力的表现，本次共有21个国内大模型入选SuperCLUE模型象限。

SuperCLUE评测任务可划分为基础能力和应用能力两个维度。基础能力，包含：计算、逻辑推理、精确指令遵循、传统安全、高阶推理、语言理解、长文本和知识百科；应用能力，包括：工具使用、角色扮演、代码、生成创作能力；

四个象限的含义。它们代表大模型所处的不同阶段与定位，其中【潜力探索者】代表模型正在探索阶段未来拥有较大潜力；【技术领跑者】代表模型在基础技术方面具备领先性；【实用主义者】代表模型在场景应用深度上具备领先性；【卓越领导者】代表模型在基础和场景应用上处于领先位置，引领国内大模型发展。

6.SuperCLUE通用能力测评：二级维度分数

1）Hard成绩

2）理科成绩

3）文科成绩

6.SuperCLUE通用能力测评：三级细粒度分数

7. SuperCLUE测评方法说明

1）理科（计算、逻辑推理）测评方法

2）理科（代码）测评方法

3）文科测评方法

4）Hard（精确指令遵循）测评方法

5）Hard（高阶推理）测评方法

8. SuperCLUE开源榜单

a. 中文场景国内开源模型具备较强竞争力

DeepSeek-V2-0628、Qwen2-72B-Instruct领跑全球开源模型，较Mistral-Large和Llama-3.1在中文能力上有较大领先性。
Yi-1.5系列、GLM-4系列模型和Qwen2系列模型在开源中同样有不俗的表现。
小参数量的模型发展迅速，如qwen2-1.5b表现好于部分7B模型。

b. 在高难度任务上，不同的开源模型区分度较大。

在Hard任务中，Qwen2-72B-Instruct领先幅度很大。Mistral-Large-Instruct-2407、DeepSeek-V2-0628同样表现优异，其他开源模型均未达到及格线。

9. 10B级别小模型榜单

a.10B级别模型中，GLM-4-9B-Chat和Gemma-2-9b-it分列国内外榜首

在本次SuperCLUE测评中，GLM-4-9B-Chat取得61.15分，取得10B以内模型最高分，并且是国内10B以内唯一超过60分的模型。Gemma-2-9b-it取得60.93分，同样有超过60分的表现，领跑海外10B以内模型。

b.10B以内模型进展迅速，展现出极致的性价比

在10B以内模型中，超过50分的模型有6个，分别为GLM-4-9B-Chat、Gemma-2-9b-it、Qwen2-7B-Instruct、Yi-1.5-9B-Chat-16K、Llama-3.1-8B-Instruct、Yi-1.5-6B-Chat，其中国内4个模型，海外2个模型。展现出10B以内小参数量级模型的极致的性价比。

10. 端侧5B级别小模型榜单

国内以qwen开源模型为代表，Qwen2-1.5B-Instruct取得总分38.96分，其中理科37.42分；文科61.61分；Hard17.85分；文科任务上表现尚可，有挑战性的高难度任务上还有很大优化空间。

11. 大模型对战胜率分布图

我们统计了所有大模型在测评中与GPT4-Turbo-0409的对战胜率。模型在每道题上的得分与GPT4-Turbo-0409相比计算差值，得到胜（差值大于0.25分）、平（差值在-0.25～+0.25分之间）、负（差值低于-0.25）。

12. SuperCLUE成熟度指数

SuperCLUE成熟度指数用以衡量国内大模型在SuperCLUE能力上是否成熟。

1）高成熟度能力

高成熟度指大部分闭源大模型普遍擅长的能力，SC成熟度指数在0.9至1.0之间。
当前国内大模型成熟度较高的能力是【语言理解】、【知识百科】和【生成创作】，也是目前产业和用户侧大模型的重点应用场景。

2）中成熟度能力

中成熟度指的是不同大模型能力上有一定区分度，但不会特别大。SC成熟度指数在0.8至0.9之间。
当前国内大模型表现出中成熟度的能力是【工具使用】、【角色扮演】、【传统安全】、【逻辑推理】，还有一定优化空间。

3）低成熟度能力

低成熟度指的是少量大模型较为擅长，很多模型无法胜任。SC成熟度指数在0.7至0.8之间。
当前国内大模型低成熟度的能力是【计算】、【代码】、【长文本】和【高阶推理】。

4）极低成熟度能力

极低成熟度指的是大多数模型无法胜任。SC成熟度指数在0.7以下。
当前国内大模型低成熟度的能力是【精确指令遵循】。

16. 评测与人类一致性验证

1) SuperCLUE VS Chatbot Aren

Chatbot Arena是当前英文领域较为权威的大模型排行榜，由LMSYS Org开放组织构建，它以公众匿名投票的方式，对各种大型语言模型进行对抗评测。将SuperCLUE得分与ChatBot Arena得分进行相关性计算，得到皮尔逊相关系数：0.89，P值：2.46e-07，说明SuperCLUE基准测评的成绩，与人类对模型的评估（以大众匿名投票的Chatbot Arena为典型代表），具有高度一致性。

来源：SuperCLUE，2024年9月2日

2) 自动化评价可靠性的人工评估

为验证自动化评价的可靠性，SuperCLUE团队在进行正式测评之前，从3000+道题目中针对5个模型，每个模型随机抽取了100+道题目进行人工复审。

审核内容及标准包括：

评价质量分为：优秀，良好，及格，不及格

完全不符合自己的判断：不及格（60以下）

基本符合自己的判断：及格（60或以上）或良好（75或以上）

特别符合自己的判断：评价的特别好：优秀（85或以上）

最后统计可靠性指标，将基本符合、特别符合的结果认定为是可靠性较高的评价。

最终各模型可靠性指标结果如下：

通过5个模型的可靠性分析验证，我们发现可靠性数据分别为88.68%、96.23%、95.28%、97.64%、95.28%，其中可靠性最低有88.68%，最高为模型的97.64%。平均有94.62%的可靠性。

所以，经过验证，SuperCLUE自动化评价有较高的可靠性。

多模态测评、行业、专项测评、优秀案例介绍以及更详细测评数据分析，请查看完整PDF报告。

点击文章底部【阅读原文】查看高清完整PDF版。

在线完整报告地址（可下载）：

www.cluebenchmarks.com/superclue_2408

未来两个月基准发布计划

未来2-3个月SuperCLUE会持续完善大模型专项能力及行业能力的测评基准。现针对于所有专项及行业测评基准征集大模型，欢迎申请。有意愿参与测评的厂商可发送邮件至contact@superclue.ai，标题：SuperCLUE专项/行业测评，请使用单位邮箱，邮件内容包括：单位信息、大模型简介、联系人和所属部门、联系方式。

预告：SuperCLUE通用基准测评10月报告将在2024年10月28日发布，欢迎反馈意见、参与测评。

欢迎加入【2024年8月报告】交流群。

扩展阅读

[1] CLUE官网：www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站：www.superclueai.com

[3] Github地址：https://github.com/CLUEbenchmark/SuperCLUE

[4] 在线报告地址：www.cluebenchmarks.com/superclue_2408

http://mp.weixin.qq.com/s?__biz=MzA5NzAxNTA0MQ==&mid=2247534524&idx=1&sn=9efb8c8d78db68c960666e234fe22c6a

CLUE中文语言理解测评基准

精准量化AGI进展，定义人类迈向AGI的路线图

最新文章

中文大模型基准测评2024年10月报告

「小学奥数」基准榜单公布！7大任务，o1得73.50分，其余30个模型未及格

ChatGPT 「AI搜索」体验与对比

中文大模型「链式推理」基准测评榜单出炉！o1取得71.84分，推理等级7，其余32个大模型均未及格

升级版Claude 3.5 Sonnet中文基准测评出炉！代码能力超GPT-4o，高阶推理不及o1

文生图大模型中文基准测评9月榜单公布，6大维度34大任务14大模型，国内大模型在文字创作能力上表现惊艳

「AI搜索」基准测评方案发布

文生视频大模型「新版」测评基准（方案）发布

中文大模型「链式推理」基准测评方案发布，引入思维链和反思能力考察

中文多模态大模型基准10月榜单发布！Top3国产大模型表现亮眼，8大维度30大任务17大模型

奥林匹克数学竞赛-Math6o基准测评方案发布

新增Function calling测评！SuperCLUE基准10月报告将于10月28日发布

实时语音交互中文基准首期测评出炉，4大维度15项能力7款应用，GPT-4o高级语音领跑，国内产品延时、打断和场景应用表现出色

中文原生代码助手基准测评出炉，Cursor取得89分领跑全球，国内2款代码助手得分超80

OpenAI o1中文高阶推理基准测评结果出炉！总分85.27，推理能力大幅领先

长长长文本大模型中文基准测评结果出炉！得分均未超过70分

中文大模型基准测评2024年8月报告

汽车智能座舱大模型榜单8月首发，引入function-call，国内大模型表现优异

SuperCLUE-o: 中文原生多模态实时交互测评基准

新增高阶推理！SuperCLUE基准8月报告将于8月27日发布

中文多模态大模型基准8月榜单发布！8大维度30个测评任务，3个模型超过70分

文生视频大模型测评结果8月首发！AIGV-t2v基准新增4大模型

GPT-4o mini中文基准评测出炉！超越GPT-4，领先GPT-3.5 Turbo 20分

Llama 3.1 405B 中文基准评测出炉！推理总分80.44，略超GPT-4 Turbo，不敌GPT-4o

中文大模型基准测评2024上半年报告

AIGVBench文生视频测评首期结果公布，1000个AI视频对比，最高72.9分，Luma仅第3

易车大模型上榜SuperCLUE-Auto汽车测评榜单，并刷新国内最好成绩

AIGVBench：AI视频生成领域的引领性专业测评基准

「代码助手测评」启动，SC-Coder测评方案公布

文生图大模型基准测评首期榜单公布，DALL-E 3取得最高76.94分

首个中文大模型匿名竞技场「琅琊榜」榜单发布！ 12000次投票，近20个领先模型，最高1173分

新增Hard模式！SuperCLUE通用基准6月发布时间、测评升级

SuperCLUE-Long：中文原生长文本测评基准

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉