中文大模型基准测评2024年8月报告

文摘   科技   2024-09-02 18:09   浙江  


SuperCLUE团队

2024/09


背景

自2023年以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。进入2024年,全球大模型竞争态势日益加剧,随着GPT-4o、Claude3.5、Gemini-1.5-pro和Llama3.1的发布,国内大模型同样在2024年上半年内进行了波澜壮阔的大模型追逐赛中文大模型测评基准SuperCLUE持续对国内外大模型的发展趋势和综合效果进行了实时跟踪。
基于此,我们发布了《中文大模型基准测评2024年8月报告》,在AI大模型发展的巨大浪潮中,通过多维度综合性测评,对国内外大模型发展现状进行观察与思考。
点击文章底部【阅读原文】查看高清完整PDF版。

在线完整报告地址(可下载):

www.cluebenchmarks.com/superclue_2408

报告核心内容摘要


摘要1:国内外大模型差距进一步缩小

ChatGPT-4o-latest是中文上全球表现最好的模型,但国内顶尖模型在部分通用能力上已将差距缩小至2%以内。

摘要2:国内大模型竞争加剧

国内闭源模型中Hunyuan-Turbo-Preview、AndesGPT-2.0、SenseChat 5.5、Doubao_pro_preview表现优异;开源模型表现最好的是DeepSeek-V2-0628、Qwen2-72B-Instruct,并且超过了众多国内外闭源模型。


摘要3:国内外大模型在不同任务上表现各有优势

在文科、理科和Hard任务中,ChatGPT-4o-latest在Hard任务中表现突出,Hunyuan-Turbo-Preview、AndesGPT-2.0在理科和文科任务上表现优异。


摘要4:端侧小模型表现惊艳

端侧小模型进展迅速,部分小尺寸模型表现要好于上一代的稍大尺寸模型,极大提升了落地的可行性。



目录

一、国内大模型关键进展
1. 2023-2024年大模型关键进展
2. 2024年值得关注的中文大模型全景图
3. 2023-2024年度国内外大模型技术发展趋势
二、SuperCLUE通用能力测评
1. 中文大模型基准SuperCLUE介绍

2. SuperCLUE测评体系及数据集说明

3. 测评模型列表
4. SuperCLUE通用能力测评:一级总分
5. SuperCLUE模型象限
6. SuperCLUE通用能力测评:二级维度分数
7. SuperCLUE通用能力测评:三级细粒度分数
8. SuperCLUE测评方法说明
9. SuperCLUE开源榜单
10. 10B级别小模型榜单

11. 端侧5B级别小模型榜单

12. 大模型对战胜率分布图
13. SuperCLUE成熟度指数
14. 评测与人类一致性验证
三、SuperCLUE多模态能力测评

1.SuperCLUE-o实时多模态交互测评

2.SuperCLUE-V多模态理解测评

3.AIGVBench视频生成测评

4.SuperCLUE-Image文生图测评

四、SuperCLUE专项与行业测评
1. 专项基准:SuperCLUE-Math6数学推理
2. 专项基准:SuperCLUE-Coder代码助手
2. 专项基准:SuperCLUE-RAG检索增强生成
3. 专项基准:SuperCLUE-Code3代码生成
4. 专项基准:SuperCLUE-Agent智能体
5. 专项基准:SuperCLUE-Safety安全
6. 专项基准:SuperCLUE-200K超长文本
7. 专项基准:SuperCLUE-Role角色扮演
8. 专项基准:SuperCLUE-Video文生视频
9. 行业基准:SuperCLUE-Auto汽车
11. 行业基准:SuperCLUE-Fin金融
12. 行业基准:SuperCLUE-Industry工业
13. 行业基准:SuperCLUE-ICabin智能座舱
14. 竞技场:琅琊榜对战结果及分析
15. 未来两个月基准发布计划
五、优秀模型案例介绍
1. 优秀模型案例介绍


正文      

   


一、国内大模型关键进展
1. 2023年大模型关键进展与中文大模型全景图

自2022年11月30日ChatGPT发布以来,AI大模型在全球范围内掀起了有史以来规模最大的人工智能浪潮。国内学术和产业界在过去一年半也有了实质性的突破。大致可以分为四个阶段,即准备期(ChatGPT发布后国内产学研迅速形成大模型共识)、成长期(国内大模型数量和质量开始逐渐增长)、爆发期(各行各业开源闭源大模型层出不穷,形成百模大战的竞争态势)、繁荣期(更多模态能力的延伸和应用)。

2. 2024年值得关注的中文大模型全景图

截止目前为止,国内已发布开源、闭源通用大模型及行业大模型已有上百个,SuperCLUE梳理了2024年值得关注的大模型全景图。

3. 2023-2024年度国内外大模型技术发展趋势

2023年5月至今,国内外大模型能力持续发展。其中GPT系列模型为代表的海外最好模型经过了从GPT-3.5、GPT-4、GPT-4-Turbo、GPT-4o的多个版本的迭代升级。国内模型也经历了波澜壮阔的16个月的迭代周期,其中Top1的模型经历了9次易主,不断提升国内模型的最强战力。

总体趋势上,国内外第一梯队大模型在中文领域的通用能力差距在持续缩小,从2023年5月的30.12%的差距,缩小至2024年8月的1.29%

二、SuperCLUE通用能力测评

1. 中文大模型基准SuperCLUE介绍
中文语言理解测评基准CLUE(The Chinese Language Understanding Evaluation)是致力于科学、客观、中立的语言模型评测基准,发起于2019年。陆续推出CLUE、FewCLUE、KgCLUE、DataCLUE等广为引用的测评基准。
SuperCLUE是大模型时代CLUE基准的发展和延续。聚焦于通用大模型的综合性测评。SuperCLUE根据多年的测评经验,基于通用大模型在学术、产业与用户侧的广泛应用,构建了多层次、多维度的综合性测评基准。
传统测评与SuperCLUE的区别
SuperCLUE三大特征
1) 独立第三方测评,非大模型方主导
随着国内外大模型的竞争日益激烈,模型开发方主导的评测可能存在偏向自家产品的风险。与之形成鲜明对比的是,SuperCLUE作为一个完全独立的第三方评测机构,承诺提供无偏倚的客观评测结果。SuperCLUE采用先进的自动化评测技术,有效消除人为因素带来的不确定性,确保每一项评测都公正无私。

2) 测评方式与真实用户体验目标一致

不同于传统测评通过选择题形式的测评,SuperCLUE目标是与真实用户体验目标保持一致,所以纳入了开放主观问题的测评。通过多维度多视角多层次的评测体系以及对话的形式,模拟大模型的应用场景,真实有效的考察模型生成能力。

3) “Live”更新,测评体系/方法与时俱进

不同于传统学术领域的评测,SuperCLUE根据全球的大模型技术发展趋势,不断升级迭代测评体系、测评维度和方法,以保证尽可能精准量化大模型的技术演进程度。并且每次测评集均为原创的新题,且保证题目的高保密性。


2. SuperCLUE测评体系及数据集说明

本次8月报告聚焦通用能力测评,采用多维度、多层次的综合性测评方案,由理科、文科和Hard三大维度构成。题目均为原创新题,总量为3226道多轮简答题。

【理科任务】分为计算、逻辑推理、代码测评集;

【文科任务】分为知识百科、语言理解、长文本、角色扮演、生成与创作、安全和工具使用七大测评集;

【Hard任务】分为精确指令遵循测评集,复杂任务高阶推理测评集。

3. 测评模型列表
本次测评数据选取了SuperCLUE-8月测评结果,模型选取了国内外有代表性的43个大模型在8月份的版本。
4.SuperCLUE通用能力测评:一级总分

5.SuperCLUE模型象限

基于大模型在基础能力和应用能力的表现,本次共有21个国内大模型入选SuperCLUE模型象限。

SuperCLUE评测任务可划分为基础能力和应用能力两个维度。基础能力,包含:计算、逻辑推理、精确指令遵循、传统安全、高阶推理、语言理解、长文本和知识百科;应用能力,包括:工具使用、角色扮演、代码、生成创作能力;

四个象限的含义。它们代表大模型所处的不同阶段与定位,其中【潜力探索者】代表模型正在探索阶段未来拥有较大潜力;【技术领跑者】代表模型在基础技术方面具备领先性;【实用主义者】代表模型在场景应用深度上具备领先性;【卓越领导者】代表模型在基础和场景应用上处于领先位置,引领国内大模型发展。

6.SuperCLUE通用能力测评:二级维度分数

1)Hard成绩

2)理科成绩

3)文科成绩

6.SuperCLUE通用能力测评:三级细粒度分数

7. SuperCLUE测评方法说明

1)理科(计算、逻辑推理)测评方法

2)理科(代码)测评方法

3)文科测评方法


4)Hard(精确指令遵循)测评方法


5)Hard(高阶推理)测评方法

8. SuperCLUE开源榜单

a. 中文场景国内开源模型具备较强竞争力

  • DeepSeek-V2-0628、Qwen2-72B-Instruct领跑全球开源模型,较Mistral-Large和Llama-3.1在中文能力上有较大领先性。

  • Yi-1.5系列、GLM-4系列模型和Qwen2系列模型在开源中同样有不俗的表现。

  • 小参数量的模型发展迅速,如qwen2-1.5b表现好于部分7B模型。

b. 在高难度任务上,不同的开源模型区分度较大。

  • 在Hard任务中,Qwen2-72B-Instruct领先幅度很大。Mistral-Large-Instruct-2407、DeepSeek-V2-0628同样表现优异,其他开源模型均未达到及格线。

9. 10B级别小模型榜单

a.10B级别模型中,GLM-4-9B-Chat和Gemma-2-9b-it分列国内外榜首

在本次SuperCLUE测评中,GLM-4-9B-Chat取得61.15分,取得10B以内模型最高分,并且是国内10B以内唯一超过60分的模型。Gemma-2-9b-it取得60.93分,同样有超过60分的表现,领跑海外10B以内模型。

b.10B以内模型进展迅速,展现出极致的性价比

在10B以内模型中,超过50分的模型有6个,分别为GLM-4-9B-Chat、Gemma-2-9b-it、Qwen2-7B-Instruct、Yi-1.5-9B-Chat-16K、Llama-3.1-8B-Instruct、Yi-1.5-6B-Chat,其中国内4个模型,海外2个模型。展现出10B以内小参数量级模型的极致的性价比。

10. 端侧5B级别小模型榜单

国内以qwen开源模型为代表,Qwen2-1.5B-Instruct取得总分38.96分,其中理科37.42分;文科61.61分;Hard17.85分;文科任务上表现尚可,有挑战性的高难度任务上还有很大优化空间。

11. 大模型对战胜率分布图

我们统计了所有大模型在测评中与GPT4-Turbo-0409的对战胜率。模型在每道题上的得分与GPT4-Turbo-0409相比计算差值,得到胜(差值大于0.25分)、平(差值在-0.25~+0.25分之间)、负(差值低于-0.25)。

12. SuperCLUE成熟度指数

SuperCLUE成熟度指数用以衡量国内大模型在SuperCLUE能力上是否成熟。

1)高成熟度能力
  • 高成熟度指大部分闭源大模型普遍擅长的能力,SC成熟度指数在0.9至1.0之间。

  • 当前国内大模型成熟度较高的能力是【语言理解】、 【知识百科】和【生成创作】,也是目前产业和用户侧大模型的重点应用场景。

2)中成熟度能力
  • 中成熟度指的是不同大模型能力上有一定区分度,但不会特别大。SC成熟度指数在0.8至0.9之间。

  • 当前国内大模型表现出中成熟度的能力是【工具使用】、【角色扮演】、【传统安全】、【逻辑推理】,还有一定优化空间。

3)低成熟度能力
  • 低成熟度指的是少量大模型较为擅长,很多模型无法胜任。SC成熟度指数在0.7至0.8之间。

  • 当前国内大模型低成熟度的能力是【计算】、【代码】、【长文本】和【高阶推理】。

4)极低成熟度能力
  • 极低成熟度指的是大多数模型无法胜任。SC成熟度指数在0.7以下。

  • 当前国内大模型低成熟度的能力是【精确指令遵循】。
16. 评测与人类一致性验证
1) SuperCLUE VS Chatbot Aren

Chatbot Arena是当前英文领域较为权威的大模型排行榜,由LMSYS Org开放组织构建, 它以公众匿名投票的方式,对各种大型语言模型进行对抗评测。将SuperCLUE得分与ChatBot Arena得分进行相关性计算,得到皮尔逊相关系数:0.89,P值:2.46e-07,说明SuperCLUE基准测评的成绩,与人类对模型的评估(以大众匿名投票的Chatbot Arena为典型代表),具有高度一致性。

来源:SuperCLUE,2024年9月2日
2) 自动化评价可靠性的人工评估

为验证自动化评价的可靠性,SuperCLUE团队在进行正式测评之前,从3000+道题目中针对5个模型,每个模型随机抽取了100+道题目进行人工复审。

审核内容及标准包括:

评价质量分为:优秀,良好 ,及格,不及格

完全不符合自己的判断:不及格(60以下)

基本符合自己的判断:及格(60或以上)或良好(75或以上)

特别符合自己的判断:评价的特别好:优秀(85或以上)
最后统计可靠性指标,将基本符合、特别符合的结果认定为是可靠性较高的评价。
最终各模型可靠性指标结果如下:

通过5个模型的可靠性分析验证,我们发现可靠性数据分别为88.68%、96.23%、95.28%、97.64%、95.28%,其中可靠性最低有88.68%,最高为模型的97.64%。平均有94.62%的可靠性。

所以,经过验证,SuperCLUE自动化评价有较高的可靠性

多模态测评、行业、专项测评、优秀案例介绍以及更详细测评数据分析,请查看完整PDF报告。
点击文章底部【阅读原文】查看高清完整PDF版。

在线完整报告地址(可下载):

www.cluebenchmarks.com/superclue_2408

未来两个月基准发布计划

未来2-3个月SuperCLUE会持续完善大模型专项能力及行业能力的测评基准。现针对于所有专项及行业测评基准征集大模型,欢迎申请。有意愿参与测评的厂商可发送邮件至contact@superclue.ai,标题:SuperCLUE专项/行业测评,请使用单位邮箱,邮件内容包括:单位信息、大模型简介、联系人和所属部门、联系方式。

预告:SuperCLUE通用基准测评10月报告将在2024年10月28日发布,欢迎反馈意见、参与测评。

欢迎加入【2024年8月报告】交流群。

扩展阅读

[1] CLUE官网:www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站:www.superclueai.com

[3] Github地址:https://github.com/CLUEbenchmark/SuperCLUE

[4] 在线报告地址:www.cluebenchmarks.com/superclue_2408

CLUE中文语言理解测评基准
精准量化AGI进展,定义人类迈向AGI的路线图
 最新文章