近期,SuperCLUE发布了《中文大模型基准测评2024年10月报告》,重点评估了国内外43个大模型,在中文环境下的理科、文科和高难度Hard任务上的综合能力。本文将进一步分析开源模型在不同维度下的详细表现。www.cluebenchmarks.com/superclue_2410
SuperCLUE排行榜地址:
#全球闭源模型TOP和开源模型对比
分析1:中文场景下,头部开源模型具备较强竞争力,接近头部闭源模型10月SuperCLUE基准测评涵盖了21个代表性开源大模型。全球闭源模型Top5的平均线为10月测评中取得前5名(包括海外模型)的大模型的平均值。通过测评结果可以发现,Qwen2.5-72B-Instruct在中文环境下领跑全球开源模型。Qwen2.5-72B-Instruct取得总分68.90分,和全球闭源模型Top5平均线相差2.34分,这表明国内开源模型的顶尖水平和全球闭源模型Top5的平均水平接近。#海外开源和国内开源的对比
分析2:中文场景上国内开源模型表现优于国外开源模型
10月SuperCLUE基准测评涵盖了9个海外开源大模型和12个国内开源大模型。
由图可知,Qwen2.5-72B-Instruct和DeepSeek-V2.5,较Llama-3.1系列模型在中文能力上有一定领先性。TeleChat2-35B排名国内开源第3名,有超过Llama-3.1-70B-Instruct的表现。MiniCPM3-4B、Yi-1.5系列和GLM-4系列模型系列模型在开源中同样有不俗的表现。
分析3:中文高难度Hard任务上,开源大模型整体能力有待加强。在中文高难度Hard任务(高阶推理和精确指令遵循)上,Qwen2.5-72B-Instruct、Llama-3.1-405B-Instruct和DeepSeek-V2.5得分均低于50分,和顶尖模型(o1-preview)相差近20分。在Hard的二级维度中,Qwen系列模型的Qwen2.5-72B-Instruct在指令遵循上超过20分,其余最高10.42分;在高阶推理上,接近70分,其余均在20分以上。在Hard的二级维度中,Llama系列模型的Llama-3.1-405B-Instruct在指令遵循上超过30分,高于Qwen系列,其余最高10;在高阶推理上,接近60分。Llama-3.1-70B-Instruct的表现优于Llama-3.1-90B-Instruct,和Llama-3.1-405B-Instruct在高阶推理上得分接近。在中文理科任务上,开源模型表现强劲。代表模型Qwen2.5-72B-Instruct获得83.12分,表现突出。紧随其后的还有DeepSeek-V2.5和Llama-3.1-405B-Instruct。其余均分在60分左右。分析5:文科任务上,开源大模型总体水平接近。
在文科任务上,国内外头部开源大模型均处于70-80分之间,总体上无明显差异。报告完整详细内容,可点击文章底部【阅读原文】查看高清完整PDF版。
在线完整报告地址(可下载):
www.cluebenchmarks.com/superclue_2410更多10月SuperCLUE基准报告详情,可加入交流群。
[1] CLUE官网:www.CLUEBenchmarks.com
[2] SuperCLUE排行榜网站:www.superclueai.com
[3] Github地址:https://github.com/CLUEbenchmark/SuperCLUE
[4] 报告地址:www.cluebenchmarks.com/superclue_2410
点击阅读原文,查看完整报告