中文多模态大模型基准8月榜单发布!8大维度30个测评任务,3个模型超过70分

文摘   科技   2024-08-02 15:24   浙江  

2024年8月2日,中文多模态大模型SuperCLUE-V基准8月榜单发布。本次测评涵盖国内外最具代表性的12个多模态理解大模型。

8月测评摘要


测评要点1:GPT-4o领跑
GPT-4o取得74.36分,领跑多模态基准。其中基础多模态认知能力和应用能力均有70+分的表现,在技术和应用方面均有一定领先优势。

测评要点2:国内多模态大模型表现不俗
国内多模态大模型hunyuan-vision和InternVL2-40B表现不俗,取得70+分的优异成绩,仅次于GPT-4o。尤其在多模态应用方面领先Claude3.5-Sonnet和Gemini-1.5-Pro,展现出较强的应用优势。

测评要点3:国内大模型基础能力仍需提升
在基础能力方面国内大模型较海外模型仍有一定差距,尤其在细粒度视觉认知任务上,国内外最好模型有5分的差距,需要进一步对多模态深度认知能力做优化提升。



# 榜单概览

榜单地址:www.superclueai.com
详情请查看下方#正文。

# SuperCLUE-V介绍

SuperCLUE-V是中文多模态理解大模型综合性测评基准,旨在为中文领域提供一个多模态大模型多维度能力评估参考。
测评体系
SuperCLUE-V基准包括基础能力和应用能力两个大方向,以开放式问题形式对多模态大模型进行评估,涵盖了8个一级维度30个二级维度。

测评方法
参考SuperCLUE细粒度评估方式,构建专用测评集,每个维度进行细粒度的评估并可以提供详细的反馈信息。

1)测评集构建

中文prompt构建流程:1.参考现有prompt--->2.中文prompt撰写--->3.测试--->4.修改并确定中文prompt;针对每一个维度构建专用的测评集。

2)评分方法

评估流程开始于模型与数据集的交互,模型需要基于提供的多模态信息进行理解和回应。
评估标准涵盖了理解准确性、回应相关性和推理深度等维度。
打分规则结合了自动化定量评分与专家复核,高效评分的同时,确保评估的科学性和公正性。

3)评分标准

SuperCLUE-V根据不同测评任务采用多样性的测评标准。根据模型在不同标准上的表现情况,GPT-4o打分1-5分,综合各个标准的得分得到平均分。

详见下方#示例。
测评示例

示例图片:

Prompt:请描述一下图片中的内容,并分析图片之间的关联。

模型答案:

这是一组连续的电影画面,展示了在日落背景下,背对镜头的一个人物的轮廓。

第一张图片中,天空橙红色,太阳快要落下,该人物的右手拉着一个看不清的物体。图片的底部显示了中英文字幕:“我虽然有观点 / I have an opinion.”

第二张图片保持了相同的背景与人物的位置,不过人物的姿势和截图的时间可能稍有不同。字幕显示为:“但只是我个人观点,不一定对 / But that's my opinion. I could be wrong.”

第三张图片继续承接前两张图片的情景和人物位置,背景依旧是橙红的日落,人物继续面向远方,右手依然拉着那个物体。字幕内容变为:“所以不能误导你 / So why would I screw up yours?”

这三张图片以连续的画面、相同的背景和人物,逐步递进地展示了一段对白,传达了一个关于个人观点和尊重他人观点的思想。人物在落日下的剪影,配上这段内心独白,赋予了画面一种深沉的哲理意境,令人反思观点与认知的相对性,以及对他人意见的尊重。
超级模型(gpt-4o)裁判:

----逐项打分开始----

1. 基于标准1的<回答正确>;
总体上,回答是正确的,包括对人物和字幕的描述以及图片之间的关联。但是关于"看不清的物体"的描述有误,实际应该是一个包。基于标准1的得分:4分。
2. 基于标准2的<答案清晰度>;
回答逻辑清晰,语言表达通顺,排版美观。回答的结构层次分明,能够清楚表达图片间的关联性。基于标准2的得分:5分。
3. 基于标准3的<描述准确性>;
回答基本准确地描述了图像中的主要元素和细节,但对包的描述有误。基于标准3的得分:4分。
4. 基于标准4的<组合图片理解准确性>;
模型对组合图像的整体理解到位,准确把握了图片之间的关联性,解析了一段连贯的思想过程和传达的主题。基于标准4的得分:5分。
综合以上,AI助手的回答的综合得分(平均分)为[[4.50]]。

----逐项打分结束----


# 参评模型
为综合衡量当前国内外多模态大模型发展水平,本次测评选取了4个海外模型和8个国内代表性多模态模型。其中为进一步评估开源和闭源的不同进展,本次参评模型包括4个开源模型、8个闭源模型。
测评结果
总榜单

数据来源:SuperCLUE,2024年8月2日;本次榜单海外模型仅作对比参考不参与排名。

模型象限

为进一步体现多模态大模型所处的不同阶段与定位,我们通过模型在基础能力和应用能力上的不同表现,将其划分成4个模型象限。

其中【潜力探索者】代表模型正在技术探索阶段拥有较大潜力;【技术领跑者】代表模型聚焦基础技术研究;【实用主义者】代表模型在场景应用上处于领先定位;【卓越领导者】代表模型在基础和场景应用上处于领先位置,引领国内大模型发展。

基础能力榜单

应用能力榜单

八大能力榜单

为更好的对比国内外代表性多模态模型的多维度能力,我们形成了8月多模态理解基准能力雷达分布图。

# 模型对比案例

基础认知能力

示例1:细粒度视觉认知-文本理解

提示词:「请分析一下收据上“椰黄包”的价格是多少?」

GPT-4o答案:

在收据上,“”椰黄包“的价格是6.50元

评分:【5分】

hunyuan-vision答案:

收据上”“椰黄包”的价格是6.50元。


评分:【5分】

示例2:细粒度视觉认知-对象计数

提示词:「图片中有多少个球体和立方体?给出你的思考过程

GPT-4o答案:

图片中有以下几个球体和立方体:
1. 球体:
  - 1个绿色的光滑球体
2. 立方体:
  - 1个黄色的立方体
  - 1个棕色的立方体
  - 1个灰色的立方体
  - 1个橙色的小立方体
  - 1个红色的小立方体
总计:
- 球体:1个
- 立方体:5个


评分:【3分】

InternVL2-40B答案:

图片中有1个球体和7个立方体。
具体分析如下:
1. 图片中有一个绿色的球体。
2. 图片中有七个立方体,分别是:
  - 一个黄色的立方体
  - 一个灰色的立方体
  - 一个红色的立方体
  - 一个棕色的立方体
  - 一个较小的棕色立方体
  - 一个中等大小的棕色立方体
  - 一个最小的棕色立方体
因此,图片中总共有1个球体和7个立方体。


评分:【3分】

示例3:数理逻辑分析-图表推理
提示词:「广州在2015年的人口是多少?

Gemini-1.5-Pro答案:

根据图片信息,广州在2015年的常住人口是 **1594.95** 万人。


评分:【5分】

Qwen-VL-Plus答案:

根据图片中的数据,我们可以看到,在2015年的常住人口数量为167838万人。


评分:【1.5分】

应用能力
示例4:笑话与互联网meme

提示词:「解释一下这是什么梗。

Claude3.5-Sonnet答案:

这张图片是一个流行的网络表情包,源自一个可爱的卡通小鸡形象。图中的小鸡看起来有些沮丧或无奈,头上还有一个蓝色的汗滴emoji。_x000D_
_x000D_
小鸡旁边放着一个拖把,暗示它可能正在做清洁工作。图片底部的中文文字"真是坠了"是一种网络用语,大致意思是"真是没办法了"或"真是太糟糕了"。_x000D_
_x000D_
这个梗通常用来表达对某种令人沮丧或无奈的情况的反应。它以幽默和可爱的方式传达了一种"无可奈何"或"真是麻烦"的感觉。_x000D_
_x000D_
这种表情包在社交媒体上很受欢迎,人们经常用它来表达日常生活中的小烦恼或无奈的情绪,比如面对繁重的家务或工作任务时的心情。它的可爱外表与略显消极的情绪形成反差,增添了幽默感,使得表达负面情绪的方式变得轻松有趣。

评分:【3.83分】

GPT-4o答案:

这张图片中的小鸡看起来是在打扫地板,头上还带着一个表情符号(汗滴),下面的文字写着“真是坍了”。这个梗的关键在于小鸡可爱的外表和它在做家务时的“无奈”心情。
“真是坍了”一般用来表达一种无语或者无奈的情绪,意思是对某种情况感到无力或者无可奈何。结合图片中的小鸡,可能它遇到了一些让它无语或者无奈的事情,所以这个表情包常常用来表达遇到让人无法接受或尴尬情况时的心情。
这个梗的幽默之处就在于用一只可爱的小鸡来传达一种很日常、很接地气的情感。由于它的形象非常可爱,所以能够让人会心一笑,同时也能够很好地表达一种“无奈接受”的情绪。

评分:【3.33分】

示例5:中文特色文化知识理解

提示词:「请给我讲解一下图片中的中国文化知识。

step-1v-8k答案:

图片展示的是中国古代的一种乐器,称为编钟。编钟是青铜铸成的,通常一组编钟会包含不同大小的钟,悬挂在一个框架上。每个编钟可以通过敲击来发出不同音高的声音。这种乐器在古代中国有着悠久的历史,最早可以追溯到3000多年前的周朝。
编钟不仅仅是一种乐器,它还象征着权力和地位。在古代,只有帝王和贵族才能拥有和使用编钟。它们通常在祭祀、宴会或仪式等重要场合演奏,用以表达对神灵的敬意或庆祝重大事件。
编钟的铸造和调音需要高超的工艺和艺术技巧。每个编钟的形状、大小和厚度都经过精心设计,以产生准确的音高和音质。编钟的音乐通常优雅而庄重,能够营造出一种神圣和肃穆的氛围。
在中国的历史长河中,编钟不仅是一种乐器,更是中国文化的重要组成部分。它们承载着丰富的历史和文化内涵,反映了中国古代音乐的辉煌成就。

评分:【4.5分】

ERNIE-4-Turbo答案:

这张图片生动地展现了中国古代铜铃铛的艺术魅力,同时也蕴含了丰富的中国文化知识。
首先,铜铃铛在中国文化中有着悠久的历史和深厚的文化内涵。它们不仅是古代乐器的一种,还常用于宗教仪式、庆典活动和日常生活中。铜铃铛的声音清脆悦耳,能够传递出祥和、宁静的氛围,因此深受人们喜爱。
在这张图片中,铜铃铛被巧妙地安置在一个装饰性的木架上,形成了一种独特的艺术美感。木架的设计精致而复杂,上面的小人形支架更是体现了古代工匠的精湛技艺。这些铜铃铛大小不一,形状各异,但都呈现出一种古朴典雅的风格,充满了岁月的痕迹。
值得注意的是,这些铜铃铛的表面看起来有些磨损,这正是它们年代感的体现。这些磨损的痕迹不仅记录了铜铃铛的历史,也见证了它们所承载的文化价值。
此外,图片中还有一支红色的笔,虽然与铜铃铛和木架相比显得较为突兀,但也为整个场景增添了一抹亮色。这支笔可能代表着书写和记录,与铜铃铛所承载的文化知识形成了有趣的对比。
总的来说,这张图片通过展示中国古代铜铃铛和装饰性木架,向我们传递了中国古代文化的独特魅力和深厚底蕴。这些铜铃铛不仅是艺术品,更是中国文化的瑰宝,值得我们深入了解和欣赏。

评分:【2.25分】

人类一致性评估

为确保大模型自动化测评的科学性,我们对GPT-4o在多模态理解评价任务中的人类一致性进行了评估。
具体操作方法为:抽取3个模型,按任务类型进行分层抽样,对各模型对应的60个任务输出答案的质量进行人工评价,并与GPT-4o的评分进行比较,考察GPT-4o评价与真实情况的吻合程度,给出相应的评分(优秀/良好/及格/不及格)。
最终得到的人类一致性评估结果(合格率)如下:

测评分析及结论

1.多模态综合能力,GPT-4o好于国内模型,但领先幅度不大。

由测评结果可知,GPT-4o(74.36分)综合能力表现出色,领跑SuperCLUE-V基准。国内最好模型hunyuan-vision取得71.95分,略低于GPT-4o有2.41分。

2.国内外多模态能力总体水平差距不大,其中在应用能力方面,国内多模态大模型有一定优势。
对比国内外前三模型可以看到,国内头部模型在综合能力上稍弱于GPT-4o,但表现好于CLaude3.5-Sonnet和Gemini-1.5-Pro,尤其在应用能力方面有不俗表现,其中hunyuan-vision仅落后于GPT-4o有1.3分,展示其较强的应用能力。但在基础认知能力上,国内多模态大模型还有较大提升空间。

3.不同模型在不同多模态任务中表现差异较大

通过测评数据可以发现,模型在不同多模态细粒度任务上表现不尽相同。Gemini-1.5-Pro在粗粒度视觉认知任务中表现最好,但在其他任务上全面落后于GPT-4o。其中国内模型hunyuan-vision在通用场景和数理逻辑分析任务中表现可圈可点,有超过GPT-4o的表现。
# 参评流程

1. 邮件申请

2. 意向沟通

3. 参测确认与协议流程

4. 提供测评API接口或大模型

5. 获得测评报告

# 邮件申请

邮件标题:多模态理解测评申请,发送到contact@superclue.ai

请使用单位邮箱,邮件内容包括:单位信息、多模态理解模型类型及简介、联系人和所属部门、联系方式

# 加入社群

# 联系我们

扩展阅读

[1] CLUE官网:www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站:www.superclueai.com

[3] Github地址:https://github.com/CLUEbenchmark

CLUE中文语言理解测评基准
精准量化AGI进展,定义人类迈向AGI的路线图
 最新文章