中文多模态大模型基准10月榜单发布!Top3国产大模型表现亮眼,8大维度30大任务17大模型

文摘   科技   2024-10-12 15:13   浙江  

自2024年以来,AI大模型技术和应用逐渐从文本扩展至更多模态。随着OpenAI发布GPT-4系列多模态版本,掀起了国内外多模态理解大模型的研发热潮和广泛应用。


SuperCLUE团队已于2024年8月2日发布首期多模态测评基准8月榜单,受到了中文技术社区的广泛关注和反馈。为了进一步全面的实时跟进国内外多模态大模型的阶段性进展,我们正式发布了10月中文多模态理解测评基准SuperCLUE-V报告。

10月测评摘要


测评要点1:ChatGPT-4o-latest在综合能力上领跑
ChatGPT-4o-latest取得77.81分,领跑多模态基准。其中多模态应用能力上有超过80分的表现,展现出较强的场景适配性和落地能力。

测评要点2:国内多模态大模型在部分细分任务上具备领先优势
Step-1V-8k在细粒度视觉认知任务如特征定位、对象计数方面表现优异;hunyuan-vision在中文元素理解和推理任务中表现可圈可点,有超过GPT-4o的表现。SenseChat-Vision 5.5在数理逻辑推理任务如图表推理、场景推理方面具备领先优势。

测评要点3:国内大模型的基础多模态认知能力仍需提升
在基础能力方面国内大模型较海外模型仍有一定差距,国内外头部多模态大模型在基础认知能力方面相差2.47分。



# 榜单概览

榜单地址:www.superclueai.com
详情请查看下方#正文。

# SuperCLUE-V介绍

SuperCLUE-V是中文多模态理解大模型综合性测评基准,旨在为中文领域提供一个多模态大模型多维度能力评估参考。
测评体系
SuperCLUE-V基准包括基础能力和应用能力两个大方向,以开放式问题形式对多模态大模型进行评估,涵盖了8个一级维度30个二级维度。

测评方法
参考SuperCLUE细粒度评估方式,构建专用测评集,每个维度进行细粒度的评估并可以提供详细的反馈信息。

1)测评集构建

中文prompt构建流程:1.参考现有prompt--->2.中文prompt撰写--->3.测试--->4.修改并确定中文prompt;针对每一个维度构建专用的测评集。

2)评分方法

评估流程开始于模型与数据集的交互,模型需要基于提供的多模态信息进行理解和回应。
评估标准涵盖了理解准确性、回应相关性和推理深度等维度。
打分规则结合了自动化定量评分与专家复核,高效评分的同时,确保评估的科学性和公正性。

3)评分标准

SuperCLUE-V根据不同测评任务采用多样性的测评标准。根据模型在不同标准上的表现情况,GPT-4o打分1-5分,综合各个标准的得分得到平均分。

详见下方#示例。
测评示例

示例图片:

Prompt:请描述一下图片中的内容,并分析图片之间的关联。

模型答案:

这三张图片展示了一个对话场景,分别描述了两位女性之间的交流。
**第一张图片**:一位年长的女性看向对方,语气似乎比较严肃,画面下方的字幕是“你这么闹到底因啥”。她似乎在质问另外一位女性的行为或者决定,表情中带有一些困惑和不满。
**第二张图片**:年轻的女性穿着红色上衣,看似在反驳。她的表情较为坚定,显示出她对之前问题的态度。字幕显示:“我就围分辨个好坏对错,如果连好坏对错的理都不讲了,那人活着还是人吗”,表示她认为需要为正确的事情站立辩护。
**第三张图片**:这位年轻女性似乎态度依旧坚定。她换了姿态或者位置,表情依然很认真,继续表达自己的观点,字幕内容是“我觉得凡事都得讲个理,不能欺负人”,进一步表达了对正义和公平的追求。
**图片之间的关联**:这三张图片反映的是一段连续对话的不同部分,两位女性似乎在讨论某种争端或者观念冲突。年长女性的质问引发了年轻女性的回应,后者反复强调要坚持原则、区分对错、讲究公平,不容忍不公欺压。整体看来,年轻女性的立场坚定,她认为任何事都应该遵循道理,不可以纵容错误。
超级模型(GPT-4o)裁判:

----逐项打分开始----

1. 基于标准1的<回答正确>:
模型的回答大致正确,但在解读情绪和细节上存在一些微小偏差。基于标准1的得分:4分。
2. 基于标准2的<答案清晰度>:
模型回答逻辑顺畅,语言通顺,但可以更加简洁精炼。基于标准2的得分:4分。
3. 基于标准3的<描述准确性>:
模型能够识别和描述图像中的主要元素和细节,但情绪描述稍显偏差。基于标准3的得分:4分。
4. 基于标准4的<组合图片理解准确性>:
模型回答能识别图片之间的关联,并捕捉到主题,但对深层次的关联分析不足。基于标准4的得分:3分。
综合以上,AI助手的回答的综合得分(平均分)为[[3.75]]
----逐项打分结束----

# 参评模型
为综合衡量当前国内外多模态大模型发展水平,本次测评选取了6个海外模型和11个国内代表性多模态模型。其中为进一步评估开源和闭源的不同进展,本次参评模型包括5个开源模型、12个闭源模型。

测评结果
总榜单

模型象限

为进一步体现多模态大模型所处的不同阶段与定位,我们通过模型在基础能力和应用能力上的不同表现,将其划分成4个模型象限。

其中【潜力探索者】代表模型正在技术探索阶段拥有较大潜力;【技术领跑者】代表模型聚焦基础技术研究;【实用主义者】代表模型在场景应用上处于领先定位;【卓越领导者】代表模型在基础和场景应用上处于领先位置,引领国内大模型发展。

基础能力榜单

应用能力榜单

八大能力榜单

为更好的对比国内外代表性多模态模型的多维度能力,我们形成了10月多模态理解基准能力雷达分布图。

# 模型对比案例

基础认知能力

示例1:细粒度视觉认知-文本理解

提示词:「请问图片中的产品保质期是几天?

ChatGPT-4o-latest答案:

根据图片中的信息,这款产品的保质期是 **3天**。

评分:【5分】

Step-1V-8K答案:

图片中的产品保质期是3天。

评分:【5分】

DeekSeek-VL-7b-chat答案:

图片中的产品保质期是7天。这个信息可以从图片中“有效期至”这个日期栏中看出,日期栏下方清晰地标注着“7天”,表示该产品的保质期为7天。

评分:【2.5分】

示例2:细粒度视觉认知-特征定位

提示词:「图片中最大的一只小黄鸭在什么位置?

SenseChat-Vision 5.5答案:

图片中最大的一只小黄鸭位于左下角,靠近棕色的小熊玩具。


评分:【4分】

MiniCPM-V2.6答案:

图片中最大的一只小黄鸭位于熊的右侧,躺在地上。它在前景中,靠近观众的位置,是图片中其他玩具中的焦点之一。


评分:【2.5分】

海螺AI答案:

根据你提供的描述,图片中只提到了一只黄色的鸭子玩具,并没有提到大小或数量。所以,无法确定图片中最大的一只小黄鸭的位置,因为没有关于大小或存在多只小黄鸭的信息。如果你能提供更多细节,比如小黄鸭的相对位置或大小比较,我或许能更好地帮助你。


评分:【1.5分】

示例3:粗粒度视觉认知-组合图片分析
提示词:「请描述一下图片中的内容,并分析图片之间的关联。

hunyuan-vision答案:

图片展示了一对男女在黄昏时分的对话场景,背景是城市的景色。两人站在高处,似乎在俯瞰城市。对话的内容如下:

1. 第一张图片中,女性说:“假如我们今天错过了的话”,字幕显示为“If we miss each other today”。

2. 第二张图片中,男性回应道:“我们可能永远就错过了”,字幕显示为“Maybe we miss each other forever”。

3. 第三张图片中,女性说:“我不想”,字幕显示为“I don't want”。

从对话内容来看,这对男女似乎在表达他们对彼此的珍惜和不愿错过的心情。图片之间的关联是通过对话串联起来的,展示了两人情感交流的动态过程。


评分:【4分】

Gemini-1.5-Pro答案:

图片中是一对男女站在巴黎的楼顶上,背景是埃菲尔铁塔和巴黎的城市景观。三张图片是连续的电影画面,通过人物的对话和表情,表达了一种悲伤和无奈的情绪。

* **第一张图片:** 女主角说:“假如我们今天错过了的话”,英文翻译是 "If we miss each other today"。她面露悲伤,似乎预感着什么。

* **第二张图片:** 男主角接着说:“我们可能永远就错过了”,英文翻译是 "Maybe we miss each other forever"。他眉头紧锁,表情凝重。

* **第三张图片:**  女主角说:“我不想”,英文翻译是 "I don't want"。她眼含泪水,充满了不舍和绝望。

三张图片的对话和表情变化,暗示着这对恋人正面临着分离的困境,可能是因为误会、外力阻挠或者其他原因,他们不得不面对可能永远失去彼此的痛苦。图片中的埃菲尔铁塔,作为爱情的象征,更加衬托出两人情感的珍贵和失去的沉重。


评分:【4分】

示例4:数理逻辑分析-特征定位

提示词:「把图片中的六个图形分为两类,使每一类图形都有各自的共同特征或规律,分类正确的是哪一个选项?

SenseChat-Vision 5.5答案:

解析:本题为分组分类题目。元素组成不同,优先考虑属性规律。观察发现,图①③⑤中黑色扇形的圆心角均为90°,图②④⑥中黑色扇形的圆心角均为45°。即图①③⑤一组,图②④⑥一组。所以这道题的答案是D。

答案:D。


评分:【4.5分】

Qwen2-VL-72B答案:

根据图形中阴影部分的分布特征分类即可.解:根据图形中阴影部分的分布特征可知,图①③⑥中,阴影部分都分布在圆的上半部分;图②④⑤中,阴影部分都分布在圆的下半部分.

故选:B.


评分:【2.5分】

应用能力
示例5:通用场景-笑话与互联网meme

提示词:「解释一下这是什么梗。

Claude-3.5-Sonnet答案:

这个图片是一个有趣的互联网梗图,主题是关于周末的感受变化。

图片分为两部分:

左侧: 显示一个绿色巨人(浩克)愤怒咆哮的画面,配文是"谁也别想叫醒我!"。这代表了人们在周末想要尽情休息,不愿被打扰的心情。

右侧: 显示同一角色但表情变得困惑和无奈,配文是"7:30自然醒"。这表达了即使在周末,很多人也会因为生物钟的作用而早早醒来,无法如愿睡个懒觉的无奈。

顶部的"周末"标题点明了这个梗的主题。

这个梗以幽默的方式呈现了许多人在周末经历的矛盾心理:想要睡懒觉,但却常常不自觉地早醒。它反映了现代生活中工作日作息习惯对周末休息的影响,引起了很多人的共鸣。

评分:【3.67分】

Step-1V-8k答案:

这张图片是一张搞笑的对比图,使用了绿巨人(Hulk)的表情来表达周末起床的两种状态。

左边的图片配文是“谁也别想叫醒我!”,显示了绿巨人在愤怒中大吼的表情,表示在周末谁也不要试图叫醒自己,强调了周末想睡懒觉的愿望。

右边的图片配文是“7:30自然醒”,显示了绿巨人一脸无奈的表情,表示尽管想睡懒觉,但还是在早上7:30就自然醒了。

这种对比图通过幽默的方式展示了人们在周末想睡懒觉但又早醒的普遍经历,用绿巨人的表情来增加搞笑效果。

评分:【4分】

Phi-3.5-vision-Instruct答案:

这是一个关于人们在早上7:30到8:00之间的笑话。在这个时间段内,人们可能会感到疲劳,但又有些人会很兴奋,因为这是他们的工作日。这个笑话通过将两个不同的人物(一个充沛的人和一个笑着的人)放在一起来展示这种情况,并且通过标签“*周末”和“早上7:30到8:00”来指示这个时间段。

评分:【2.33分】

示例6:常识问答-食物识别

提示词:「介绍一下图片中的食物。

ERNIE-4-Turbo答案:

图片中展示的是一道源自东北地区的传统小吃——驴打滚,也亲切地被称为豆面卷子。这道美食以豆沙和糯米为主要原料,经过精心制作后,外层均匀地裹满了细腻的黄豆粉,呈现出诱人的金黄色泽。其独特的红白相间螺旋状图案,不仅美观大方,更增添了食用的趣味性。

驴打滚的口感软糯,香甜可口,每一口都是对味蕾的极致诱惑。外层的黄豆粉与内里的豆沙馅完美融合,既保留了豆类的醇香,又增添了糯米的软糯,让人回味无穷。而它之所以得名“驴打滚”,则是因为外层所撒的黄豆面在滚动时,仿佛老驴撒尿时扬起的阵阵粉雾,这一形象生动的比喻,也让这道小吃更加深入人心。

总之,驴打滚不仅是一道美味的传统小吃,更是东北地区饮食文化的重要代表之一,值得每一位食客细细品味。

评分:【4.25分】

Yi-Vision答案:

这张图片显示了一排整齐排列的圆柱形糕点,放在一个白色盘子上。每个糕点都有一层薄而均匀的淡黄色外层,上面轻轻撒着一层金黄色的粉末,可能是糖或类似的调味品。从垂直方向切开,可以看到这些糕点的螺旋形馅料,其中填充物呈现出红棕色的色调,这可能表明馅料中含有果酱或类似的甜酱。馅料质地光滑,暗示它是经过充分搅拌或煮沸的。糕点看起来是新鲜制作的,因为外壳酥脆,馅料看起来湿润有光泽。背景是中性的,没有提供额外的上下文或信息。

评分:【2.5分】

示例7:图像OCR识别与理解-代码识别

提示词:「请帮我分析一下图片中`f[i][j] = min(f[i - 1][j - 1], f[i - 1][j]) + triangle[i][j]`这条代码怎么理解?

SenseChat-Vision 5.5答案:

好的,我来帮你分析一下这条代码。

在图片中的代码中,`f[i][j] = min(f[i - 1][j - 1], f[i - 1][j]) + triangle[i][j]` 这条语句是动态规划算法的一部分。具体来说,它用于计算从三角形的顶部到底部的最小路径和。

让我们一步一步地理解这条代码:

1. **变量定义**:

  - `f` 是一个二维数组,用于存储从三角形顶部到当前点 `(i, j)` 的最小路径和。

  - `triangle` 是输入的三角形数组,其中 `triangle[i][j]` 表示三角形第 `i` 行第 `j` 列的值。

2. **状态转移方程**:

  - `f[i][j]` 表示从三角形顶部到底部经过点 `(i, j)` 的最小路径和。

  - `f[i - 1][j - 1]` 和 `f[i - 1][j]` 分别表示从上一行的两个可能的前驱节点 `(i-1, j-1)` 和 `(i-1, j)` 到达当前节点 `(i, j)` 的路径和。

3. **状态转移过程**:

  - `min(f[i - 1][j - 1], f[i - 1][j])` 计算从上一行到达当前节点 `(i, j)` 的最小路径和。

  - `+ triangle[i][j]` 将当前节点的值加到这个最小路径和上,得到从三角形顶部到底部经过点 `(i, j)` 的最小路径和。

4. **最终结果**:

  - 最后一行 `return min(f[n - 1])` 返回最后一行中所有节点的最小路径和,即从三角形顶部到底部的最小路径和。

通过这种方式,动态规划算法有效地解决了这个问题,确保我们找到从三角形顶部到底部的最小路径和。


评分:【4分】

DeekSeek-VL-7b-chat答案:

图片中展示的代码是一个递归函数,用于计算一个特定问题的一个解,这个问题涉及到一个列表`List[int]`,其中每个元素代表一个点,而列表中的每个点都代表一个三角形的顶点。函数的目标是找到一个最小三角形,这个三角形的顶点在列表中按照从左到右的顺序排列。

函数`f[i][j]`代表第`i`行第`j`列的点,其中`i`和`j`是列表中的索引。函数首先检查`f[i - 1][j - 1]`和`f[i - 1][j]`中的较小值,这是当前点与前一个点之间的距离。然后,它将这个距离加上当前点的三角形面积,这个面积是通过将当前点与列表中的前一个点和后一个点相加得到的。

这个函数递归地应用,从左到右,从上到下,直到找到列表中的第一个点,此时函数返回列表中的第一个点的最小距离,即列表中的第一个点与自身之间的距离。

这个函数是`Solution`类的一部分,`Solution`类有一个名为`minimumTotal`的静态方法,它调用这个函数来找到列表中的最小三角形。

总的来说,这个函数通过递归地比较当前点和前一个点的距离,以及前一个点和后一个点的距离,来找到列表中的最小三角形。每次比较都考虑了当前点的三角形面积,从而确保找到的是列表中的最小三角形。


评分:【2分】

示例8:中文元素理解和推理

提示词:「请简单介绍一下图片中的中国元素。

hunyuan-vision答案:

这张图片展示了中国传统文化中的一种艺术形式——脸谱绘画。脸谱是中国戏剧,尤其是京剧中的重要组成部分,用于表现角色的性格、身份和情感。

1. **脸谱**:脸谱是通过在演员脸上绘制特定的图案和颜色来代表不同的角色。不同颜色和图案有特定的象征意义。例如,红色通常代表忠诚和勇敢,黑色代表刚正不阿,白色则可能代表奸诈或阴险。

2. **京剧**:京剧是中国的国粹,起源于清朝,融合了多种地方戏曲的特点。京剧演员通过唱、念、做、打四种基本功来表演,脸谱则是其中视觉表现力的一部分。

3. **传统文化**:脸谱绘画不仅是一种艺术形式,更是中国传统文化的重要组成部分,体现了中国人对美的追求和对历史的传承。

4. **手工艺**:图片中展示的绘制过程也体现了中国传统手工艺的精细和讲究,艺术家需要具备高超的绘画技巧和丰富的想象力。

通过这张图片,我们可以感受到中国传统文化的博大精深和独特魅力。


评分:【4分】

Qwen2-VL-72B答案:

图片中的中国元素主要体现在京剧脸谱上。京剧脸谱是中国传统戏曲中的一种独特艺术形式,通过不同的颜色和图案来表现角色的性格和身份。在这张图片中,我们可以看到一个人正在画京剧脸谱,这体现了中国传统文化的传承和创新。

评分:【3.5分】

Phi-3.5-vision-Instruct答案:

这个图片中的中国元素是戏剧表演者在面部上涂上戏剧特有的 makeup。这种 makeup 通常包括粗糙的线条、鲜红色的眼睛和粉红色的口腔,以表现角色的特征和情感。

评分:【2.75分】

人类一致性评估

为确保大模型自动化测评的科学性,我们对GPT-4o在多模态理解评价任务中的人类一致性进行了评估。
具体操作方法为:抽取4个模型,按任务类型进行分层抽样,对各模型对应的120个任务输出答案的质量进行人工评价,并与GPT-4o的评分进行比较,考察GPT-4o评价与真实情况的吻合程度,给出相应的评分(优秀/良好/及格/不及格)。
最终得到的人类一致性评估结果(合格率)如下:
  • 模型1:97.50%

  • 模型2:96.67%

  • 模型3:97.50%

  • 模型4:95.83%
平均合格率为:96.87%。因为本次自动化评价有较高可靠性。

测评分析及结论

1.多模态综合能力,ChatGPT-4o-latest保持领先。

由测评结果可知,ChatGPT-4o-latest(77.81分)综合能力表现出色,领跑SuperCLUE-V基准。较GPT-4o-0513高2.69分,较国内最好模型高3.83分。

2.国内多模态大模型在基础认知能力上尚有一定提升空间,在应用能力方面表现不俗。
国多模态大模型在基础认知能力方面,还有一定提升空间。在多模态应用能力方面有一定落地优势。

3.不同模型在不同多模态任务中表现差异较大

通过测评数据可以发现,模型在不同多模态细粒度任务上表现不尽相同。ChatGPT-4o-latest在在粗粒度视觉认知、多模态多轮问答、图像OCR识别与理解、通用场景等方面具备领先优势;Step-1V-8k和Qwen2-VL-72B在细粒度视觉认知任务如特征定位、对象计数方面表现优异;SenseChat-Vision 5.5更为擅长数理逻辑推理任务如图表推理、场景推理;hunyuan-vision在中文元素理解和推理任务中表现可圈可点,有超过GPT-4o的表现。

# 年度报告征集

为了更全面综合评估中文多模态大模型的阶段性进展,SuperCLUE团队即将发布《2024年度中文多模态大模型进展评估报告》。现邀请各厂商参与多模态基准年度测评,并征集优秀多模态大模型和优秀应用案例。

年度报告发布时间:2024年12月18日。

参与流程

1. 邮件申请

2. 意向沟通

3. 参测确认与协议流程

4. 提供测评API接口或大模型

5. 公开测评报告

# 邮件申请

邮件标题:多模态理解年度测评申请,发送到contact@superclue.ai

请使用单位邮箱,邮件内容包括:单位信息、多模态理解模型类型及简介、联系人和所属部门、联系方式

# 加入社群

# 联系我们

扩展阅读

[1] CLUE官网:www.CLUEBenchmarks.com

[2] SuperCLUE排行榜网站:www.superclueai.com

[3] Github地址:https://github.com/CLUEbenchmark

CLUE中文语言理解测评基准
精准量化AGI进展,定义人类迈向AGI的路线图
 最新文章