10月测评摘要
# 榜单概览
# SuperCLUE-V介绍
1)测评集构建
2)评分方法
3)评分标准
示例图片:
模型答案:
----逐项打分开始----
模型象限
为进一步体现多模态大模型所处的不同阶段与定位,我们通过模型在基础能力和应用能力上的不同表现,将其划分成4个模型象限。
其中【潜力探索者】代表模型正在技术探索阶段拥有较大潜力;【技术领跑者】代表模型聚焦基础技术研究;【实用主义者】代表模型在场景应用上处于领先定位;【卓越领导者】代表模型在基础和场景应用上处于领先位置,引领国内大模型发展。
# 模型对比案例
基础认知能力
示例1:细粒度视觉认知-文本理解
提示词:「请问图片中的产品保质期是几天?」
ChatGPT-4o-latest答案:
评分:【5分】
Step-1V-8K答案:
评分:【5分】
DeekSeek-VL-7b-chat答案:
评分:【2.5分】
示例2:细粒度视觉认知-特征定位
SenseChat-Vision 5.5答案:
评分:【4分】
MiniCPM-V2.6答案:
评分:【2.5分】
海螺AI答案:
根据你提供的描述,图片中只提到了一只黄色的鸭子玩具,并没有提到大小或数量。所以,无法确定图片中最大的一只小黄鸭的位置,因为没有关于大小或存在多只小黄鸭的信息。如果你能提供更多细节,比如小黄鸭的相对位置或大小比较,我或许能更好地帮助你。
评分:【1.5分】
hunyuan-vision答案:
图片展示了一对男女在黄昏时分的对话场景,背景是城市的景色。两人站在高处,似乎在俯瞰城市。对话的内容如下:
1. 第一张图片中,女性说:“假如我们今天错过了的话”,字幕显示为“If we miss each other today”。
2. 第二张图片中,男性回应道:“我们可能永远就错过了”,字幕显示为“Maybe we miss each other forever”。
3. 第三张图片中,女性说:“我不想”,字幕显示为“I don't want”。
从对话内容来看,这对男女似乎在表达他们对彼此的珍惜和不愿错过的心情。图片之间的关联是通过对话串联起来的,展示了两人情感交流的动态过程。
评分:【4分】
图片中是一对男女站在巴黎的楼顶上,背景是埃菲尔铁塔和巴黎的城市景观。三张图片是连续的电影画面,通过人物的对话和表情,表达了一种悲伤和无奈的情绪。
* **第一张图片:** 女主角说:“假如我们今天错过了的话”,英文翻译是 "If we miss each other today"。她面露悲伤,似乎预感着什么。
* **第二张图片:** 男主角接着说:“我们可能永远就错过了”,英文翻译是 "Maybe we miss each other forever"。他眉头紧锁,表情凝重。
* **第三张图片:** 女主角说:“我不想”,英文翻译是 "I don't want"。她眼含泪水,充满了不舍和绝望。
三张图片的对话和表情变化,暗示着这对恋人正面临着分离的困境,可能是因为误会、外力阻挠或者其他原因,他们不得不面对可能永远失去彼此的痛苦。图片中的埃菲尔铁塔,作为爱情的象征,更加衬托出两人情感的珍贵和失去的沉重。
评分:【4分】
示例4:数理逻辑分析-特征定位
SenseChat-Vision 5.5答案:
解析:本题为分组分类题目。元素组成不同,优先考虑属性规律。观察发现,图①③⑤中黑色扇形的圆心角均为90°,图②④⑥中黑色扇形的圆心角均为45°。即图①③⑤一组,图②④⑥一组。所以这道题的答案是D。
答案:D。
评分:【4.5分】
Qwen2-VL-72B答案:
故选:B.
评分:【2.5分】
Claude-3.5-Sonnet答案:
这个图片是一个有趣的互联网梗图,主题是关于周末的感受变化。
图片分为两部分:
左侧: 显示一个绿色巨人(浩克)愤怒咆哮的画面,配文是"谁也别想叫醒我!"。这代表了人们在周末想要尽情休息,不愿被打扰的心情。
右侧: 显示同一角色但表情变得困惑和无奈,配文是"7:30自然醒"。这表达了即使在周末,很多人也会因为生物钟的作用而早早醒来,无法如愿睡个懒觉的无奈。
顶部的"周末"标题点明了这个梗的主题。
这个梗以幽默的方式呈现了许多人在周末经历的矛盾心理:想要睡懒觉,但却常常不自觉地早醒。它反映了现代生活中工作日作息习惯对周末休息的影响,引起了很多人的共鸣。
评分:【3.67分】
Step-1V-8k答案:
这张图片是一张搞笑的对比图,使用了绿巨人(Hulk)的表情来表达周末起床的两种状态。
左边的图片配文是“谁也别想叫醒我!”,显示了绿巨人在愤怒中大吼的表情,表示在周末谁也不要试图叫醒自己,强调了周末想睡懒觉的愿望。
右边的图片配文是“7:30自然醒”,显示了绿巨人一脸无奈的表情,表示尽管想睡懒觉,但还是在早上7:30就自然醒了。
这种对比图通过幽默的方式展示了人们在周末想睡懒觉但又早醒的普遍经历,用绿巨人的表情来增加搞笑效果。
评分:【4分】
Phi-3.5-vision-Instruct答案:
这是一个关于人们在早上7:30到8:00之间的笑话。在这个时间段内,人们可能会感到疲劳,但又有些人会很兴奋,因为这是他们的工作日。这个笑话通过将两个不同的人物(一个充沛的人和一个笑着的人)放在一起来展示这种情况,并且通过标签“*周末”和“早上7:30到8:00”来指示这个时间段。
评分:【2.33分】
ERNIE-4-Turbo答案:
图片中展示的是一道源自东北地区的传统小吃——驴打滚,也亲切地被称为豆面卷子。这道美食以豆沙和糯米为主要原料,经过精心制作后,外层均匀地裹满了细腻的黄豆粉,呈现出诱人的金黄色泽。其独特的红白相间螺旋状图案,不仅美观大方,更增添了食用的趣味性。
驴打滚的口感软糯,香甜可口,每一口都是对味蕾的极致诱惑。外层的黄豆粉与内里的豆沙馅完美融合,既保留了豆类的醇香,又增添了糯米的软糯,让人回味无穷。而它之所以得名“驴打滚”,则是因为外层所撒的黄豆面在滚动时,仿佛老驴撒尿时扬起的阵阵粉雾,这一形象生动的比喻,也让这道小吃更加深入人心。
总之,驴打滚不仅是一道美味的传统小吃,更是东北地区饮食文化的重要代表之一,值得每一位食客细细品味。
评分:【4.25分】
Yi-Vision答案:
这张图片显示了一排整齐排列的圆柱形糕点,放在一个白色盘子上。每个糕点都有一层薄而均匀的淡黄色外层,上面轻轻撒着一层金黄色的粉末,可能是糖或类似的调味品。从垂直方向切开,可以看到这些糕点的螺旋形馅料,其中填充物呈现出红棕色的色调,这可能表明馅料中含有果酱或类似的甜酱。馅料质地光滑,暗示它是经过充分搅拌或煮沸的。糕点看起来是新鲜制作的,因为外壳酥脆,馅料看起来湿润有光泽。背景是中性的,没有提供额外的上下文或信息。
评分:【2.5分】
SenseChat-Vision 5.5答案:
好的,我来帮你分析一下这条代码。
在图片中的代码中,`f[i][j] = min(f[i - 1][j - 1], f[i - 1][j]) + triangle[i][j]` 这条语句是动态规划算法的一部分。具体来说,它用于计算从三角形的顶部到底部的最小路径和。
让我们一步一步地理解这条代码:
1. **变量定义**:
- `f` 是一个二维数组,用于存储从三角形顶部到当前点 `(i, j)` 的最小路径和。
- `triangle` 是输入的三角形数组,其中 `triangle[i][j]` 表示三角形第 `i` 行第 `j` 列的值。
2. **状态转移方程**:
- `f[i][j]` 表示从三角形顶部到底部经过点 `(i, j)` 的最小路径和。
- `f[i - 1][j - 1]` 和 `f[i - 1][j]` 分别表示从上一行的两个可能的前驱节点 `(i-1, j-1)` 和 `(i-1, j)` 到达当前节点 `(i, j)` 的路径和。
3. **状态转移过程**:
- `min(f[i - 1][j - 1], f[i - 1][j])` 计算从上一行到达当前节点 `(i, j)` 的最小路径和。
- `+ triangle[i][j]` 将当前节点的值加到这个最小路径和上,得到从三角形顶部到底部经过点 `(i, j)` 的最小路径和。
4. **最终结果**:
- 最后一行 `return min(f[n - 1])` 返回最后一行中所有节点的最小路径和,即从三角形顶部到底部的最小路径和。
通过这种方式,动态规划算法有效地解决了这个问题,确保我们找到从三角形顶部到底部的最小路径和。
评分:【4分】
DeekSeek-VL-7b-chat答案:
图片中展示的代码是一个递归函数,用于计算一个特定问题的一个解,这个问题涉及到一个列表`List[int]`,其中每个元素代表一个点,而列表中的每个点都代表一个三角形的顶点。函数的目标是找到一个最小三角形,这个三角形的顶点在列表中按照从左到右的顺序排列。
函数`f[i][j]`代表第`i`行第`j`列的点,其中`i`和`j`是列表中的索引。函数首先检查`f[i - 1][j - 1]`和`f[i - 1][j]`中的较小值,这是当前点与前一个点之间的距离。然后,它将这个距离加上当前点的三角形面积,这个面积是通过将当前点与列表中的前一个点和后一个点相加得到的。
这个函数递归地应用,从左到右,从上到下,直到找到列表中的第一个点,此时函数返回列表中的第一个点的最小距离,即列表中的第一个点与自身之间的距离。
这个函数是`Solution`类的一部分,`Solution`类有一个名为`minimumTotal`的静态方法,它调用这个函数来找到列表中的最小三角形。
总的来说,这个函数通过递归地比较当前点和前一个点的距离,以及前一个点和后一个点的距离,来找到列表中的最小三角形。每次比较都考虑了当前点的三角形面积,从而确保找到的是列表中的最小三角形。
评分:【2分】
hunyuan-vision答案:
这张图片展示了中国传统文化中的一种艺术形式——脸谱绘画。脸谱是中国戏剧,尤其是京剧中的重要组成部分,用于表现角色的性格、身份和情感。
1. **脸谱**:脸谱是通过在演员脸上绘制特定的图案和颜色来代表不同的角色。不同颜色和图案有特定的象征意义。例如,红色通常代表忠诚和勇敢,黑色代表刚正不阿,白色则可能代表奸诈或阴险。
2. **京剧**:京剧是中国的国粹,起源于清朝,融合了多种地方戏曲的特点。京剧演员通过唱、念、做、打四种基本功来表演,脸谱则是其中视觉表现力的一部分。
3. **传统文化**:脸谱绘画不仅是一种艺术形式,更是中国传统文化的重要组成部分,体现了中国人对美的追求和对历史的传承。
4. **手工艺**:图片中展示的绘制过程也体现了中国传统手工艺的精细和讲究,艺术家需要具备高超的绘画技巧和丰富的想象力。
通过这张图片,我们可以感受到中国传统文化的博大精深和独特魅力。
评分:【4分】
Qwen2-VL-72B答案:
图片中的中国元素主要体现在京剧脸谱上。京剧脸谱是中国传统戏曲中的一种独特艺术形式,通过不同的颜色和图案来表现角色的性格和身份。在这张图片中,我们可以看到一个人正在画京剧脸谱,这体现了中国传统文化的传承和创新。
评分:【3.5分】
Phi-3.5-vision-Instruct答案:
这个图片中的中国元素是戏剧表演者在面部上涂上戏剧特有的 makeup。这种 makeup 通常包括粗糙的线条、鲜红色的眼睛和粉红色的口腔,以表现角色的特征和情感。
评分:【2.75分】
# 人类一致性评估
模型1:97.50%
模型2:96.67%
模型3:97.50%
模型4:95.83%
# 测评分析及结论
由测评结果可知,ChatGPT-4o-latest(77.81分)综合能力表现出色,领跑SuperCLUE-V基准。较GPT-4o-0513高2.69分,较国内最好模型高3.83分。
3.不同模型在不同多模态任务中表现差异较大
通过测评数据可以发现,模型在不同多模态细粒度任务上表现不尽相同。ChatGPT-4o-latest在在粗粒度视觉认知、多模态多轮问答、图像OCR识别与理解、通用场景等方面具备领先优势;Step-1V-8k和Qwen2-VL-72B在细粒度视觉认知任务如特征定位、对象计数方面表现优异;SenseChat-Vision 5.5更为擅长数理逻辑推理任务如图表推理、场景推理;hunyuan-vision在中文元素理解和推理任务中表现可圈可点,有超过GPT-4o的表现。
为了更全面综合评估中文多模态大模型的阶段性进展,SuperCLUE团队即将发布《2024年度中文多模态大模型进展评估报告》。现邀请各厂商参与多模态基准年度测评,并征集优秀多模态大模型和优秀应用案例。
年度报告发布时间:2024年12月18日。
参与流程
1. 邮件申请
2. 意向沟通
3. 参测确认与协议流程
4. 提供测评API接口或大模型
5. 公开测评报告
# 邮件申请
邮件标题:多模态理解年度测评申请,发送到contact@superclue.ai
请使用单位邮箱,邮件内容包括:单位信息、多模态理解模型类型及简介、联系人和所属部门、联系方式
# 联系我们
扩展阅读
[1] CLUE官网:www.CLUEBenchmarks.com
[2] SuperCLUE排行榜网站:www.superclueai.com
[3] Github地址:https://github.com/CLUEbenchmark