Qwen2-VL开源多模态最强?对比实测MiniCPM-V 2.6面壁小钢炮

文摘   2024-09-05 17:58   美国  



在开发AI应用时,要测试LLM在实际场景中的表现,以确定模型的能力边界。SOTA平台每周会更新热门模型如Llama3、DeepSeek、Yi等的测试案例,涵盖代码、逻辑推理、角色扮演和内容创作等场景,帮助大家了解模型在哪些方面表现出色,哪些方面还有改进空间。

我们也欢迎大家投稿分享自己场景的测试案例😉,投稿方式:文末添加助手,备注【实测投稿】。


今年,内外多模态开源模型的数量显著增加,涌现出诸如微软 Phi-3.5-vision、上海 AI Lab 的 InternVL、以及面壁智能的 MiniCPM 等多个新模型。这些模型在视觉理解、多模态推理等方面展现出强大的能力,推动了 AI 技术在多模态场景的应用

上周,阿里巴巴开源了 Qwen2-VL,该模型在图像理解方面的亮点是支持原生动态分辨率与上一代模型相比,它可以将不同大小的图片转换为动态数量的 tokens,最小只占 4 个 tokens。这种设计模拟了人类视觉感知的自然方式,确保了模型输入与图像原始信息之间的高度一致性。[1]

这次,Qwen2-VL系列开源了2B、7B参数模型,其中Qwen2-VL-7B 在 DocVQA 等文档理解任务中表现出色,并在 MTVQA 评估的图像多语言文本理解方面达到了当前的最佳性能(SOTA)。

下面我们将从视觉问答、图像描述、OCR 这三个场景来测试 Qwen2-VL-7B 的能力,并与面壁智能 MiniCPM-V-2.6 进行对比。


📃 实测总结

根据我们的实测结果,Qwen2-VL-7B 在 OCR 任务中的表现略优于 MiniCPM-V-2.6,体现在在识别内容的准确性和完整性方面更高些。相较之下,MiniCPM-V-2.6 在 OCR 任务中,在信息密集的情况下容易出现幻觉,导致输出与原图格式或内容不符的情况。

Qwen2-VL-7B 在识别细节上的优势,得益于其在本版本中支持原生动态分辨率。这确保了模型输入与图像原始信息之间的高度一致性,提升了识别精度。

MiniCPM-V-2.6在图像描述和复杂图像推理方面表现比Qwen2-VL-7B更佳。例如,它能够准确理解和解析多个路标的信息,从而实现更精准的指路。其在图像描述中的优异表现,可以与SD、FLUX等文生图模型结合,应用于反推提示词和模型训练标注等场景。

下面,将依次展示在视觉问答、图像描述和OCR任务上对各模型的实测表现。


🔮 视觉问答

在视觉问答任务中,我们用三个测例实测模型的表现:猫狗数数、路标指路、看图解方程。

示例1

input:图中有几只狗几只猫?

在猫狗数数示例中,准确率100%,两个模型都能够正确回答图中有3只狗2只猫。

Qwen2-VL-7B输出:

MiniCPM-V-2.6输出:

示例2

input:田林地道该怎么走?有什么注意事项吗?

在路标指示中,Qwen2-VL-7B回答错误,未能正确推理出目的地“田林地道”的行驶路线。相比之下,MiniCPM-V-2.6能够准确识别起始点,并清晰地指导如何根据指示牌进入田林地道。此外,MiniCPM-V-2.6还根据当前路况提供了详细的行驶注意事项。

Qwen2-VL-7B输出:

MiniCPM-V-2.6输出:

示例3

input:图中有例1、例2两个数学方程,求解例1、例2这两个方程

在数学解题中,两个模型都能清晰地列出步骤,并得到正确的答案。

Qwen2-VL-7B输出:

MiniCPM-V-2.6输出:


🗺️ 图像描述

利用多模态模型为图片生成高质量的文本描述,可以有效地用于SD文生图模型的数据标注场景。我们使用三张图分别测试了Qwen2-VL-7B和MiniCPM-V-2.6的表现。

根据结果显示,与Qwen2-VL-7B相比,MiniCPM-V-2.6在图像描述方面表现更出色,它不仅能从整体场景出发,还能详细说明图像的构成元素。这种细致入微的描述在搭配其他文生图模型进行提示词反推时,效果会更好。

示例1

input:描述下这张图片

Qwen2-VL-7B输出:

MiniCPM-V-2.6输出:

示例2

input:描述下这张图片

Qwen2-VL-7B输出:

MiniCPM-V-2.6输出:

示例3

input:描述下这张图片

Qwen2-VL-7B输出:

MiniCPM-V-2.6输出:


🧩OCR

在OCR任务中,我们的测试示例包括:识别图像信息并按JSON格式输出[2]、发票识别、文本表格混合识别。

根据测试结果,Qwen2-VL-7B在OCR任务中整体表现略优于MiniCPM-V-2.6。具体而言,Qwen2-VL-7B在内容的完整性和准确率上均表现更佳。而MiniCPM-V-2.6在识别过程中容易出现幻觉,导致会出现输出格式或内容与原图不符的情况。

示例1

input:请将展商目录中的展商信息按照JSON格式输出

识别展商信息并以JSON格式输出的示例中,从对比结果来看,Qwen2-VL-7B识别出的展商数量多于MiniCPM-V-2.6,但两者在识别完整性和准确性方面都存在不足。Qwen2-VL-7B识别出8个展商的信息,输出的结果如传真电话等字段值存在识别错误。MiniCPM-V-2.6识别出5个展商的信息,输出的展台标号与原图格式不一致,出现了幻觉。

Qwen2-VL-7B输出:

MiniCPM-V-2.6输出:

示例2

input:请识别以下图片中的文本内容

在本示例中,Qwen2-VL-7B的输出相比于MiniCPM-V-2.6更为完整、准确。MiniCPM-V-2.6在识别“纳税人识别号”这一栏时出现了幻觉,额外多出了几个数字。

Qwen2-VL-7B输出:

MiniCPM-V-2.6输出:

示例3

input:请识别以下图片中的文本内容

在文本和图表混合的识别示例中,Qwen2-VL-7B和MiniCPM-V-2.6都能够准确识别内容,但MiniCPM-V-2.6在表格单位识别上出现了错误,Qwen2-VL-7B虽然能够识别表格内容,但输出的格式不太友好。

Qwen2-VL-7B输出:

MiniCPM-V-2.6输出:

引用

[1]https://qwenlm.github.io/zh/blog/qwen2-vl/

[2]OCR案例来自:https://x.com/dotey/status/1830466575456989461

需求&反馈


SOTA!模型持续对主流的大模型进行实测,也欢迎老伙计们多多提供建议,一起完善~如果你有想关注的测试角度、刁钻的测试用例等,欢迎告诉我们~


机器之心SOTA模型
追踪 AI 开源进展,探索先进开发实践。
 最新文章