MiniCPM-V：GPT-4V 级的多模态大语言模型

文摘 2024-08-11 12:00 浙江

想要在手机上体验强大的 GPT-4V？MiniCPM-V 系列模型来了！这些高效的多模态大语言模型 (MLLM)，不仅性能直逼 GPT-4V，还能在移动设备等终端设备上流畅运行，为 AI 应用打开了无限可能。

终端 MLLM 的崛起：MiniCPM-V 系列

多模态大语言模型 (MLLM) 作为 AI 领域的明日之星，能够理解和处理文本、图像、视频等多种信息，并生成流畅的语言输出。然而，现有 MLLM 庞大的体积和计算量，使其只能部署在高性能云服务器上，限制了其应用范围。

MiniCPM-V 系列模型打破了这一限制，它专为终端设备设计，在性能和效率之间取得完美平衡。自 2024 年 2 月发布以来，该系列已经历了三次迭代：

• MiniCPM-V 1.0（2B 参数）： 终端 MLLM 的先驱，为移动设备带来了强大的多模态能力。
• MiniCPM-V 2.0（2B 参数）： 性能超越 Qwen-VL 9B、CogVLM 17B 和 Yi-VL 34B 等更大规模的模型，并支持高分辨率图像输入和任意纵横比。
• MiniCPM-Llama3-V 2.5（8B 参数）： 在 OpenCompass 评估中超越 GPT-4V-1106、Gemini Pro 和 Claude 3，并在 OCR、多语言支持和可信赖性方面表现出色，支持多轮对话和上下文学习。

MiniCPM-V 的关键技术

MiniCPM-V 系列模型的成功，离不开其背后强大的技术支持，这些技术使得 MiniCPM-V 能够在保持强大性能的同时，实现高效的终端部署。

领先的性能： MiniCPM-Llama3-V 2.5 在 OpenCompass 评估中取得了领先的性能，超越了 GPT-4V-1106、Gemini Pro 和 Claude 3 等强大的模型，这得益于其架构、数据和训练策略的精心设计。OpenCompass 是一套全面的评估指标，涵盖了 11 个主流多模态基准测试，例如 MME、MM-Bench、MMMU、MathVista 和 LLaVA Bench 等。MiniCPM-V 2.0 (2B 参数) 也在性能上显著优于其他 2B~3B 的模型，甚至可以与基于 Llama3 的 8B MLLM 相媲美。

强大的 OCR 能力： MiniCPM-Llama3-V 2.5 能够准确地识别图像中的文字，其 OCR 能力超越了 1.7B~34B 范围内的开源 MLLM，甚至与 GPT-4V-1106 和 Gemini Pro 等专有模型的性能相当。MiniCPM-V 2.6 更是支持高达 180 万像素的高分辨率图像输入和任意纵横比，进一步提升了 OCR 性能。

可信赖的行为： MiniCPM-V 系列模型采用了 RLAIF-V 和 RLHF-V 技术，通过从 AI/ 人类反馈中进行行为对齐，有效降低了幻觉率，提高了模型的可信赖性。MiniCPM-Llama3-V 2.5 在 Object HalBench 上实现了比 GPT-4V-1106 更低的幻觉率，表明其在现实世界应用中具有更高的可靠性。

多语言支持： MiniCPM-V 系列模型利用 VisCPM 的多语言泛化技术，将其多模态能力扩展到 30 多种语言，打破了语言的壁垒。VisCPM 提出了一种跨语言零样本多模态学习方法，利用强大的多语言 LLM 作为枢纽，将多模态能力有效地泛化到不同的语言。

高效的终端部署： 为了实现在终端设备上的高效部署，MiniCPM-V 系列模型系统地采用了一系列优化技术，包括模型量化、内存使用优化、编译优化、配置优化和 NPU 加速等。这些技术有效地降低了模型的内存占用和计算量，提高了模型的推理速度和效率，使其能够在资源有限的终端设备上流畅运行。

MiniCPM-V 性能表现如何？

MiniCPM-V 系列模型在多个基准测试中展现出强大的性能：

OpenCompass 评估： MiniCPM-Llama3-V 2.5 在 OpenCompass 评估中取得了领先的性能，超越了 GPT-4V-1106、Gemini Pro 和 Claude 3 等强大的模型。MiniCPM-V 2.6 更是超越了 GPT-4V，在单张图片、多张图片和视频理解方面都取得了更好的成绩。

OCR 基准测试： MiniCPM-Llama3-V 2.5 在 OCRBench、TextVQA 和 DocVQA 上超越了所有开源 MLLM，甚至与 GPT-4V-1106 和 Gemini Pro 等专有模型的性能相当。

多语言能力： MiniCPM-Llama3-V 2.5 在多语言 LLaVA Bench 上超越了 Yi-VL 34B 和 Phi-3-vision-128k-instruct，展现出强大的跨语言能力。

多图片理解和上下文学习： MiniCPM-V 2.6 能够处理多张图片的对话和推理任务，并在 Mantis-Eval、BLINK、Mathverse mv 和 Sciverse mv 等多图片基准测试中取得了最先进的性能，还展现出强大的上下文学习能力。

视频理解： MiniCPM-V 2.6 能够接受视频输入，进行对话并为时空信息提供密集的字幕。它在有/没有字幕的情况下，在 Video-MME 上的表现优于 GPT-4V、Claude 3.5 Sonnet 和 LLaVA-NeXT-Video-34B。

MiniCPM-V：真实案例展示

MiniCPM-V 系列模型不仅在基准测试中表现出色，在真实场景中也展现出 impressive 的能力：

• 准确识别图像中的文字并转换为文本或 Markdown 格式：例如，它可以将菜单图片中的菜品名称、价格等信息提取出来，生成结构化的文本。
• 处理具有极端纵横比的高分辨率图像输入，并能识别图像中的图像内容：MiniCPM-V 2.6 能够处理高达 180 万像素的高分辨率图像，即使图片纵横比达到 10:1，也能准确识别内容。
• 进行多轮对话和上下文学习: MiniCPM-V 能够理解和记忆之前的对话内容，并在新的对话中使用这些信息。例如，在识别了一张自行车图片后，可以继续就自行车的品牌、型号等进行多轮对话。
• 生成更少幻觉的文本，在真实场景中表现出更高的可靠性和可信赖性：例如，在对同一张图片进行描述时，MiniCPM-V 2.5 生成的文本比 GPT-4V 更少出现幻觉。
• 进行多张图片的对话和推理任务: MiniCPM-V 2.6 能够理解多张图片之间的关系，并进行推理和问答。例如，给模型输入两张图片，一张是菜单，一张是食物，可以询问模型食物是否在菜单上，价格是多少。
• 接受视频输入，进行对话并为时空信息提供密集的字幕: 例如，它可以识别视频中的人物、动作、场景等信息，并生成相应的文字描述。

未来展望：终端 MLLM，AI 无处不在