MiniCPM-V:GPT-4V 级的多模态大语言模型

文摘   2024-08-11 12:00   浙江  

想要在手机上体验强大的 GPT-4V?MiniCPM-V 系列模型来了!这些高效的多模态大语言模型 (MLLM),不仅性能直逼 GPT-4V,还能在移动设备等终端设备上流畅运行,为 AI 应用打开了无限可能。

终端 MLLM 的崛起:MiniCPM-V 系列

多模态大语言模型 (MLLM) 作为 AI 领域的明日之星,能够理解和处理文本、图像、视频等多种信息,并生成流畅的语言输出。然而,现有 MLLM 庞大的体积和计算量,使其只能部署在高性能云服务器上,限制了其应用范围。

MiniCPM-V 系列模型打破了这一限制,它专为终端设备设计,在性能和效率之间取得完美平衡。自 2024 年 2 月发布以来,该系列已经历了三次迭代:

  • • MiniCPM-V 1.0(2B 参数): 终端 MLLM 的先驱,为移动设备带来了强大的多模态能力。

  • • MiniCPM-V 2.0(2B 参数): 性能超越 Qwen-VL 9B、CogVLM 17B 和 Yi-VL 34B 等更大规模的模型,并支持高分辨率图像输入和任意纵横比。

  • • MiniCPM-Llama3-V 2.5(8B 参数): 在 OpenCompass 评估中超越 GPT-4V-1106、Gemini Pro 和 Claude 3,并在 OCR、多语言支持和可信赖性方面表现出色,支持多轮对话和上下文学习。

MiniCPM-V 的关键技术

MiniCPM-V 系列模型的成功,离不开其背后强大的技术支持,这些技术使得 MiniCPM-V 能够在保持强大性能的同时,实现高效的终端部署。

领先的性能: MiniCPM-Llama3-V 2.5 在 OpenCompass 评估中取得了领先的性能,超越了 GPT-4V-1106、Gemini Pro 和 Claude 3 等强大的模型,这得益于其架构、数据和训练策略的精心设计。OpenCompass 是一套全面的评估指标,涵盖了 11 个主流多模态基准测试,例如 MME、MM-Bench、MMMU、MathVista 和 LLaVA Bench 等。MiniCPM-V 2.0 (2B 参数) 也在性能上显著优于其他 2B~3B 的模型,甚至可以与基于 Llama3 的 8B MLLM 相媲美。

强大的 OCR 能力: MiniCPM-Llama3-V 2.5 能够准确地识别图像中的文字,其 OCR 能力超越了 1.7B~34B 范围内的开源 MLLM,甚至与 GPT-4V-1106 和 Gemini Pro 等专有模型的性能相当。MiniCPM-V 2.6 更是支持高达 180 万像素的高分辨率图像输入和任意纵横比,进一步提升了 OCR 性能。

可信赖的行为: MiniCPM-V 系列模型采用了 RLAIF-V 和 RLHF-V 技术,通过从 AI/ 人类反馈中进行行为对齐,有效降低了幻觉率,提高了模型的可信赖性。MiniCPM-Llama3-V 2.5 在 Object HalBench 上实现了比 GPT-4V-1106 更低的幻觉率,表明其在现实世界应用中具有更高的可靠性。

多语言支持: MiniCPM-V 系列模型利用 VisCPM 的多语言泛化技术,将其多模态能力扩展到 30 多种语言,打破了语言的壁垒。VisCPM 提出了一种跨语言零样本多模态学习方法,利用强大的多语言 LLM 作为枢纽,将多模态能力有效地泛化到不同的语言。

高效的终端部署: 为了实现在终端设备上的高效部署,MiniCPM-V 系列模型系统地采用了一系列优化技术,包括模型量化、内存使用优化、编译优化、配置优化和 NPU 加速等。这些技术有效地降低了模型的内存占用和计算量,提高了模型的推理速度和效率,使其能够在资源有限的终端设备上流畅运行。

MiniCPM-V 性能表现如何?

MiniCPM-V 系列模型在多个基准测试中展现出强大的性能:

OpenCompass 评估: MiniCPM-Llama3-V 2.5 在 OpenCompass 评估中取得了领先的性能,超越了 GPT-4V-1106、Gemini Pro 和 Claude 3 等强大的模型。MiniCPM-V 2.6 更是超越了 GPT-4V,在单张图片、多张图片和视频理解方面都取得了更好的成绩。

OCR 基准测试: MiniCPM-Llama3-V 2.5 在 OCRBench、TextVQA 和 DocVQA 上超越了所有开源 MLLM,甚至与 GPT-4V-1106 和 Gemini Pro 等专有模型的性能相当。

多语言能力: MiniCPM-Llama3-V 2.5 在多语言 LLaVA Bench 上超越了 Yi-VL 34B 和 Phi-3-vision-128k-instruct,展现出强大的跨语言能力。

多图片理解和上下文学习: MiniCPM-V 2.6 能够处理多张图片的对话和推理任务,并在 Mantis-Eval、BLINK、Mathverse mv 和 Sciverse mv 等多图片基准测试中取得了最先进的性能,还展现出强大的上下文学习能力。

视频理解: MiniCPM-V 2.6 能够接受视频输入,进行对话并为时空信息提供密集的字幕。它在有/没有字幕的情况下,在 Video-MME 上的表现优于 GPT-4V、Claude 3.5 Sonnet 和 LLaVA-NeXT-Video-34B。

MiniCPM-V:真实案例展示

MiniCPM-V 系列模型不仅在基准测试中表现出色,在真实场景中也展现出 impressive 的能力:

  • • 准确识别图像中的文字并转换为文本或 Markdown 格式:例如,它可以将菜单图片中的菜品名称、价格等信息提取出来,生成结构化的文本。

  • • 处理具有极端纵横比的高分辨率图像输入,并能识别图像中的图像内容:MiniCPM-V 2.6 能够处理高达 180 万像素的高分辨率图像,即使图片纵横比达到 10:1,也能准确识别内容。

  • • 进行多轮对话和上下文学习: MiniCPM-V 能够理解和记忆之前的对话内容,并在新的对话中使用这些信息。例如,在识别了一张自行车图片后,可以继续就自行车的品牌、型号等进行多轮对话。

  • • 生成更少幻觉的文本,在真实场景中表现出更高的可靠性和可信赖性:例如,在对同一张图片进行描述时,MiniCPM-V 2.5 生成的文本比 GPT-4V 更少出现幻觉。

  • • 进行多张图片的对话和推理任务: MiniCPM-V 2.6 能够理解多张图片之间的关系,并进行推理和问答。例如,给模型输入两张图片,一张是菜单,一张是食物,可以询问模型食物是否在菜单上,价格是多少。

  • • 接受视频输入,进行对话并为时空信息提供密集的字幕: 例如,它可以识别视频中的人物、动作、场景等信息,并生成相应的文字描述。

未来展望:终端 MLLM,AI 无处不在

MiniCPM-V 系列模型的出现,标志着终端 MLLM 时代的到来。随着模型能力和终端设备计算能力的不断提升,未来我们将看到更多强大的 AI 应用在手机、个人电脑等终端设备上运行,为我们带来更加智能、便捷和个性化的体验。

相关链接

  • • MiniCPM-V Github: https://github.com/OpenBMB/MiniCPM-V

  • • MiniCPM-V 2.6 Hugging Face: https://huggingface.co/openbmb/MiniCPM-V-2_6

子非AI
子非AI,焉知AI之乐:分享AI的有趣应用和创新案例,让你了解AI的乐趣。
 最新文章