MiniCPM-V 2.5：登顶HuggingFace和GitHub Trending榜双榜首

学术 2024-05-23 15:13 北京

时隔 1 个月，面壁智能和清华大学自然语言处理实验室联合研发的小钢炮端侧模型 MiniCPM 系列上新，带来 MiniCPM-Llama3-V 2.5，最强端侧多模态模型。

通过一系列自研技术，小钢炮系列开创的高清图像识别（1344 * 1344分辨率）、强大 OCR 能力等，仍得到延续。

8B 体量的新一代 MiniCPM-Llama3-V 2.5，仍带来一系列惊艳亮点。

最强端侧多模态综合性能：超越多模态巨无霸 Gemini Pro 、GPT-4V
OCR 能力 SOTA！180 万像素更清晰，难图长图长文本精准识别
量化后仅 8G显存，4070 显卡轻松推理，并可在手机端以 6-8tokens/s 速度高效运行；
图像编码快 150 倍！首次端侧系统级多模态加速；
支持 30+ 多种语言

MiniCPM-Llama3-V 2.5 发布后火速登顶 HuggingFace 和 GiHub Trending榜双榜首，与 Meta、微软、谷歌等科技巨头共同从全球 66 万模型中脱颖而出。

当前 MiniCPM-V 系列下载总量已超 13 万，GitHub 星标 2.8k+。

新版本MiniCPM-V小钢炮登顶 Hugging Face 和 GitHub Trending 榜双榜首

作者：姚远、余天予、张傲、王崇屹、崔竣博、朱宏吉、蔡天驰、李好雨、赵威霖、周荣华、何志辉、邹振盛、张皓烨、胡声鼎、郑直、周界、蔡杰、韩旭、曾国洋、李大海、刘知远、孙茂松*

注：*为通讯作者

机构：面壁智能，清华大学自然语言处理实验室

➤ 项目地址

🔗 https://github.com/OpenBMB/MiniCPM-V

➤ 模型地址

🔗 https://huggingface.co/openbmb/MiniCPM-Llama3-V-2_5

🔗 https://modelscope.cn/models/OpenBMB/MiniCPM-Llama3-V-2_5

➤ 演示Demo

🔗 https://huggingface.co/spaces/openbmb/MiniCPM-Llama3-V-2_5

简介

自 OpenAI 发布 GPT-4V 以来，多模态大语言模型技术经历了飞速发展，模型性能日新月异。随着开源社区的高速发展，模型性能及参数规模出现了一种类似于摩尔定律的发展趋势（如图1）：达到 GPT-4V 水平的模型参数规模随时间增长逐渐缩减。这也许可以称其为多模态大模型时代的摩尔定律。

图 1：GPT-4V级别模型参数规模逐渐缩小，终端算力逐渐增强

与此同时，手机电脑等终端算力也在不断增强。两个趋势的叠加使得多模态大模型正在全面走向端侧，带来了了更广阔的想象空间并可能惠及更多应用场景。借助高效多模态训练技术，MiniCPM-V 系列发布了全新的 MiniCPM-Llama3-V 2.5。沿着多模态大模型摩尔定律的轨迹，MiniCPM-Llama3-V 2.5 将之前 GPT-4V 级别能力的开源模型大小由 26B 刷新到了 8B。通过一系列终端优化技术，MiniCPM-Llama3-V 2.5 首次在端侧实现了 GPT-4V 级的多模态能力。

效果展示

MiniCPM-Llama3-V 2.5 总共包括以下几个亮点能力：

1） 领先的性能：MiniCPM-Llama3-V 2.5 以 8B 量级的大小超过了 GPT-4V-1106、Gemini Pro 等主流商用闭源多模态大模型。

2） 优秀的 OCR 能力：OCRBench 得分达到 725，超越 GPT-4o、GPT-4V、Gemini Pro、Qwen-VL-Max 等商用闭源模型，达到最佳水平。

3） 多语言支持：模型支持了德语、法语、西班牙语、意大利语、俄语等 30+ 种语言的多模态能力，并表现出了良好的多语言多模态对话性能。

4） 可信行为：在 Object HalBench 的幻觉率降低到了 10.3%，显著低于 GPT-4V-1106 (13.6%)，达到开源社区最佳水平。

5） 高效部署：通过模型量化、CPU、NPU、编译优化等高效加速技术，实现高效的终端设备部署。

下面将通过一些具体示例来展示 MiniCPM-Llama3-V 2.5 的具体能力。

首先，MiniCPM-Llama3-V 2.5 具有良好的 OCR 能力，可以对英文文章截图进行内容提取：

图2：全文OCR能力示例

MiniCPM-Llama3-V 2.5 能够理解非常规长宽比的图像输入，可以对手机文章的长截图进行总结：

图3：中文长图理解样例

同时，MiniCPM-Llama3-V 2.5 可以将密集表格数据转化为对应的 markdown 形式：

图4：表格转markdown样例

此外，MiniCPM-Llama3-V 2.5 可以理解复杂的流程图输入并进行分点解释：

图5：复杂流程图推理样例

为了更好的展示效果，MiniCPM-Llama3-V 2.5 提供了一些小米 14 Pro 上的录屏样例：

比如，MiniCPM-Llama3-V 2.5 可以针对输入的食物营养结构图片进行分析，并根据内容进行复杂饮食计划的设计：

图6：英文复杂推理实时样例 (相对5月20日发布版本，速度已有2倍提升)

下面是对高铁车票进行信息提取和相关提问：

图7：中文OCR实时样例 (相对5月20日发布版本，速度已有2倍提升)

最后，MiniCPM-Llama3-V 2.5 具有良好的多语言对话能力：

图8：多语言对话样例 (相对5月20日发布版本，速度已有2倍提升)

实验结果

➤ 多模态基础能力评测

表1：主流多模态基准下的评测结果

MiniCPM-Llama3-V 2.5 首先在一系列主流多模态数据集上进行了效果对比 (表1)。其中OpenCompass 分数为 MME、MMB、MMMU等11个主流多模态数据集的综合指标，可以作为总评价指标。

在表1中，MiniCPM-Llama3-V 2.5 取得了最高的 OpenCompass 分数 65.1。该结果超过了闭源模型 Gemini Pro 和 GPT-4V (2023.11.06)。

此外，通过对比 MiniCPM-Llama3-V 2.5 和其他 3 个基于 Llama-3 8B 的开源模型，MiniCPM-Llama3-V 2.5 显示出明显的效果优势。以代表性模型 LLaVA-NeXT Llama-3 8B 为例，MiniCPM-Llama3-V 2.5 在各评测基准均实现3个点以上提升。值得注意的是，MiniCPM-Llama3-V 2.5 同时具有更高的推理效率。其视觉编码结果数量范围为96-960 tokens，小于 LLaVA-NeXT Llama-3 8B 的编码结果数量范围 1728-2880 tokens，大幅降低了计算开销。

➤ OCR能力评测

表2：OCR能力基准的评测结果

此外，MiniCPM-Llama3-V 2.5 也具有良好的场景文字理解能力。根据表 2 结果，MiniCPM-Llama3-V 2.5 可以取得最优的 OCRBench 效果，并在 TextVQA 和 DocVQA 上取得和 Gemini Pro、GPT-4V 有竞争力的结果。

➤ 多语言能力评测

如图9，相较于Yi-VL-34B，MiniCPM-Llama3-V 2.5展示出了较优的多语言对话效果：

图9：多语言LLaVABench评测结果

终端优化

图10：手机芯片视觉编码效率（448*448图片输入）和部署框架

不同于云端服务器，手机等终端设备的大模型部署往往受限于有限的内存（如 12-16GB）和更慢的芯片处理速度（如 8 核 CPU）。为了更流畅的手机多模态大模型体验，MiniCPM-Llama3-V 2.5 较为系统地通过模型量化、CPU、NPU、编译优化等高效加速技术，实现高效的终端设备部署。

如图10所示，CPU 是当前手机设备最普及的芯片类型。为保证兼容性，MiniCPM-Llama3-V 2.5 主要使用 CPU 进行语言模型部分部署。通过 4 比特量化和 llama.cpp 框架的配合，MiniCPM-Llama3-V 2.5 最新实现了每秒 9-13 tokens 的语言模型编码速度和每秒 6-7 tokens的解码速度。

然而，当前手机端多模态大模型部署的图像编码方案依然非常具有挑战性。如果不采取任何优化，一张 448*448 分辨率图片编码通常需要 45s 处理时间。通过手机端编译优化、显存整理等一系列优化方式，MiniCPM-Llama3-V 2.5 将 CPU 编码延迟降低到了 5s 左右。对于高通芯片的移动手机，MiniCPM-Llama3-V 2.5 首次将 NPU 加速框架 QNN 整合进了 llama.cpp。经过系统优化后，MiniCPM-Llama3-V 2.5 实现了多模态大模型端侧图像编码 150 倍加速的显著提升（45s -> 0.3s）。

图11：MiniCPM-Llama3-V 2.5模型框架

模型构建

MiniCPM-Llama3-V 2.5 的模型架构和训练方式概括如下文所示。

➤ 模型构架

如图11，MiniCPM-Llama3-V 2.5 的模型总共包含了 3 个组成部分: (1) 视觉编码器：SigLIP-400M；(2) 压缩层：perceiver resampler 结构；(3) 语言模型：Llama-3 8B。

其中，为了应对输入图片的高分辨率和变长宽比问题，MiniCPM-Llama3-V 2.5 采用了LLaVA-UHD 论文提出的自适应视觉编码方法。每张输入图片会首先根据其大小和长宽比计算最优切片方式，然后每个切片会根据 ViT 的预训练分辨率进行适配。最后，MiniCPM-Llama3-V 2.5 将每个处理后切片送入视觉编码器。

➤ 模型训练

MiniCPM-Llama3-V 2.5 采取了多阶段训练方法，包括预训练，有监督微调和基于 AI 反馈的对齐训练。

预训练阶段的主要目的在于利用大量网络图文对（大约 500M）对齐视觉部分和语言部分。考虑到图文数据质量及训练效率，MiniCPM-Llama3-V 2.5 固定住语言模型参数，仅对视觉部分参数进行训练。

监督微调阶段，MiniCPM-Llama3-V 2.5 则使用 VQA、文档理解等多种高质量数据来学习精准多模态理解能力。此外，基于 VisCPM 提出的多模态能力的跨语言泛化技术，MiniCPM-Llama3-V 2.5 仅仅通过轻量级的多语言指令微调即完成了 30 余种语言的多模态能力泛化。

最后，MiniCPM-Llama3-V 2.5 采用RLAIF-V技术，通过基于AI反馈的对齐训练来进一步提高模型的可信回答能力。在该阶段，模型会通过分而治之的思想对不同描述进行 AI 打分，并通过分数高低构建偏好数据集来对模型进行 DPO 优化。

总结

作为小钢炮系列的最新模型，MiniCPM-Llama3-V 2.5 在主流评测基准的多模态综合性能达到了 GPT-4V 水平，具有优秀的 OCR 能力、任意长宽比高清图理解能力、可信回答能力和多语言交互能力。通过一系列端侧优化技术，该模型可以在手机端部署及高效运行。MiniCPM-Llama3-V 2.5 展示出了端侧多模态大模型的巨大潜力，相信在不久的将来，会有更多更加强力的大模型出现在用户移动端，提供可靠安全的智能服务，提升用户生活工作效率，惠及更多应用场景。

关于我们

清华大学自然语言处理与社会人文计算实验室（TsinghuaNLP）成立于 20 世纪七十年代末，是国内开展自然语言处理研究最早、深具影响力的科研单位，也是中国中文信息学会计算语言学专业委员会及中国人工智能学会因果与不确定性人工智能专业委员会的挂靠单位。实验室在学术总体带头人孙茂松教授及学术方向带头人刘洋教授、刘知远副教授的带领下，围绕以中文为核心的自然语言处理，在语言大模型、跨模态大模型、中文信息处理、机器翻译、知识图谱、智慧教育、社会人文和艺术计算等方面开展系统深入的研究，在国内外具有较大的学术影响。近年来，实验室承担了国家 973 项目、国家重点研发项目、国家社会科学基金重大项目等多项重要研究任务，并与腾讯、华为、搜狗等企业建立密切的学术合作关系。

Website：http://nlp.csai.tsinghua.edu.cn/

Email：thunlp@163.com

GitHub：https://github.com/thunlp

https://github.com/OpenBMB

Twitter：https://twitter.com/TsinghuaNLP

THUNLP 长期开放招聘

清华大学自然语言处理与社会人文计算实验室，是中国中文信息学会计算语言专业委员会和中国人工智能学会不确定性专业委员会的挂靠单位。负责人为清华大学计算机科学与技术系孙茂松教授，核心骨干为刘洋教授，刘知远副教授。

最新文章

招聘｜个性化学生成长助手“清小搭”团队实习生招募

新闻｜我组5篇论文成果被 COLING 2025 收录

新闻｜清华本科生习作集结成书《AI群星闪耀时》正式出版

成果｜打破传统轮次规则，MiniCPM-duplex双工模型助力即时交互

获奖｜我组博士毕业生陈驰学位论文入选2024年度中国中文信息学会“博士学位论文激励计划”

获奖｜我组与幂律智能、清华大学法学院联合研究成果荣获2024“钱伟长中文信息处理科学技术奖”一等奖

新闻｜我组博士后研究员李霜洁顺利出站

《语言战略研究》多人谈：学术的激烈交锋会促进科技的深入发展

获奖｜我组教师刘知远获2024年北京市高校青年教学名师奖

成果｜RAGEval：实现实际场景检索增强生成系统（RAG）的“精准诊断”

招聘｜清华NLP实验室博士后招聘

招聘｜清华NLP实验室招聘工具学习与自主智能体方向科研实习生

新闻｜我组7篇论文成果被NeurIPS 2024录用

新闻｜我组7篇论文成果被 EMNLP 2024 录用

预告｜CNCC 2024技术论坛：端侧大模型

新闻｜我组师生参加 ACL 2024 学术会议

获奖｜我组荣获英特尔中国学术成就奖

成果｜LEGENT：具身智能体开放平台

新闻｜我组6篇论文成果被 COLM 2024 录用

获奖｜我组多名毕业生顺利毕业，并获多项荣誉

经典大模型公开课第二季，梦幻回归

成果｜基于深度学习的多策略增强对联自动生成方法

成果 | 智能体互联网（IoA）：编织异构智能体的协同智能网络

获奖｜我组毕业生丁宁、姚远获2024世界人工智能大会云帆奖

招聘｜清华NLP实验室诚聘大模型英才

OpenBMB × Hugging Face × THUNLP，联袂献上经典大模型课

讲座预告｜夏梦舟：训练与对齐语言模型：目标与数据管理的算法进展

成果｜Seq1F1B：节省50%显存的长文本模型流水线并行训练技术

成果｜大模型驱动的多智能体协作网络 MacNet，探究多智能体协作的Scaling Law

招聘｜清华NLP实验室招聘法律智能方向博士后及科研实习生

新闻｜我组2篇论文成果被 ACL 2024 Demo 录用

成果｜多智能体经验迭代精炼框架——实现多智能体经验动态积累以增强任务解决能力

StableToolBench：稳定的工具学习评测数据集

MiniCPM-V 2.5：登顶HuggingFace和GitHub Trending榜双榜首

成果 | CODIS：评估多模态大模型结合上下文理解图像的能力

新闻｜我组多篇论文成果被 ACL 2024 收录

预告｜CCF ADL第146期讲习班周五开讲，欢迎广大学者报名

新闻｜我组师生参加ICLR 2024学术会议

新闻｜我组6篇论文成果被 ICML 2024 收录

获奖 | 我组师生参加“吴文俊人工智能科学技术奖”颁奖典礼

清华NLP实验室招聘大模型方向博士后及研究员

预告｜CCF ADL讲习班第146期 “大模型自主智能体与群体智能”

成果 | 大模型驱动的自主智能体与群体智能

成果｜ProSparse：打造更加稀疏高效的大模型

成果 | MatPlotAgent：大模型驱动的数据可视化智能体

新闻｜我组三篇论文成果被 CVPR 2024 收录

成果｜大语言模型只懂自然语言？AutoForm通过非自然语言形式提升智能体推理与沟通效率

获奖 | 我组博士生姚远获2023年度吴文俊人工智能科学技术奖优秀博士学位论文奖

成果｜OlympiadBench: Olympiad-level 的双语、多模态的科学评测集

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉