社区供稿 | 仅8B，全面对标 GPT-4V ！单图、多图、视频理解端侧三冠王！

文摘 2024-08-15 10:30 广东

再次刷新端侧多模态天花板，面壁「小钢炮」 MiniCPM-V 2.6 模型重磅上新！

仅8B参数，单图、多图、视频理解全面对标 GPT-4V ！且小钢炮一口气将实时视频理解、多图联合理解、多图ICL等能力首次搬上端侧多模态模型。

➤ MiniCPM-V 2.6 开源地址：

GitHub:

🔗 https://github.com/OpenBMB/MiniCPM-V

Hugging Face:

🔗 https://hf.co/openbmb/MiniCPM-V-2_6

➤ llama.cpp、ollama、vllm 部署教程地址：

🔗 https://modelbest.feishu.cn/docx/Duptdntfro2Clfx2DzuczHxAnhc

➤ MiniCPM 系列开源地址：

🔗 https://github.com/OpenBMB/MiniCPM

亮点众多，延续了「小钢炮」系列一贯的以小博大与高效低成本，划重点如下：

「三合一」最强端侧多模态：首次在端侧实现单图、多图、视频理解等多模态核心能力全面超越 GPT-4V，单图理解越级比肩多模态王者 Gemini 1.5 Pro 和新晋顶流 GPT-4o mini 。
多项功能首次上端：实时视频理解、多图联合理解、多图 ICL 视觉类比学习、多图 OCR 等功能，第一次让端侧模型睁开观察、理解真实流动世界的「眼睛」，不仅看得清晰，还能有样学样、模仿学习。
极致高效，最高多模态像素密度：类比知识密度，小钢炮2.6 取得了两倍于 GPT-4o 的单 token 编码像素密度（token density），在端侧方寸之地，一路将大模型「能效比」挖到极限。这一进展，得益于视觉 token相比上一代下降 30% ，比同类模型低 75%。
端侧友好：量化后端侧 6G 内存即可使用；端侧推理速度高达 18 tokens/s，相比上代模型快 33%。并且发布即支持 llama.cpp、ollama、vllm 推理；且支持多种语言。
统一高清框架，高效能力一拖三：小钢炮的传统优势 OCR 能力延续了其 SOTA 性能水平，并进一步覆盖单图、多图、视频理解。

单图、多图、视频理解 3 SOTA*

GPT-4V 级、三合一最强端侧多模态

指 20B 以下、端侧模型 SOTA

以小博大，是端侧模型的核心竞争力。

仅 8B 参数，新一代 MiniCPM-V 2.6 不仅再一次取得了媲美 GPT-4V 的综合性能，还首次作为端侧 AI 模型，掀开单图、多图、视频理解三项多模态核心能力全面超越 GPT-4V 之新格局，且均实现 20B 参数以下模型性能 SOTA。

在 MiniCPM-V 2.6 的知识压缩率方面，我们发现，MiniCPM-V 2.6 体现出极致的高效，取得了两倍于 GPT-4o 的最高多模态大模型像素密度（Token Density）。

Token Density = 编码像素数量 / 视觉 token 数量，是指单个 token 承载的像素密度，即图像信息密度，直接决定了多模态模型实际的运行效率，数值越大，模型运行效率越高。

闭源模型的 Token Density 由 API 收费方式估算得到。结果表明 MiniCPM-V 2.6 是所有多模态模型中 Token Density 最高的，延续了小钢炮一贯的极致高效特点。

单图方面：在综合评测权威平台 OpenCompass 上，单图理解能力越级超越多模态王者 Gemini 1.5 Pro 和新晋顶流 GPT-4o mini ；

多图方面：在多图评测权威平台 Mantis-Eval 榜单上，MiniCPM-V 2.6 多图联合理解能力实现开源模型 SOTA ，且超越 GPT-4V；

视频方面：在视频评测权威平台 Video-MME 榜单上，MiniCPM-V 2.6 的视频理解能力达到端侧 SOTA，超越 GPT-4V；

👇🏻

榜单成绩

OpenCompass | Mantis-Eval | Video-MME

左滑查看更多图片

此外，在 OCRBench 上，MiniCPM-V 2.6 OCR 性能实现开源+闭源模型 SOTA，延续并加强了小钢炮系列最强端侧 OCR 能力的传统优势。

在幻觉评测榜单 Object HalBench 上，MiniCPM-V 2.6 的幻觉水平（幻觉率越低越好）优于 GPT-4o、GPT-4V、Claude 3.5 Sonnet 等众多商用模型；

👇🏻

榜单成绩

Obiect HalBench | OCRBench

实时视频理解，首次上端！

睁开端侧“眼睛”，打开具身广阔潜力

真实世界的视觉信息是流动的！

端侧视频理解具有天然优势，手机、PC、AR、机器人、智能座驾等端侧设备自带的摄像头，具有天然的多模态输入能力。相比云端，离用户更近，链路更短，效率更高，同时具有更强的隐私安全。

有了实时视频理解功能，大模型犹如拥有一双“眼睛”，能够实时看到真实世界，这是多模态大模型走向具身智能等更多实际领域，实现 AGI 的必要条件之一。此外实时视频理解功能也让人机交互也更加自然友好。

MiniCPM-V 2.6 让实时视频理解功能第一次运行在端侧。

在下面对面壁智能公司实时拍摄中，室内场景的各种办公设备、墙上、会议室上的文字都能轻松被模型精准识别。

此外，对于「太长不看」的视频，现在可以直接把文件拖进来，让模型为你总结重点信息，不用看完、不用倍速、也不用快进。

这段 1 分钟左右的天气预报视频，MiniCPM-V 2.6 能在没有听到任何语音的情况下，发挥强大的视频 OCR 功能，识别出视频画面里密集的文字，给出不同视频段落中不同城市的详细天气描述。

注：该结果为代码环境中复现

多图联合理解，首次上端！

流畅、聪明，一直识图一直爽

钻研多模态模型能力的不竭动力，源自于它更接近真实世界的形态，充斥着画面、视频、语言等多种模态、同时并发的信息。

难以想象，当我们睁开眼睛看世界，只能一个画面、一个画面，顺次机械而卡顿地识别理解；也不会事事都能得到精准的文字指示，像小孩子模仿大人行为举止般「有样学样」地揣摩学习与动作跟随，是绝大多数我们学习与尝试新事物时所发生的样子。

将端侧 AI 的多模态能力进行极致探寻，最新发布的 MiniCPM-V 2.6 首次将多图联合理解、多图ICL（上下文少样本学习）功能集成在端侧模型，这也是此前业界多模态王者 GPT-4V 引以为傲的能力。

1. 流畅的多图多轮理解，爽！

就像人们习惯把多个文件拖拽给大模型处理，在日常生活和工作中，联合处理多张图像是高频刚需。

比如常令人头疼的记账或报销难题，小票上密密麻麻的数字难以辨别，更别提进行繁琐的总账计算。拍照下来，一口气甩给 MiniCPM-V 2.6，除了一一找出每张小票的金额，最后还把总账计算出来，十分方便。

强大的 OCR 能力 + CoT（思维链）能力加持，不仅小票金额精准抓取，解题思路与卷面呈现都清晰简洁：

端侧多模态复杂推理能力也被一并刷新：

比如这道 GPT-4V 官方演示经典命题：调整自行车车座。这个对人很简单的问题对模型却非常困难，它非常考验多模态模型的复杂推理能力和对物理常识的掌握能力。仅 8B 的 MiniCPM-V 2.6 展现出顺利完成这项挑战的潜力，通过和模型进行多图多轮对话，它清晰地告知完成调低自行车车座的每一个详细步骤，还能根据说明书和工具箱帮你找到合适的工具。

2. 强悍的多图复杂推理能力，竟能读懂你的梗！

得益于强大的多图复杂推理能力，MiniCPM-V 2.6 不仅能联合识别多张图片的表面信息，还能“读懂”梗图背后的槽点。

比如让模型解释下面两张图背后的小故事，MiniCPM-V 2.6 能够通过 OCR 精准识别到两张图片上的文字：“WFH Employees 8:59 AM”和 “WFH Employees 9:00 AM”，推理出“WFH”居家办公状态，然后结合两张图片的视觉信息联合推理出“工作在家时，8:59还在床上睡觉，9点立马出现在视频会议上”的居家办公的“抓狂”状态，尽显梗图的槽点和幽默，可谓是多图联合理解和 OCR 能力的强强结合。

多图复杂推理能力表现惊艳，单图也不在话下。MiniCPM-V 2.6 能轻松揣测出梗图中很多未明显露出的潜台词，简直是充满幽默感的大模型「梗王」。

多图 ICL，首次上“端”！

大模型学会揣测模仿，有样学样

很多时候，很多场景，难以用语言完全说清，通过明确定义的语言 prompt 来控制模型的输出行为难以奏效。这个时候，图文信息一起「看」来理解，就像我们婴童时期那样观察、模仿、学习，往往更加直接与准确。

这其实就是多图 ICL（In context learning）上下文少样本学习，它能激发出模型的潜力，让模型无需 fine-tune，即可快速适配到特定领域和任务，显著提高模型的输出稳定性。

在下面的例子中，我们直接通过视觉 prompt 给大模型下指示：

给出两组神转折画面，以及对画面中的「梗」给出示意文字描述，例如一个戴着手套、重视卫生的厨师，下一秒却用戴手套的手直接去拿实际有些肮脏的纸币；一个看似热衷环保的人，却把塑料瓶装水打开装进环保水壶…… 这时 MiniCPM-V 2.6 能够自动从前面两组图文关系，揣摩出题人的意图，并自动学会“答题模版”，给出神转折答案—— 一个人手握大量加密数字货币，可你猜怎么着，他出门购物，可是商店却只收现金！

统一高清视觉架构

高效多模态能力一拖三

新一代小钢炮的最大亮点：单图、多图、视频理解等核心能力全面对标 GPT-4V。

从单一优势，到全面对标，大幅跃进从何而来？

MiniCPM-V 2.6 强大性能背后，核心技术在于：

1. 统一高清视觉框架（基础能力）：统一支撑单图、多图、视频理解能力，实现高效能力迁移和知识共享。

将MiniCPM-V的高清任意长宽比图像高效编码技术，拓展至多图联合理解、多模态上下文学习、和视频理解。将上述视觉理解场景，统一形式化为图文交替的语义建模问题，共享底层视觉表示机制。基于上述方式，实现不同视觉理解场景下高效的知识共享和能力泛化迁移。

2. Ultra多模态对齐技术（能力对齐）：通过高效对齐技术，增强推理能力和通用域多图联合理解能力

在多模态推理能力对齐方面，MiniCPM-V 2.6 通过复杂题目的CoT解答数据，构造高效对齐种子数据，并通过模型自迭代完成数据净化和知识学习。

在多图联合理解方面，MiniCPM-V 2.6从通用域自然网页中结合文本线索挖掘多图关联语义，实现多图联合理解数据的高效构造。

统一高清视觉架构，让传统单图的多模态优势功能得以继承，并实现了一通百通。

例如，多管齐下的 OCR SOTA 能力：

它将 MiniCPM-V 单图场景的「180万高清图像解析」进行能力迁移和知识共享，无缝拓展至多图场景和视频场景，并将这三种视觉理解场景统一形式化为图文交替的语义建模问题，共享底层视觉表示机制，实现相比同类型模型，视觉 token 数量节省超过 75% 。

OCR 信息提取的基础上，MiniCPM-V 2.6 还能进一步对表格信息进行类似 CoT（思维链）的复杂推理。

比如让模型计算 2008 年奥运会获得金牌数最多的 3 个国家一共获得了多少枚金牌，CoT 的过程是：

1. 首先利用 OCR 能力识别并提取出奖牌榜中金牌数量的前三名国家；

2. 再将前三名国家的金牌总数相加。

8.2%的超低幻觉率，亦是发挥了小钢炮系列AI可信方面的传统优势。

面壁 RLAIF-V 高效对齐技术对低幻觉贡献颇多，MiniCPM-V 2.6 的复杂推理能力和通用域多图联合理解能力亦因面壁 Ultra 对齐技术得到一并增强：

在多模态复杂推理能力对齐方面，MiniCPM-V 2.6 通过复杂题目的 CoT 解答数据，构造高效对齐种子数据，并通过模型自迭代完成数据净化和知识学习。

在多图联合理解方面，MiniCPM-V 2.6 从通用域自然网页中结合文本线索挖掘多图关联语义，实现多图联合理解数据的高效构造。

在端侧最强多模态的道路上，小钢炮 MiniCPM-V 系列已成为标杆性的存在。

自24年2月1日首次开创端侧部署多模态先河，短短半年，即接连完成了端侧模型从单一、到全面对标 GPT-4V 的重大突破，小钢炮系列下载量已破百万！

为何面壁「小钢炮」系列，频出以小博大的多模态端侧佳作？

可以说，MiniCPM 端侧模型系列，正是面壁长期以来「大模型科学化」路线的结晶。

一方面，通过科学提升训练方法与数据质量，不断提升大模型「知识密度」，得到同等参数，性能更强、成本更低的高效模型。两倍于 GPT-4o 的巅峰级单 token 图像信息密度（Token Density），小钢炮 2.6 交出一份漂亮的多模态高效运行效率成绩单。

另一方面，面壁不断钻研 OCR、多图与视频理解等核心多模态能力创新技术，并持续突破对于端侧极为关键的能耗与内存极限，把最优秀的多模态模型放在离用户最近的地方！

相比上代模型快 33%，高达 18 tokens/s 的推理速度，6GB 的内存占用…… 每一点滴对模型「能效比」的锱铢必较，只为了你将手机、 iPad 捧在手心的那一刻，实时丝滑酣畅的体验。

聪明、流畅，快得不像一款端侧模型！

这就是我们期待的，全方位 GPT-4V 般「重量级」的智能，轻轻地，走到你身边的模样。

➤ MiniCPM-V 2.6 开源地址：

GitHub:

🔗 https://github.com/OpenBMB/MiniCPM-V

Hugging Face:

🔗 https://hf.co/openbmb/MiniCPM-V-2_6

➤ llama.cpp、ollama、vllm 部署教程地址：

🔗 https://modelbest.feishu.cn/docx/Duptdntfro2Clfx2DzuczHxAnhc

本文由 Hugging Face 中文社区内容共建项目提供，稿件由社区成员投稿，经授权发布于 Hugging Face 公众号。文章内容不代表官方立场，文中介绍的产品和服务等均不构成投资建议。了解更多请关注公众号:

如果你有与开源 AI、Hugging Face 相关的技术和实践分享内容，以及最新的开源 AI 项目发布，希望通过我们分享给更多 AI 从业者和开发者们，请通过下面的链接投稿与我们取得联系:

https://hf.link/tougao

http://mp.weixin.qq.com/s?__biz=Mzk0MDQyNTY4Mw==&mid=2247492434&idx=1&sn=ab4e826478db37ce7755eefc16d0c9f9

Hugging Face

The AI community building the future.

为数据集而生的 SQL 控制台

Hugging Face 与 TruffleHog 合作，实现风险预警

社区供稿｜还在 GPT-4o 进行评测么？快来试试开源评价大模型 CompassJudger

顶点着色网格转换为 UV 映射的纹理化网格

使用 Optimum-Intel 和 OpenVINO GenAI 优化和部署模型

社区供稿 | 为什么我们需要 Hugging Face 的 Safetensors？

Hugging Face 与 Wiz Research 合作提高人工智能安全性

更快的辅助生成: 动态推测

现在 Llama 具备视觉能力并可以在你的设备上运行 - 欢迎使用 Llama 3.2

揭秘 FineVideo 数据集构建的背后的秘密

Gradio 5 稳定版正式发布

社区供稿 | 元象发布 XVERSE-MoE-A36B，多快好省！

将 LLMs 精调至 1.58 比特: 使极端量化变简单

HuggingChat macOS 版现已发布

对 LLM 工具使用进行统一

Accelerate 1.0.0

Hugging Face 论文平台 Daily Papers 功能全解析

社区供稿 | Reader-LM: 将原始 HTML 转换为干净 Markdown 的小型语言模型

社区供稿｜上线即 Trending, OCR-2.0 助力多模态大模型更快更强

通过打包 Flash Attention 来提升 Hugging Face 训练效率

社区供稿 | 全球首个多语言 ColBERT: Jina ColBERT V2 和它的“俄罗斯套娃”技术

Falcon Mamba: 首个高效的无注意力机制 7B 模型

LAVE: 使用 LLM 对 Docmatix 进行零样本 VQA 评估 - 我们还需要微调吗？

一次失败的实验 - 无限注意力，我们为什么坚持实验

Docmatix - 超大文档视觉问答数据集

ggml 简介

社区供稿 | 如何让大模型输出 10k+ 字长文？

社区供稿 | 使用 Hugging Face 和 Milvus 构建 RAG 系统

基于 Quanto 和 Diffusers 的内存高效 transformer 扩散模型

社区供稿 | 智源千万级指令微调数据集 Infinity-Instruct 持续迭代，Llama3.1 仅微调可接近 GPT-4

社区供稿 | 仅8B，全面对标 GPT-4V ！单图、多图、视频理解端侧三冠王！

社区供稿 | 开源 AI 视频工具，你只需要当导演，Hugging Face 工程师打造

TGI 多-LoRA: 部署一次，搞定 30 个模型的推理服务

XetHub 加入 Hugging Face！

社区供稿 | 面向多样应用需求，书生·浦语 2.5 开源超轻量、高性能多种参数版本

NuminaMath 是如何荣膺首届 AIMO 进步奖的？

SmolLM: 一个超快速、超高性能的小模型集合

Google 最新发布: Gemma 2 2B、ShieldGemma 和 Gemma Scope

在 Hub 上使用 Presidio 进行自动 PII 检测实验

Llama 3.1 - 405B、70B 和 8B 的多语言与长上下文能力解析

在英特尔 Gaudi 2 上加速蛋白质语言模型 ProtST

为视觉语言多模态模型进行偏好优化

微调 Florence-2 - 微软的尖端视觉语言模型

GAIA: 一个严苛的智能体基准

社区供稿 | Jina Reranker v2: 多语言支持、函数调用、代码搜索，超快推理！

Hugging Face 全球政策负责人首次参加WAIC 2024 前沿 AI 安全和治理论坛

Cosmopedia: 如何为预训练构建大规模合成数据集

OpenBMB × Hugging Face × THUNLP，联袂献上经典大模型课

BigCodeBench: 继 HumanEval 之后的新一代代码生成测试基准

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉