开源模型突破原生多模态大模型性能瓶颈，上海AI Lab代季峰团队出品

教育 2024-10-26 09:00 福建

来源｜量子位

原生多模态大模型性能瓶颈，迎来新突破！

上海AI Lab代季峰老师团队，提出了全新的原生多模态大模型Mono-InternVL。

与非原生模型相比，该模型首个单词延迟最多降低67%，在多个评测数据集上均达到了SOTA水准。

与常见的采用CLIP等结构进行视觉编码的模块化多模态大模型不同，Mono-InternVL将视觉感知和多模态理解均集成到大语言模型中。

相比于现有多模态大模型，Mono-InternVL有以下技术亮点：

开源原生多模态架构最优解：无需额外的视觉编码器，通过内嵌视觉专家打通了一条从大语言模型到原生多模态模型扩展的新路径，2B模型多模态能力优于7B参数的现有原生多模态模型，多个指标超越InternVL1.5。
兼具视觉灵活性和部署高效性：支持高达2M像素输入的动态图像分辨率，在原生多模态架构中感知精度最高。相比于InternVL1.5，在部署框架上首个单词延迟最多降低67%，整体吞吐量提高31%。

破解原生多模态大模型遗忘问题

现有的多模态大模型（MLLM）通常采用视觉编码器-对齐模块-语言模型的结构，将视觉编码和语言解码分别进行处理。

具体来说，这些模型通常通过将预训练的视觉编码器（例如CLIP）与大语言模型（LLM）结合来实现，即模块化MLLM。

最近新兴的Chameleon、EVE等原生MLLM，将视觉感知和多模态理解直接集成到一个LLM中，可以更方便地通过现有工具进行部署、具备更高的推理效率。

然而，由于原生MLLM缺乏视觉能力，视觉相关的训练通常不可避免，但视觉预训练过程中语言基座能力常常出现灾难性遗忘问题，导致现有原生MLLM的性能仍显著低于模块化MLLM。

为此，Mono-InternVL提出了采用增量预训练的方法，解决此前原生MLLM中的灾难性遗忘问题。

因此，作者在预训练的LLM中嵌入了专门服务于视觉建模的视觉专家，通过MoE的方式实现稀疏化的建模。

基于此，作者通过仅优化视觉参数空间来进行视觉预训练，同时保留了语言基座的预训练知识。

原生多模态结构

具体来说，Mono-InternVL 由视觉文本嵌入和多模态MoE结构两部分组成：

视觉和文本嵌入：与使用CLIP等视觉编码器的模块化 MLLM 相比，Mono-InternVL 通过patch embedding直接将图像转换为patch序列。文本嵌入模块则直接使用LLM的分词器。
多模态MoE结构：Mono-InternVL 的核心是将视觉专家FFN嵌入到预训练的 LLM 中。视觉FFN从预训练LLM中的文本FFN初始化。由此不仅可以利用预训练的 LLM 知识促进视觉预训练，还能显著缓解灾难性遗忘问题。

内生视觉预训练

作者提出内生视觉预训练（EViP）方法，旨在通过在大规模噪声数据和合成数据上进行预训练来最大化Mono-InternVL的视觉能力。

EViP被设计为一个从基本视觉概念到复杂语义知识的逐步学习过程，包括三个阶段：

概念学习，用于掌握基本的视觉概念；
语义学习，用于捕捉高层次语义知识，例如世界知识；
对齐学习，用于将知识与下游任务对齐。

在视觉预训练完成后，Mono-InternVL通过指令微调处理复杂的多模态任务。

在前两个阶段中保持预训练LLM的参数固定，仅训练视觉部分的嵌入模块和视觉FFN，而在第三阶段和指令微调中逐步放开LLM中的multi-head attention和文本FFN。

得益于这一架构和预训练策略，Mono-InternVL的视觉可扩展性得到了充分释放，随着预训练数据规模的增加，其下游性能持续提高。

原生多模态大模型性能大幅提升

作者基于InternLM2-1.8B开发了Mono-InternVL-2B模型，在16个多模态基准上进行了广泛的实验。

下图展示了中英文OCR、问答、图表解析等任务的可视化样例，体现了Mono-InternVL的实际效果。

如图，模型成功识别出了图中的“诺贝尔物理学奖2024”标题，Hopfield、Hinton等人名，以及瑞典皇家科学院落款等文本。

对于动漫风格的图片，模型识别出了形状扭曲的NEC、PANASONIC等品牌名，并提供了细致生动的图像描述。

在Grounding任务上，Mono-InternVL可以精准定位照片中的美短的坐标。

对于中文的手写文本同样具备不错的识别能力。

在代码生成任务上也表现较为出色。

数据上看，实验结果也表明，1.8B激活参数的Mono-InternVL可以大幅超越此前的7B参数原生多模态模型EVE，平均提升15.5%。

与最先进的模块化MLLM InternVL-1.5相比，Mono-InternVL在6个多模态基准上表现更优。

通过LMDeploy的部署实验表明，Mono-InternVL与模块化模型InternVL-1.5相比，首个token延迟减少了67%，整体吞吐量提高31%。

消融实验结果，也验证了视觉专家和增量预训练的有效性。

下游任务性能与预训练数据规模的曲线图表明，在三阶段的EViP的帮助下，Mono-InternVL 的能力随着数据规模增加而不断提升。

作者可视化了不同层的注意力图，展示了模型浅层部分所存在的视觉局部性、视觉文本交互较少等问题，为未来原生MLLM 的设计提供启发。

作者简介

本文的共同一作为罗根 (上海人工智能实验室博士后研究员)，杨学（上海人工智能实验室青年研究员），窦文涵（清华大学本科生），王肇凯（上海交通大学&上海人工智能实验室联培博士生）。

本文的通讯作者是朱锡洲，他的研究方向是视觉基础模型和多模态基础模型，代表作有 Deformable DETR、DCN v2等。

论文地址：
https://arxiv.org/abs/2410.08202
项目主页：
https://internvl.github.io/blog/2024-10-10-Mono-InternVL/
推理代码&模型链接：
https://huggingface.co/OpenGVLab/Mono-InternVL-2B

http://mp.weixin.qq.com/s?__biz=MzIzNzU4OTAxMQ==&mid=2247532583&idx=1&sn=18576d483270f5c8c28bdb242fe8c2c7

FightingCV

一个专注于解析计算机视觉、多模态方向前沿论文，解答科研问题，分享科研时事的公众号！

最新文章

211本二战字节视觉算法岗，拿下70k offer!!!

字节Chunyuan Li团队提出LLaVA-Critic:学习评估多模态模型

Video-ChatGPT：通过大型视觉语言模型实现详细的视频理解

多注意力深度伪造检测

Infinity-MM：利用大规模高质量指令数据扩展多模态性能

跨模态3D目标检测SOTA！易复现！

Apple提出《对比局部化语言-图像预训练》

TaskCLIP：扩展大型视觉-语言模型以用于面向任务的目标检测

Janus: 解耦视觉编码以实现统一的多模态理解与生成

开源模型突破原生多模态大模型性能瓶颈，上海AI Lab代季峰团队出品

ECCV24 ｜ ControlNet+⁣+: 通过高效一致性反馈改进条件控制

YOLO核心架构的演变路线

BLIP：用于统一视觉语言理解和生成的引导语言图像预训练

MMIU: 用于评估大型视觉语言模型的多模态多图像理解

Arena Learning : 通过模拟聊天机器人竞技场为 LLM 后训练构建数据飞轮

MMEvol：赋能多模态大型语言模型的 Evol-Instruct

NTU提出Text4Seg: 重塑图像分割为文本生成

BLIP-2作者新作Aria : 一个开放的多模态原生专家混合模型

华为天才少年面试大厂被怼：怎么连Attention都不会？

Mistral发布了其首款多模态模型Pixtral 12B

EMNLP 2024 | 阿里通义实验室提出MLLM多图能力评估基准MIBench

堪比理科博士生的最强AI大模型：GPT-o1技术解析

Google Deepmind提出SigLIP，用于语言图像预训练的 Sigmoid 损失

Apple提出MM1.5：多模态大型语言模型微调的方法、分析和见解

最优大语言模型模型架构深度解析

NeurIPS2024即插即用模块论文合集！

Qwen2-VL：增强视觉语言模型在任何分辨率下的世界感知能力

Kaiming He团队提出通过异构预训练Transformer 大规模扩展本体感知-视觉学习

LLaVA-OneVision｜更加高级的LLaVA，轻松的视觉任务转移

对齐器: 通过学习校正实现高效对齐

Emo-DPO：通过直接偏好优化实现可控的情绪语音合成

Jiaya Jia团队提出LLaMA-VID ：一张图片在大型语言模型中值两个token

mamba和Tranformer融合：通过混合架构高效扩展多模态大语言模型到 1000 张图像

小米提出MobileVLM：一种用于增强UI内部和跨UI理解的视觉语言模型

T2I-CompBench：一个用于开放式世界组合式文本到图像生成的综合基准

Molmo 和 PixMo: 开放权重和开放数据的最先进的多模态大模型

MG-LMM ｜指令引导的多粒度分割和字幕与大型多模态模型

Llama 3.2全文翻译：通过开放、可定制的模型彻底改变边缘 AI 和视觉

如何提升多模态大模型视觉推理能力？浙大杰青团队的新型自指导方案给出答案

THU鲁继文&NTU刘子纬团队联手发布 Oryx MLLM：实时应对任意分辨率的时空理解

SlowFast-LLaVA ｜ Apple团队提出视频大语言模型的强大免训练基线

AAA24 ｜震撼发布！95.3% 像素级 AUC：最强异常检测模型 SOTA 现已开源！

Google推出MaskGIT：革新图像生成的掩码式Transformer

英伟达发布NVLM：超越GPT4o，开源先锋塑造多模态AI新时代

TG-LLaVA｜沈春华团队提出通过可学习的潜在嵌入进行文本引导的 LLaVA

SAM4MLLM | 增强多模态大型语言模型用于指称表达式分割

CVPR2025投稿规定再次更新

ECCV2024 ｜一张图实现街道级定位，端到端图像地理定位大模型AddressCLIP

召唤100多位学者打分，斯坦福新研究：「AI科学家」创新确实强

SpaceX再创历史，人类首次商业太空行走成就达成！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

开源模型突破原生多模态大模型性能瓶颈，上海AI Lab代季峰团队出品

来源 ｜ 量子位

破解原生多模态大模型遗忘问题

原生多模态结构

内生视觉预训练

原生多模态大模型性能大幅提升

作者简介

来源｜量子位