I 2025｜快手科技发布突破性EVLM！高效视觉语言模型，极大降低计算成本，实现全面视觉感知！

文摘 2024-11-01 10:00 英国

点击上方蓝字关注我们

EVLM: An Efficient Vision-Language Model for Visual Understanding

作者:

Kaibing Chen, Dong Shen, Hanwen Zhong, et al.

作者单位:

快手科技

论文链接:

https://arxiv.org/pdf/2407.14177

简介

在多模态语言模型领域，大多数方法都建立在类似 LLaVA 的架构上。这些模型使用单层 ViT 特征作为视觉提示，将其与文本标记一起直接输入语言模型。然而，在处理长序列的视觉信号或视频等输入时，语言模型的自注意力机制可能会导致大量的计算开销。此外，使用单层 ViT 特征使得大型语言模型难以完全感知视觉信号。本文提出了一种高效的多模态语言模型，以最大限度地降低计算成本，同时使模型能够尽可能全面地感知视觉信号。该方法主要包括：（1）对图像-文本交互采用类似 Flamingo 的交叉注意力。（2）利用分层 ViT 特征。（3）引入混合专家 (MoE) 机制来增强模型有效性。该模型在公共多模态基准上取得了有竞争力的分数，并在图像字幕和视频字幕等任务中表现出色。图 1 显示了模型生成的一些定性示例。

研究动机

目前的研究方法侧重于使用多个视觉编码器来增强视觉信号的编码，或者侧重于使用多个视觉编码器来增强视觉信号的编码，旨在通过提高图像分辨率或切片来改善模型对小物体的感知。分辨率图像。这些方法显着提高了视觉语言模型在细节识别方面的性能，特别是在 OCR 和文档分析等任务中。一旦视觉信号被编码成特征，所得特征通常需要很长的标记长度。

尝试使用多个编码器来提取视觉特征、增加输入图像分辨率或对图像进行切片，特别是在处理视频数据或多个图像输入时，这些操作显着增加了视觉标记的长度。在 LLaVA这样的模型中，直接将过长的视觉标记输入到语言模型中将导致大量的计算开销。另一方面，采用类似于 Q-former的方法压缩视觉特征可能会导致视觉信息丢失。因此，选择适当的策略来平衡计算效率和信息丰富度对于设计高效的视觉语言模型至关重要。

论文贡献

提出了一种高效的视觉语言模型，采用类似于 Flamingo 的交叉注意力机制来实现视觉和文本输入之间的交互。采用交叉注意力可以确保即使使用很长的视觉标记，控制交叉注意力中的特征维度也不会导致过多的计算开销。
采用了分层 ViT 特征，使大规模语言模型能够感知不同级别的视觉信号，从而有助于理解不同粒度的任务。
在交叉注意力上应用了专家混合（MoE）来扩展可训练的模型参数。对大规模双语图像-文本对数据集的广泛预训练使我们的视觉语言模型能够获得丰富的视觉语言知识。

EVLM 模型架构

模型架构基于 Flamingo ，主要由视觉编码器、大语言模型和门控交叉注意力层组成。为了使多模态模型能够捕获更细粒度的视觉信号，从视觉编码器的不同层中提取了分层视觉特征，并增加了 Flamingo 媒体标记的长度。图2是模型框架图。

视觉编码器

为了增强多模态模型的视觉感知能力，文中使用了 4.4B EVA2-CLIP-E-Plus 模型。在实施过程中，文中删除了最后一个transformer块之后的范数层和头层。为了提取分层视觉特征，从 Transformer 的最后 40 层均匀采样 8 个特征序列，并将这 8 个特征序列顺序输入到 Flamingo 的不同门控交叉注意力层中。

门控交叉注意力层

与 Flamingo 类似，文中使用门控交叉注意力在视觉和文本之间进行交互。与 Flamingo 不同，文中用一组序列长度为 16 的可学习标记替换媒体标记 <image>，希望这些可学习标记能够携带类似于 Qformer 的视觉特征。因为并非所有文本序列都必然与视觉特征相关，所以在视觉特征序列上填充一组全零向量。可学习标记、文本序列和视觉特征的注意掩模如图2所示，其中每组可学习标记只能与相应的图像交互，文本序列只能与多模态序列中的前一个图像交互。

大语言模型

使用Qwen-14B-Chat 1.0版本的语言模型，在内容理解和逻辑推理方面表现出色。为了根据视觉输入调节语言模型，文中在语言模型的每个transformer层之前插入一个门控交叉注意力层。

高效训练讨论

文中分析了 EVLM 的计算预算估算，并将其与当前主流模型架构（例如 LLaVA 系列和 Flamingo 系列）的结果进行比较。在 FLOPs 估计中，评估了 LLM 中单个 Transformer 层中的注意力层和 FFN 层。如图3所示，表示LLM的隐藏状态大小，而表示视觉表示的维度。此外，在门控交叉注意力层中，注意力层与的比率表示为，FFN层与的比率也表示为$r_{x_f$。文中区分串联和交叉注意力交互模式，分别称为和。总 FLOP 可以估计如下：

训练过程由三个阶段组成：多模态预训练、多任务持续预训练和多模态指令微调。

多模态预训练主要针对两个目标：1）图像和文本的跨模态对齐，2）对多模态数据内的内在关系进行建模。基于这些目标，文中收集了大规模的图像文本标题数据集和网络型多模态数据。对于图像文本标题数据，我们实施了数据清理过程，以过滤掉异常情况，例如具有异常长宽比的图像和具有重复单词的文本，并确保图像和文本之间的相关性。表 5 说明了预训练数据的分布。获得了25亿条图文字幕数据和5000万条网页型多模态数据。值得注意的是，这些数据中有60%是中文，其中包括大量自建的中文字幕数据。这样做是为了增强多模态模型的细粒度对齐能力，涵盖特定的视觉概念，例如名人、地标建筑和菜肴。

fine-tuning

为了获得更好的性能，文中通过缩放 Gated Xaaten Layer 来获得更多的训练参数。如图 4 所示，采用细粒度 MoE 架构。首先将 EVLM-Base 的 FFN 参数复制 N 次。随后，每个复制的FFN被分割成M个细粒度专家，总共产生N M 个细粒度专家。选择一个routing层，该层选择适当的 k 个细粒度专家集来计算当前令牌的输出。在配置中设置了 n = 4、m = 4 和 k = 4。

文中引入了负责学习常识的世界专家。该专家参与每个token的处理。然后，将世界专家的输出与细粒度专家的输出相结合，得出最终结果。文中采用与密集基线模型相同的训练数据和配置，并冻结 LLM 并仅调整交叉注意层和最后一个季度的 ViT 层。此阶段获得的模型称为EVLM-MoE。

实验结果

如表 4 所示，与其他方法相比，EVLM-Chat 和 EVLM-MoE 在大多数基准测试中都表现出了卓越的性能。

致谢作者，转载请注明出处，关于论文的详细实施过程和具体解释请阅读论文原文哦～❤️❤️

喜欢的话，请别忘记点赞👍➕关注哦

导师一个idea都没给，但也发了顶会AAAI，我摸索的这个方法绝了！

重磅3D多模态MSF框架发布！2D/3D语义分割双模态解析，重塑3D物体检测多语义融合框架

最新进展！全新特征学习框架，深度解析单模态与多模态对比学习泛化差异

揭秘时间魔法！段类型特征驱动的时间序列聚类算法

EMNLP 2024 多模态学习最新论文合集出炉！快速关注热点研究！

文末赠书｜深度揭秘！多模态大模型如何运作？一文读懂其核心原理！

NeurIPS 2024震撼发布：上交大&清华领衔创新，Diff-eRank大模型评估新指标，精准衡量LLM去噪实力！

CVPR投稿倒计时15天！Transformer还能卷出哪些新花样？

I 2025｜快手科技发布突破性EVLM！高效视觉语言模型，极大降低计算成本，实现全面视觉感知！

EMNLP 2024｜南京大学重磅推出EFUF：高效细粒度unlearning框架，全面破解多模态大语言模型“幻觉”难题！

NeurIPS 2024 | G3: 一种基于多模态大模型的高效自适应地理定位框架

港中文、UCL、武大联手攻关！NeurIPS 2024 全新多模态情绪分析模型，精准应对不完整数据挑战！

刷新多模态医学图像报告生成新高度｜AAAI 2023 山东大学&齐鲁医院推出多模态记忆Transformer！

NeurIPS 2024｜多模态学习重磅论文全览！最新研究集锦，不容错过！（下）

NeurIPS 2024｜多模态学习重磅论文全览！最新研究集锦，不容错过！（上）

突破了LLM极限，GPT-o1深度揭秘

港中文、上海AI Lab与浙大重磅推出PointLLM：大语言模型再升级，强势赋能点云理解！-ECCV 2024

NeurIPS 2024 | 像素级MLLM: Vitron, 实现图像视频的理解、生成、分割、编辑大一统

TPAMI 2024 | 基于时空结构对齐的视频-语言表示学习

ECCV 2024｜解锁多模态自监督学习！深度解耦常见与独特表示的创新突破

CVPR2023-基于交互式提示学习的多模态融合方法

CVPR 2024｜多模态大模型引爆！“因果推理”加持, 解锁链接上下文学习的无限潜能

CVPR 2023｜TransFusion震撼登场！突破性语义分割多模态融合网络，点云与图像直接融合！

TPAMI | SegNet:语义分割领域超经典轻量化模型

ECCV 2024｜多模态学习不鲁棒？表示解耦打造稳健多模态学习新纪元

NeurIPS 2021-如何利用知识图谱构建世界模型？！一种新的文本世界建模技术！

文末赠书｜《AI系统：原理与架构》于华为HC大会2024正式发布

又一本开源免费的大模型书来了，449页pdf！

CVPR 2024｜突破模态瓶颈！交替单模态适应引领多模态表示学习，攻克模态惰性与遗忘难题！

速来围观！多模态大型语言模型(MLLM)最新进展与实战应用全揭秘！

学术最前沿！2024最新深度多模态数据融合综述来袭！

AI大模型掀起效率革命！掌握ChatGPT等前沿技术，赋能企事业办公、科研与项目研发实战

ICML 2024｜浙大，NUS等高校联手推出多模态LLM革命性自动编码技术—Morph-Tokens

AAAI 2024｜重磅发布！多模态跟踪新范式：条件生成对抗网络与扩散模型的融合引爆技术革命！

ECCV 2024 | 破解多模态学习：单模态模型联合嵌入助力缺失模态预测新突破！

NeurIPS 2023｜浙大&上海AI Lab&华为联合发表--跨模态泛化的多模态统一表示

TPAMI 2024|打破边界！双向LiDAR相机语义分割中的单到多模态知识蒸馏革命

顶会NeurIPS‘24放榜！接收数量突破4千！8865高分被拒？

NeurIPS 2024|颠覆性发现！大型视觉-语言模型真的会“看”吗？MMStar基准揭示多模态评估误区与数据泄漏隐患

ECCV 2024 ｜中国人民大学、清华大学等提出平衡多模态学习的诊断和再学习方法

TPAMI 2024｜颠覆跨模态相似性学习的“游戏规则”！因果不变交互挖掘CIIM强势来袭：打破模态壁垒，精准捕捉跨模态信息！

TIP 2024｜Mind the Gap! 南开大学提出跨模态 UNet 学习与模态无关的表示

ICLR2024多模态融合论文汇总！时间检验奖和最佳论文奖汇总！

ICML 2024 | 深度解析多模态线性网络中的单模态偏差：突破与新发现！

第一本中文大语言模型教程来了！人大出版，391页！

ICML 2024重磅！GeminiFusion：高效逐像素多模态融合！引领Vision Transformer新纪元！

CVPR 2024｜拥抱单模态不确定性，实现稳健多模态融合！电子科大与同济等联手突破多模态技术瓶颈！

ICML2023重磅！清华、UC、MIT强强联手—突破性提出监督多模态学习中的单模态特征新范式！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉