ECCV 2024 | UCF联合亚马逊提出X-Former框架,显著提升MLLM细粒度理解能力

创业   科技   2024-09-06 08:22   北京  

近来多模态大型语言模型(MLLM)大多都建立在预训练视觉语言对比模型的基础之上(以CLIP模型为代表),例如将对比模型的视觉编码器直接引入到MLLM中。这些视觉编码器在捕捉图像整体表征方面表现出了鲁棒的性能,但是在局部细节的感知仍然存在问题。为此,本文介绍一篇专注于改进MLLM中视觉编码器的工作,本文的研究团队来自UCF和Amazon,目前已发表在视觉顶级会议ECCV 2024上。

本文引入了一种称为X-Former的轻量级Transformer模块,通过将masked image modeling(MIM)获得的高频局部特征和对比学习(CL)获得的语义低频信息进行结合,从而实现更高效的视觉语言多模态特征建模。X-Former首先从两个冻结的视觉编码器CLIP-ViT和MAE-ViT出发,引导视觉语言表征的建模和学习。随后作者将其部署到冻结的 LLM 中来引导视觉到语言的生成学习,这样可以确保 X-Former得到的视觉特征被LLM所理解,从而提升整体模型在下游任务的性能。通过大量的实验证明,X-Former在涉及到结构和语义类别的视觉推理任务中有明显的优势。

论文题目: 

X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs

论文链接:

https://arxiv.org/abs/2407.13851

一、引言

当前主流的MLLMs(例如如Flamingo、BLIP-2、LLaVA等)在细粒度视觉理解任务上已经达到性能瓶颈,这主要是因为它们均依赖于CLIP-ViT作为视觉编码器,而CLIP-ViT模型由于对比学习等训练目标的特性,更加倾向于捕获低频信号和全局视觉模式,这导致模型在理解局部细节和高频信息方面存在局限性。

为了解决这一问题,近期的一些研究[1]建议通过L1loss从预训练CLIP中蒸馏细节特征,但这种方法需要使用大规模数据集(例如LLaVA-150k)进行指令微调,操作成本较高。综合上述分析,本文提出了一种轻量的X-Former架构,其核心设计是对对比学习和MIM的训练目标进行线性组合,整合两种自监督视觉编码器的优势,以提取更全面的视觉特征。基于自监督对比范式,X-Former可以有效削减参与预训练的数据量,与baseline模型BLIP-2相比,X-Former仅使用14M个图像文本对进行训练,而BLIP-2使用129M个图像文本对,数据量大概是X-Former的十倍。X-Former在各种强调细粒度视觉感知任务中均优于BLIP-2,例如物体计数(object counting)和图像文本查询(image-text queries)等

二、本文方法

2.1 从Q-Former出发

从架构设计角度来看,本文提出的X-Former是建立在被广泛使用的Q-Former基础之上。Q-Former最初是在BLIP-2[2]中引入的,如下图(a)所示,目的是为了拉进冻结CLIP-ViT和LLM之间的模态差距。考虑到这种方法在理解图像局部细节和高频信息方面的局限性。本文作者提出将CLIP-ViT 和 MAE-ViT 两种模型的图像特征进行组合,如下图(b)所示,即首先部署一个线性层将两者的特征进行对齐后作为Q-Former的输入,这种操作简单直接,却忽略了MAE 和 CLIP两种架构所提特征之间的差异。

为了避免直接拼接所带来的特征差异问题,作者考虑在拼接之前就对两者的特征进行交互,例如上图(c)所示,通过在Q-Former中引入额外的交叉注意力层进行早期交互来提高组合性能。作者通过实验证明(如下图所示),这种早期交互方法虽然相比原始Q-Former和直接拼接策略的性能有些许提高,但是显著增加了Q-Former的可训练参数规模,训练参数达到了183M(比 BLIP-2 多出约 75M),成本较高。
为了缓解这种问题并促进两种特征之间的高效交互,本文提出了X-Former架构,其核心性能来源于一种全新设计的双重交叉注意力机制,这使得模型能够有效地融合来自 CLIP-ViT 和 MAE-ViT 的不同类型的视觉信息。

2.2 X-Former

X-Former的整体框架如下图所示,包含两个冻结参数的图像编码器,CLIP-ViT 和 MAE-ViT;一个冻结参数的图像解码器,用于执行图像重建任务;一个可训练的 X-Former 模块,用于拉近模态差距并提取 LLM 可解释的视觉特征。
其中CLIP-ViT使用预训练的ViT-G,其经过视觉-语言对比学习进行预训练,可以捕获图像的全局语义信息。MAE-ViT使用预训练的 ViT-H 模型,MAE-ViT 通过Masked图像建模预训练,适合捕获图像的局部细节和高频信息。两个编码器在训练过程中保持冻结状态,不进行微调。X-Former 模块是整个架构的核心,它负责处理来自 CLIP-ViT 和 MAE-ViT 的视觉特征,首先接收一组可学习的查询嵌入 、输入文本 和图像特征 ,其中 来自 CLIP-ViT, 来自 MAE-ViT。随后使用双重交叉注意力机制执行特征融合:

在第一个交叉注意力层中,使用 MAE 特征 作为查询,Q-Former 输出 作为key和value。这样做的目的是将全局语义信息注入到 MAE 的局部特征中。而在第二个交叉注意力层中,使用增强后的 MAE 特征 来进一步增强 Q-Former 的输出 这样做可以将细粒度的局部信息融入到全局表示中。这种双向的信息流动使得 X-Former 能够同时捕获和整合全局语义信息和局部细节信息

2.3 X-Former的训练

2.3.1 预训练阶段

X-Former 的训练分为预训练和 LLM 对齐两个主要阶段,在预训练阶段,作者引入了视觉语言多模态领域中常用的四个损失函数进行优化

(1)图像-文本对比损失 (ITC):

ITC主要计算计算文本嵌入的 [CLS] token 与每个最终输出查询嵌入 之间的相似度,选择最高相似度作为图像-文本相似度。同时在优化过程中,仅使用单模态的自注意力mask,确保查询和文本不进行交互
(2)图像-文本匹配损失 (ITM):
ITM负责预测图像-文本对是否匹配(正样本)或不匹配(负样本),使用双向自注意力mask,允许所有查询和文本相互关注。并将输出查询的嵌入送入到分类器获取logits,最后对所有查询的logits取平均得到最终的匹配分数。
(3)图像-文本生成损失 (ITG):
ITG使用输入图像作为条件来生成文本,使用多模态因果(causal)自注意力mask,这种mask机制使得查询可以相互关注但不能关注文本token,从而实现单向的文本token预测
(4)图像重构损失:
图像重构损失与MAE自编码器保持一致,即使解码器重建被mask的图像块,鼓励模型从未被mask的块中提取有用的局部信息

2.3.2 LLM 对齐阶段

在LLM 对齐阶段,X-Former的优化目标是将学习到的视觉表示与冻结的 LLM 进行对齐。这使得LLM可以理解视觉编码器提取的特征,从而提升整体模型在下游任务的性能。LLM对齐过程如下图所示,具体来说,作者首先将预训练的 X-Former 输出 通过一个全连接层连接到 LLM,全连接层的作用是将 X-Former 的输出空间对齐到 LLM 的表示空间中
对齐过程使用语言建模损失进行优化,图像编码器和LLM的参数处于冻结状态,仅更新X-Former和引入的全连接层的参数,这种设计使得X-Former能够进一步的建模图像全局语义信息和局部细节信息,同时与下游的LLM建立联系。

三、实验效果

本文的实验在多种视觉语言理解任务上进行,例如零样本视觉问答(在VQAv2、GQA和OKVQA数据集上评估),细粒度视觉感知评估(在物体计数和多类别识别数据集上进行)和零样本图像描述(在COCO和NoCaps数据集上评估)。X-Former的预训练语料使用一个包含了约14M图像-文本对的标准数据集,该数据集由COCO、Visual Genome、SBU、CC3M和CC12M中的数据构成。X-Former的编码器分别选用ViT-G和ViT-H,语言解码器使用OPT模型,包括2.7B和6.7B两个版本。在预训练阶段,模型训练9个epoch,而在LLM对齐阶段,模型训练1个epoch。

3.1 零样本视觉问答

本文的零样本视觉问答实验主要在GQA数据集上进行,该数据集的样本分为结构和语义两大类别,其中结构类别包含五种问题类型(验证、开放式查询问题、从选项中选择、逻辑推理和对象比较),语义类别包括与对象存在、对象属性、对象类别、全局场景和对象关系相关的问题。
在上图中展示的结果可以得知,本文方法在结构和语义两种类别上的问题回答均优于对比baseline模型BLIP-2。此外,作者在下表中进一步展示了X-Former分别使用OPT-6.7B和OPT-2.7B作为LLM的性能数据,可以看到在GQA数据集上,X-Former的最佳性能达到34.9%的准确率,显著优于BLIP-2。
此外,上表中X-Former在OKVQA数据集上的表现也非常出色,OKVQA数据集侧重于评估模型利用外部知识回答问题的能力,本文的方法相比 BLIP-2 的回答准确率有显著提高,分别在 OPT-6.7B 和 OPT-2.7B 上实现了 2.7% 和 3.5% 的性能增益。这表明本文方法在准确地将视觉信息与 LLM 对齐以及有效利用外部知识来回答问题方面具有很强的鲁棒性

3.2 细粒度视觉感知

为了证明本文方法在细粒度视觉方面的理解能力,本文作者选用了物体计数(OC)和多类别识别(MCI)两种任务进行评估。两种任务均采用问答的形式进行,其中OC任务的问题形式为“图像中有多少个{对象}?”,MCI任务的问题形式为“图像中是否存在{对象}?”。
上表展示了本文方法与BLIP-2的性能对比,在OC任务中,X-Former在COCO数据集上达到了39.64%的准确率,比BLIP-2提高13%,这表明 X-Former 能够提取详细的视觉特征,在细粒度视觉理解任务上具有一定的优势。
上图展示了X-Former在上述多种任务上的可视化效果,对于物体计数任务而言,模型需要深入了解图像中的局部背景,从而得出正确的计数。如上图(a)所示,本文方法正确地计算了图像中的六个甜甜圈,而 BLIP-2 错误地预测了四个。这表明该模型能够区分单个物体,即使它们紧密聚集在一起。上图(e)展示了一个极具挑战性的复杂场景,在该场景中,BLIP-2 的物体识别能力会受到限制,错误地将停车杆的形状解释为消防栓,而X-Former可以准确的将其识别为停车杆。

四、总结

本文提出了一种全新的架构X-Former来增强MLLMs的视觉理解能力,X-Former巧妙地结合 CLIP-ViT 和 MAE-ViT 的优势,并引入双重交叉注意力机制来实现全局和局部视觉特征的有效融合。X-Former通过使用可学习的查询嵌入来提取视觉特征,这种方法具有很高的灵活性,查询嵌入可以自适应地关注图像中的不同区域和特征。此外,X-Former在预训练阶段同时优化多个目标,这种多任务学习策略有助于学习到更加鲁棒和通用的视觉-语言表示,从而提高模型在各种下游任务上的性能,特别是在需要细粒度视觉理解的任务上。

参考资料

[1] Wang, G., Ge, Y., Ding, X., Kankanhalli, M., Shan, Y.: What makes for good visual tokenizers for large language models? (2023)

[2] Li, J., Li, D., Savarese, S., Hoi, S.: BLIP-2: bootstrapping language-image pretraining with frozen image encoders and large language models. In: ICML (2023)


llustration From IconScout By Imamfathoni0

-The End-

扫码观看

本周上新!


“AI技术流”原创投稿计划


TechBeat是由将门创投建立的AI学习社区(www.techbeat.net社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。


投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //


投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励


投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信(yellowsubbj投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。


关于我“

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”: 
bp@thejiangmen.com

    


点击右上角,把文章分享到朋友圈
点击“阅读原文”按钮,查看社区原文

将门创投
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器,由前微软创投在中国的创始团队于2015年底创立。公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
 最新文章