ICML2023| 解密冻结大语言模型引导视觉-语言预训练前沿技术,弥补多模态差距

文摘   2024-07-16 19:21   英国  

论文链接:

https://arxiv.org/pdf/2301.12597

代码链接:

https://github.com/salesforce/LAVIS/tree/main/projects/blip2

简介

大模型的端到端训练使得视觉和语言预训练的成本变得越来越昂贵。作者提出了一种通用且高效的预训练策略 BLIP-2,从现成的冻结预训练图像编码器和冻结大语言模型中引导视觉语言预训练。BLIP-2 使用轻量级Querying Transformer (QFormer) 弥补模态差距,分两个阶段进行预训练。第一阶段从冻结图像编码器引导视觉语言表示学习。第二阶段从冻结语言模型引导视觉到语言的生成学习。BLIP-2的可训练参数比现有方法少得多,且在各种视觉语言任务上都实现了最佳性能。例如,BLIP-2模型在零样本 VQAv2 上的表现比 Flamingo80B 高出 8.7%,可训练参数减少了 54 倍。文中还展示了该模型可以遵循自然语言指令的零样本图像到文本生成的新功能。

动机

(1)单模态预训练模型在预训练期间保持冻结状态,以降低计算成本并抵消灾难性遗忘问题。

(2)为了利用预训练的单模态模型进行 VLP,促进跨模态对齐是关键。然而,由于LLM在单模态预训练期间没有看到图像,因此冻结它们使得视觉-语言对齐特别具有挑战性。而且,现有方法不足以弥合模态差距。

论文贡献

(1)BLIP-2 有效地利用了冻结的预训练图像模型和语言模型。文中使用分两个阶段预训练的 Q-Former 来弥补模态差距:表示学习阶段和生成学习阶段。BLIP-2 在各种视觉语言任务上实现了最先进的性能,包括视觉问答、图像字幕和图像文本检索。

(2)在 LLM的支持下,BLIP-2 可以被提示执行遵循自然语言指令的零样本图像到文本生成,实现视觉知识推理、视觉对话等新兴能力。

(3)由于使用了冻结模态模型和轻量级 Q-Former,BLIP-2 比现有最先进的技术更具计算效率。例如,BLIP-2 在零样本 VQAv2 上的性能比 Flamingo 高出 8.7%,同时使用的可训练参数少了 54 倍。此外,结果表明 BLIP-2 是一种通用方法,可以收获更先进的单模态模型以获得更好的 VLP 性能。

BLIP-2

BLIP-2基于一个分两个阶段预训练的查询transformer(Q-Former),如图1所示:(1)使用冻结图像编码器的视觉语言表示学习阶段和(2)视觉到语言生成学习阶段与冻结的 LLM。

模型架构

Q-Former 作为可训练模块,以弥补冻结图像编码器和冻结 LLM 之间的差距。它从图像编码器中提取固定数量的输出特征,与输入图像分辨率无关。如图 2 所示,Q-Former 由两个共享相同自注意力层的transformer子模块组成:(1) 与冻结图像编码器交互以进行视觉特征提取的图像transformer,(2) 可以运行的文本 transformer作为文本编码器和文本解码器。文中创建一组可学习的查询嵌入作为图像transformer的输入。查询通过自注意力层相互交互,并通过交叉注意力层(插入每个其他transformer块)与冻结图像特征交互。查询还可以通过相同的自注意力层与文本进行交互。根据预训练任务,应用不同的自注意力掩码来控制查询文本交互。作者使用 BERTbase 的预训练权重初始化 QFormer,而交叉注意力层是随机初始化的。Q-Former 总共包含 188M 个参数。其中,查询被视为模型参数。

从冻结图像编码器学习引导视觉语言表示

在表示学习阶段,将 Q-Former 连接到冻结图像编码器,并使用图像文本对进行预训练。目标是训练 Q-Former,以便查询能够学习提取最能提供文本信息的视觉表示。受 BLIP 的启发,联合优化了三个共享相同输入格式和模型参数的预训练目标。每个目标在查询和文本之间采用不同的注意力屏蔽策略来控制它们的交互(参见图 2)。

从冻结的LLM中引导视觉到语言的生成学习

在生成预训练阶段,将 QFormer(附有冻结图像编码器)连接到冻结的 LLM,以获取 LLM 的生成语言能力。如图 3 所示,使用全连接 (FC) 层将输出查询嵌入 Z 线性投影到与 LLM 的文本嵌入相同的维度。然后将投影的查询嵌入添加到输入文本嵌入的前面。它们充当软视觉提示,根据 Q-Former 提取的视觉表示对 LLM 进行条件调节。由于 Q-Former 已预先训练以提取语言信息丰富的视觉表示,因此它有效地充当了信息瓶颈,将最有用的信息提供给 LLM,同时删除不相关的视觉信息。这减轻了 LLM 学习视觉语言对齐的负担,从而缓解了灾难性的遗忘问题。

作者尝试了两种类型的 LLM:基于解码器的 LLM 和基于编码器-解码器的 LLM。对于基于解码器的 LLM,使用语言建模损失进行预训练,其中冻结的 LLM 的任务是根据 Q-Former 的视觉表示生成文本。对于基于编码器-解码器的 LLM,使用前缀语言建模损失进行预训练,其中文中将文本分成两部分。前缀文本与视觉表示连接在一起作为 LLM 编码器的输入。后缀文本用作 LLM 解码器的生成目标。

实验

BLIP-2 有效地使LLM能够理解图像,同时保留其遵循文本提示的能力,能够通过指令控制图像到文本的生成。只需在视觉提示后面附加文本提示作为 LLM 的输入。图 4 显示了演示各种零样本图像到文本功能的示例,包括视觉知识推理、视觉共义推理、视觉对话、个性化图像到文本生成等。

表 1 概述了 BLIP-2 在各种零样本视觉语言任务上的性能。与之前最先进的模型相比,BLIP-2 实现了更高的性能,同时在视觉语言预训练期间需要的可训练参数数量大幅减少。

更详细的内容和实施过程请访问点击👉原文链接

喜欢的话,请别忘记点赞👍➕关注哦~


推荐阅读

ECCV2024|GalLoP:多模态提示学习——视觉-语言模型的全局和局部提示

ICML 2024 |多模态最新进展!单模态增益多模态学习,解决多模态和单模态学习目标梯度冲突问题

NeurIPS 2023|浙大&上海AI Lab&华为联合发表--跨模态泛化的多模态统一表示

AAAI2024-南京大学、腾讯联合发表--MmAP:跨域多任务学习的多模态对齐提示

CVPR2024—重磅来袭!西工大团队提出通用多模态医学数据表示学习方法!持续自监督学习!

多模态机器学习与大模型
多模态机器学习与大模型 致力于推荐、分享、解读多模态机器学习相关的前沿论文成果,讨论大语言模型先进技术,助力AI研究者进步。 合作交流请+V:Multimodal2024,谢谢❤️
 最新文章