AAAI2024-南京大学、腾讯联合发表--MmAP:跨域多任务学习的多模态对齐提示

文摘   2024-06-26 21:11   英国  

论文链接:

https://arxiv.org/pdf/2312.08636

代码链接: not be released.

简介

多任务学习(MTL)旨在同时训练多个相关任务,从而提高单个任务的性能。通常,多任务网络结构由共享主干和特定于任务的解码器组成。然而,解码器的复杂性随着任务数量的增加而增加。为了应对这一挑战,作者集成了无解码器视觉语言模型 CLIP,该模型表现出强大的零样本泛化能力。最近,参数高效的迁移学习方法已经通过 CLIP 得到了广泛的探索,以适应下游任务,其中快速调整展示了强大的潜力。然而,这些方法仅微调单一模态(文本或视觉),破坏了 CLIP 的模态结构。因此,作者在文中首先提出了 CLIP 的多模态对齐提示(MmAP),在微调过程中对齐文本和视觉模态。并在 MmAP 的基础上,开发了一个创新的多任务即时学习框架。一方面,为了最大化具有高相似性的任务的互补性,利用梯度驱动的任务分组方法,将任务划分为几个不相交的组,并为每个组分配一个组共享的 MmAP。另一方面,为了保留每个任务的独特特征,为每个任务分配一个特定于任务的 MmAP。对两个大型多任务学习数据集的综合实验表明,与完全微调相比,该方法在仅利用约 ∼ 0.09% 的可训练参数的情况下实现了显著的性能提升。

论文贡献

(1)提出了CLIP 的多模态对齐提示(MmAP),以便在参数高效调整的同时有利地对齐其视觉语言表示。

(2)基于MmAP,设计了一个用于跨域图像识别的多任务提示学习框架,结合了群组共享的MmAP 和任务特定的MmAP。

(3)设计了一个基于CLIP 的统一库,以对多任务图像识别的各种参数高效调整方法进行基准测试。(首次提出)

(4) 在两个常用的视觉多任务数据集上的实验结果表明,与仅利用 ∼ 0.09% 的 CLIP 参数的多任务完全微调相比,该方法实现了有竞争力的性能,如图 1 所示。

多模态对齐提示 (MmAP)

对比语言-图像预训练

图像编码器 文中选择 ViT 作为与视觉提示兼容的图像编码器。

为了获取最终的图像表示 x,来自最后一个transformer层的类标记 通过 ImageProj 投影到 V-L 潜在嵌入空间中:

文本编码器 文本编码器采用包含 K 层的transformer来标记输入单词并将其投影到单词嵌入 中。 直接输入到文本编码器的第 (k + 1) 层 中:

零样本预测 CLIP 的语言分支中的提示通过配备与下游任务相关的每个类名称(例如“[CLASS] 的照片”)来重建文本输入。 然后选择具有最高余弦相似度得分的类作为给定图像的预测标签 ,即:

多模态对齐提示

先前的研究主要集中在为单一模态设计提示。例如,VPT 研究了视觉提示,而 CoOp 则引入了可学习的文本提示。作者认为,仅仅调整一种模态会破坏 CLIP 的文本图像匹配,从而导致下游任务的适应性不佳。最并发的方法 MaPLe 提出使用文本提示通过具有相当大参数的 MLP 生成视觉提示,然而在视觉模态和模型效率方面表现出局限性。

为了解决这些问题,文中提出了多模态对齐提示(MmAP)来同时生成文本提示 和图像提示 。将 b 表示提示的长度,而 分别表示文本和图像标记的尺寸。首先初始化两个模态的源提示 和两个单独的缩放矩阵 。然后,应用 Kronecker Product 来生成文本和图像编码器的提示,如下所示:

多任务即时学习框架

在多任务学习中,相似任务的联合训练可以产生互利的结果。通常,可以通过评估任务之间的梯度冲突来量化任务相似程度。鉴于此,作者首先将类似的任务分组在一起。每个小组都会分配一个共享的 MmAP,这有利于小组内的相互学习和任务的增强。然而,为了保持每个任务的独特特征,为每个任务分配一个单独的 MmAP。这个单独的 MmAP 确保充分满足每项任务的独特特征和要求。多任务提示调优框架图如图3所示。

任务分组  现有的 MTL 工作(Fifty et al. 2021)已经证明,梯度余弦相似度可以量化两个任务的相似度,即两个任务可以从联合训练中受益的程度。因此,文中通过计算共享参数的梯度来评估两个任务的相似性,同时保持预训练的视觉语言模型冻结,如图 3a 所示。

多任务即时学习  在提出的 MmAP 上开发了一个统一的多任务提示学习框架,如图 3b 所示。给定 N 个下游任务 ,首先根据梯度相似性将它们划分为几个不相交的组。为简洁起见,文中将 G 表示为由 |G| 组成的任务组任务 (1 ≤ |G| ≤ N )。然后,为 CLIP 构建包含 K 个transformer层的组共享 MmAP,包括源提示 ,缩放矩阵 = 分别代表语言和视觉分支。组共享的 MmAP 由 G 组内的所有任务累积更新,实现类似任务之间的互补优势。此外,对于 G 组中的每个任务,构建特定于任务的 MmAP 来学习独特的任务特征,包括源提示 、对于语言和视觉分支, 缩放矩阵为

在G组中一个任务的训练过程中,首先在两个编码器中生成第k层的文本和图像提示,然后通过组合类标记、生成的提示和文本/图像标记来重建输入标记从上一层开始。因此,文本和图像编码器中第 k 层的计算可以正式表示为:

这里的[·,·]指的是串联操作。最后,通过优化以下损失来累积更新组共享的 MmAP:

和特定任务的 MmAP 通过以下方式进行训练:

其中 是任务的交叉熵损失。

实验结果

如表 1 所示。首先,观察到所提出的方法与不同数据分割(10% 或 20%)的多任务完全微调相当,而仅需要 0.09%(0.13M 与 149.62M)可训练参数。这代表了多任务图像识别的 CLIP 参数高效调整方面的重大突破。其次,所提出的方法始终优于其他参数高效调整方法。与提示方法(即 MaPLe-MT、CoOp-MT 和 VPTMT)相比,所提出的方法表现出显着的改进,突出了在调整 CLIP 并将小组共享和特定任务结合起来时整合视觉和文本模式的必要性知识。关于可训练参数的数量,所提出的方法仅次于CoOp-MT,实现了准确性和可训练参数之间的最佳权衡。第三,还发现提示方法优于 CLIPAdapter 和 BitFit,这表明使用 CLIP 对齐下游数据是一种更有效的方法。

作者研究了训练数据大小对 Office-Home(四项任务)的影响。为每个类别选择 1/3/6/12 个镜头,并将提出的 MmAP 与 CoOp-MT、VPT-MT 和 MaPLe-MT 进行比较。图 4 显示了不同训练数据规模下每个任务和方法的结果。结果表明, MmAP方法在跨数据规模的四个任务上超越了所有其他基线,证实了我们的方法具有很强的泛化性。然而,与艺术和现实世界任务的 1-shot 设置中的 Zero-Shot 相比,所有方法都表现不佳。这可能是因为 1-shot 过于具体,无法作为整个任务的一般表示。当提供 3 个或更多镜头进行训练时, MmAP方法引入的平均性能差距是巨大的。

更详细的内容和实施过程请访问点击👉原文链接

喜欢的话,请别忘记点赞👍➕关注哦~


推荐阅读

CVPR2024—重磅来袭!西工大团队提出通用多模态医学数据表示学习方法!持续自监督学习!

CVPR2024-多模态MLM新SOTCVPR2024-多模态MLM新SOTA,因果上下文生成解决视觉问答任务

CVPR2023-动态多模态特征融合! 模态级分类!融合级语义分割!

ICML2024 多模态大语言模型相关论文集锦!!大模型热度不减!

浙江大学最新发布!从ChatGPT到WorldGP浙江大学最新发布!从ChatGPT到WorldGPT-基于多模态LLM的通用世界模型


多模态机器学习与大模型
多模态机器学习与大模型 致力于推荐、分享、解读多模态机器学习相关的前沿论文成果,讨论大语言模型先进技术,助力AI研究者进步。 合作交流请+V:Multimodal2024,谢谢❤️
 最新文章