AAAI2024-南京大学、腾讯联合发表--MmAP：跨域多任务学习的多模态对齐提示

文摘 2024-06-26 21:11 英国

论文链接：

https://arxiv.org/pdf/2312.08636

代码链接： not be released.

简介

多任务学习（MTL）旨在同时训练多个相关任务，从而提高单个任务的性能。通常，多任务网络结构由共享主干和特定于任务的解码器组成。然而，解码器的复杂性随着任务数量的增加而增加。为了应对这一挑战，作者集成了无解码器视觉语言模型 CLIP，该模型表现出强大的零样本泛化能力。最近，参数高效的迁移学习方法已经通过 CLIP 得到了广泛的探索，以适应下游任务，其中快速调整展示了强大的潜力。然而，这些方法仅微调单一模态（文本或视觉），破坏了 CLIP 的模态结构。因此，作者在文中首先提出了 CLIP 的多模态对齐提示（MmAP），在微调过程中对齐文本和视觉模态。并在 MmAP 的基础上，开发了一个创新的多任务即时学习框架。一方面，为了最大化具有高相似性的任务的互补性，利用梯度驱动的任务分组方法，将任务划分为几个不相交的组，并为每个组分配一个组共享的 MmAP。另一方面，为了保留每个任务的独特特征，为每个任务分配一个特定于任务的 MmAP。对两个大型多任务学习数据集的综合实验表明，与完全微调相比，该方法在仅利用约 ∼ 0.09% 的可训练参数的情况下实现了显著的性能提升。

论文贡献

（1）提出了CLIP 的多模态对齐提示（MmAP），以便在参数高效调整的同时有利地对齐其视觉语言表示。

（2）基于MmAP，设计了一个用于跨域图像识别的多任务提示学习框架，结合了群组共享的MmAP 和任务特定的MmAP。

（3）设计了一个基于CLIP 的统一库，以对多任务图像识别的各种参数高效调整方法进行基准测试。（首次提出）

（4）在两个常用的视觉多任务数据集上的实验结果表明，与仅利用 ∼ 0.09% 的 CLIP 参数的多任务完全微调相比，该方法实现了有竞争力的性能，如图 1 所示。

多模态对齐提示 (MmAP)

对比语言-图像预训练

图像编码器 文中选择 ViT 作为与视觉提示兼容的图像编码器。

为了获取最终的图像表示 x，来自最后一个transformer层的类标记通过 ImageProj 投影到 V-L 潜在嵌入空间中：

文本编码器 文本编码器采用包含 K 层的transformer来标记输入单词并将其投影到单词嵌入中。直接输入到文本编码器的第 (k + 1) 层中：

零样本预测 CLIP 的语言分支中的提示通过配备与下游任务相关的每个类名称（例如“[CLASS] 的照片”）来重建文本输入。然后选择具有最高余弦相似度得分的类作为给定图像的预测标签，即：

多模态对齐提示

先前的研究主要集中在为单一模态设计提示。例如，VPT 研究了视觉提示，而 CoOp 则引入了可学习的文本提示。作者认为，仅仅调整一种模态会破坏 CLIP 的文本图像匹配，从而导致下游任务的适应性不佳。最并发的方法 MaPLe 提出使用文本提示通过具有相当大参数的 MLP 生成视觉提示，然而在视觉模态和模型效率方面表现出局限性。

为了解决这些问题，文中提出了多模态对齐提示（MmAP）来同时生成文本提示和图像提示。将 b 表示提示的长度，而和分别表示文本和图像标记的尺寸。首先初始化两个模态的源提示和两个单独的缩放矩阵和。然后，应用 Kronecker Product 来生成文本和图像编码器的提示，如下所示：

多任务即时学习框架

在多任务学习中，相似任务的联合训练可以产生互利的结果。通常，可以通过评估任务之间的梯度冲突来量化任务相似程度。鉴于此，作者首先将类似的任务分组在一起。每个小组都会分配一个共享的 MmAP，这有利于小组内的相互学习和任务的增强。然而，为了保持每个任务的独特特征，为每个任务分配一个单独的 MmAP。这个单独的 MmAP 确保充分满足每项任务的独特特征和要求。多任务提示调优框架图如图3所示。

任务分组 现有的 MTL 工作（Fifty et al. 2021）已经证明，梯度余弦相似度可以量化两个任务的相似度，即两个任务可以从联合训练中受益的程度。因此，文中通过计算共享参数的梯度来评估两个任务的相似性，同时保持预训练的视觉语言模型冻结，如图 3a 所示。

多任务即时学习 在提出的 MmAP 上开发了一个统一的多任务提示学习框架，如图 3b 所示。给定 N 个下游任务，首先根据梯度相似性将它们划分为几个不相交的组。为简洁起见，文中将 G 表示为由 |G| 组成的任务组任务 (1 ≤ |G| ≤ N )。然后，为 CLIP 构建包含 K 个transformer层的组共享 MmAP，包括源提示，缩放矩阵 = 和分别代表语言和视觉分支。组共享的 MmAP 由 G 组内的所有任务累积更新，实现类似任务之间的互补优势。此外，对于 G 组中的每个任务，构建特定于任务的 MmAP 来学习独特的任务特征，包括源提示、对于语言和视觉分支, 缩放矩阵为和。

在G组中一个任务的训练过程中，首先在两个编码器中生成第k层的文本和图像提示，然后通过组合类标记、生成的提示和文本/图像标记来重建输入标记从上一层开始。因此，文本和图像编码器中第 k 层的计算可以正式表示为：

这里的[·,·]指的是串联操作。最后，通过优化以下损失来累积更新组共享的 MmAP：

和特定任务的 MmAP 通过以下方式进行训练：

其中是任务的交叉熵损失。

实验结果

如表 1 所示。首先，观察到所提出的方法与不同数据分割（10% 或 20%）的多任务完全微调相当，而仅需要 0.09%（0.13M 与 149.62M）可训练参数。这代表了多任务图像识别的 CLIP 参数高效调整方面的重大突破。其次，所提出的方法始终优于其他参数高效调整方法。与提示方法（即 MaPLe-MT、CoOp-MT 和 VPTMT）相比，所提出的方法表现出显着的改进，突出了在调整 CLIP 并将小组共享和特定任务结合起来时整合视觉和文本模式的必要性知识。关于可训练参数的数量，所提出的方法仅次于CoOp-MT，实现了准确性和可训练参数之间的最佳权衡。第三，还发现提示方法优于 CLIPAdapter 和 BitFit，这表明使用 CLIP 对齐下游数据是一种更有效的方法。

作者研究了训练数据大小对 Office-Home（四项任务）的影响。为每个类别选择 1/3/6/12 个镜头，并将提出的 MmAP 与 CoOp-MT、VPT-MT 和 MaPLe-MT 进行比较。图 4 显示了不同训练数据规模下每个任务和方法的结果。结果表明， MmAP方法在跨数据规模的四个任务上超越了所有其他基线，证实了我们的方法具有很强的泛化性。然而，与艺术和现实世界任务的 1-shot 设置中的 Zero-Shot 相比，所有方法都表现不佳。这可能是因为 1-shot 过于具体，无法作为整个任务的一般表示。当提供 3 个或更多镜头进行训练时， MmAP方法引入的平均性能差距是巨大的。

更详细的内容和实施过程请访问点击👉原文链接

喜欢的话，请别忘记点赞👍➕关注哦～

ICML2023重磅！清华、UC、MIT强强联手—突破性提出监督多模态学习中的单模态特征新范式！

震撼发布！低质量多模态数据融合方法最新进展！天津大学携手顶尖高校推出重磅综述！

IJCAI2024-连续多模态知识图谱构建，实现动态场景中新实体和关系的添加

ICML 2024｜多模态数据融合理论创新！天津大学提出预测多模态动态融合框架

ICML2024 多模态大语言模型相关论文集锦！！大模型热度不减！

地表最强模型GPT4o-latest模型重夺第一，力压谷歌！

TPAMI 2024｜跨模态联邦学习！中科院自动化所提出跨模态联邦人类活动识别方法

ECCV2024｜GalLoP：多模态提示学习——视觉-语言模型的全局和局部提示

牛津大学发布Nature新作！教你如何使用语义熵检测大语言模型中的幻觉

CVPR2024—重磅来袭！西工大团队提出通用多模态医学数据表示学习方法！持续自监督学习！

AI 之王 GPT-6 猎户座来了！大模型杀疯了

CVPR 2024｜北大携手阿里巴巴提出幻觉增强对比学习的多模态大模型

大模型顶级瘦身术！知识蒸馏联合提示学习！

ECCV 2024 | 如何利用自监督学习强化多模态模型的领域泛化和自适应

ECCV 2024｜奥秘揭晓：小样本学习突破，跨领域多模态知识蒸馏动作识别

ACM MM 2024 | PC2: 用于跨模态检索中噪声对应学习的基于伪分类的伪标题方法-新基准数据集

ACL 2024｜抢先知！多模态大语言模型最新综述！

火遍科研圈！中国科学院「紫东太初」如何打破机器幻觉之谜？

中山大学、鹏城实验室等首发！CVPR 2024| DMR：分解多模态表示——视觉强化学习中帧和事件融合

CVPR 2024｜中国人民大学创新基于样本级模态评估的多模态协作增强方法

ACL 2024｜机器学习新纪元！多模态机器学习火热论文汇总特辑！（下）

大神李宏毅“机器学习”课程集结成书，Datawhale新书出版了！

2024年了，Diffusion模型还有哪些能做的？

ACL 2024｜机器学习新纪元！多模态机器学习火热论文汇总特辑！（上）

又一种新的通用世界模型！WorldDreamer：通过预测屏蔽token带来新颖的视频生成方法！

AAAI 2024｜Structure-CLIP—利用场景图知识增强多模态结构化表示

论文速递｜追踪多模态机器学习领域最新研究动态！

北航、小米EV创新MV2DFusion多模态3D检测框架，自动驾驶技术新飞跃！

文末赠书｜作者硬核，内容透彻接地气的多模态大模型通识读本！国家队大模型紫东太初负责人王金桥力作

ECCV 2024｜多模态学习新突破！中国人民大学、清华大学等提出诊断和再学习方法平衡多模态训练

投稿必读

又一篇多模态顶会！这个idea简直“ 杀疯了 ” ....

ACM MM 2024 | PC2: 用于跨模态检索中噪声对应学习的基于伪分类的伪标题方法-新基准数据集

多模态再次爆发！

TPAMI 2024|华南理工大学等继PMF后提出改进版本EPMF！高效感知多传感器融合，解决3D语义分割问题

ACL 2024 ｜南京大学与上海AI Lab提出多模态GUI智能体，像人一样操作手机电脑

TIP 2024｜Mind the Gap! 南开大学提出跨模态 UNet 学习与模态无关的表示

中科院深圳研究院发布多模态医学图像分割新进展！MICFormer：多模态信息交互!

中山大学、鹏城实验室等首发！CVPR 2024| DMR：分解多模态表示——视觉强化学习中帧和事件融合

ICML2023| 解密冻结大语言模型引导视觉-语言预训练前沿技术，弥补多模态差距

ECCV2024｜GalLoP：多模态提示学习——视觉-语言模型的全局和局部提示

NeurIPS 2023｜浙大&上海AI Lab&华为联合发表--跨模态泛化的多模态统一表示

AAAI2024-南京大学、腾讯联合发表--MmAP：跨域多任务学习的多模态对齐提示

CVPR2024—重磅来袭！西工大团队提出通用多模态医学数据表示学习方法！持续自监督学习！

CVPR2024-多模态MLM新SOTA，因果上下文生成解决视觉问答任务

CVPR2023-动态多模态特征融合！模态级分类！融合级语义分割！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉