ECCV 2024|解锁多模态自监督学习!深度解耦常见与独特表示的创新突破

文摘   2024-10-20 08:23   英国  

点击上方蓝字关注我们


Decoupling Common and Unique Representations for Multimodal Self-supervised Learning

作者: Yi Wang , Conrad M Albrecht , Nassim Ait Ali Braham, Chenying Liu , Zhitong Xiong , and Xiao Xiang Zhu

作者单位:

德国慕尼黑工业大学,德国航空航天中心遥感技术研究所,慕尼黑机器学习中心

论文链接:

https://arxiv.org/pdf/2309.05300

代码链接:

https://github.com/zhu-xlab/DeCUR

简介

大多数现有多模态自监督方法仅学习跨模态的通用表示,而忽略模态内训练和模态独特的表示。文中提出了一种简单而有效的多模态自监督学习方法,即解耦通用和独特表示(DeCUR)。通过减少多模态冗余来区分模态间和模内嵌入,DeCUR 可以整合不同模态之间的互补信息。文中在三种常见的多模态场景(雷达光学、RGB 仰角和 RGB 深度)中评估 DeCUR,并展示其持续改进,无论架构如何,以及多模态和模态缺失设置。

研究动机

特征嵌入维度可以分为跨模态常见维度模态独特维度。在训练过程中,计算两种模态之间的公共维度和唯一维度的归一化互相关矩阵,并将公共维度的矩阵驱动到恒等,而将唯一维度的矩阵驱动到零。因此,常见的嵌入在不同模态中保持一致,而模态独特的嵌入则被排除。

图 1:t-SNE 可视化的两种模态的解耦共同和独特表示

然而,简单地推开独特的维度将导致崩溃,因为这些维度无法学习任何有用的信息。因此,除了跨模态学习之外,文中还包括模态内学习,利用所有嵌入维度并将同一模态的两个增强视图之间的互相关矩阵驱动到同一模态。这种模态内组件不仅通过让独特的维度在一种模态内学习有意义的表示来避免崩溃,而且还通过更强大的模态内知识来增强跨模态学习。图 1 提供了学习表示的潜在空间的 t-SNE可视化,其中每种模态的共同和独特嵌入,以及模态之间的模态独特嵌入都被很好地分开。

论文贡献

  • 提出了 一种简单而有效的多模态自监督学习方法 DeCUR,将不同模态之间的常见和独特表示解耦,并增强模内和模间学习。对于ConvNet主干网,采用可变形注意力的简单调整来进行模态信息特征学习。

  • 通过丰富的实验和涵盖三个重要多模态场景的综合分析来评估 DeCUR,证明其在多模态和模态缺失环境中的有效性。

方法

图 2:DeCUR 的结构。M 1 和M 2 代表两种模态。来自每种模态的两个增强视图被馈送到特定于模态的编码器(E1,E2)和投影仪(P 1,P 2)以获得嵌入Z。

图 2 展示了 DeCUR 的总体结构。作为 Barlow Twins 的多模态扩展,DeCUR 通过从模内/跨模态角度减少增强视图的联合嵌入空间中的冗余来执行自监督学习。本文的主要贡献在于简单的损失设计,以解耦跨模态的有意义的模态独特表示。

解耦common和独特的表示

如图 2 所示,将来自每种模态的输入的两批增强视图输入模态特定的编码器和投影。批量归一化应用于嵌入,使得它们沿批量维度以均值为中心。然后使用这些嵌入来计算模态之间/模态内的互相关矩阵以进行优化。

互相关矩阵 给定两个嵌入向量 ,它们之间的互相关矩阵 C 表示为:

跨模态表示解耦 在跨模态情况下,计算来自不同模态的两个嵌入之间的相关矩阵C,如图2中的。而大多数多模态自监督学习算法仅考虑它们的共同表示,w文中明确考虑模态唯一表示的存在,并在训练期间将它们解耦。具体来说,将总嵌入维度 K 分为 ,其中 分别存储公共和唯一表示。跨模态的通用表示应该是相同的(图 2 中的红色部分),而模态特定的独特表示应该是去相关的(图 2 中的蓝色部分).

跨模态通用表示的冗余减少损失如下:

模态唯一表示的冗余减少损失如下:

模内表示增强 为了避免跨模态训练中解耦的唯一维度的崩溃,以及增强模内表示,文中引入了涵盖所有嵌入维度的模内训练。对于每种模态,互相关矩阵 (或 Z'_{M1}$ 和 Z''{M1}(或 $Z'{M2} 和 )的全维度生成的。模态内表示的冗余减少损失如下:

结合跨模态常见和独特损失以及模内损失,DeCUR 的总体训练目标为:

模态信息特征的可变形注意力

除了 DeCUR 损失设计之外,文中还采用可变形注意力来帮助 ConvNet 模型关注模态信息区域。DAT 和 DAT++ 中提出了可变形注意模块,以在特征图中重要区域的指导下有效地建模特征标记之间的关系。具体可参照原文。

实验结果

表 2:使用冻结编码器和在 GeoNRW 上进行全面微调的 RGB-DEM 迁移学习结果 (mIoU)(左:多模态;右:仅 RGB)。

表 3:SUN-RGBD 和 NYU-Depth v2 上的 RGB 深度微调结果。

表 4:可变形注意模块的消融结果 (mAP)。

致谢作者,关于论文的详细实施过程和具体解释请阅读论文原文哦~❤️❤️  转载请注明出处

   喜欢的话,请别忘记点赞👍➕关注哦 



推荐阅读


学术最前沿!2024最新深度多模态数据融合综述来袭!

TPAMI 2024 |多模态学习最新综述!普林斯顿大学、武汉大学等从数据视角解读多模态学习

CVPR 2024|拥抱单模态不确定性,实现稳健多模态融合!电子科大与同济等联手突破多模态技术瓶颈!

震撼发布!低质量多模态数据融合方法最新进展!天津大学携手顶尖高校推出重磅综述!

CVPR 2024|突破模态瓶颈!交替单模态适应引领多模态表示学习,攻克模态惰性与遗忘难题!

多模态机器学习与大模型
多模态机器学习与大模型 致力于推荐、分享、解读多模态机器学习相关的前沿论文成果,讨论大语言模型先进技术,助力AI研究者进步。 合作交流请+V:Multimodal2024,谢谢❤️
 最新文章