ECCV 2024|多模态学习不鲁棒?表示解耦打造稳健多模态学习新纪元

文摘   2024-10-17 10:00   英国  

点击上方蓝字关注我们

Robust Multimodal Learning via Representation Decoupling

作者:

Shicai Wei, Yang Luo, Yuji Wang, Chunbo Luo

作者单位:

电子科技大学

论文链接:

https://arxiv.org/pdf/2407.04458

代码链接:

https://github.com/shicaiwei123/ECCV2024-DMRNet

简介

对缺失模态具有鲁棒性的多模态学习由于其实用性而引起了越来越多的关注。现有的方法倾向于通过学习不同模态组合的公共子空间表示来解决这个问题。然而,我们发现它们由于对类内表示的隐式约束而不是最优的。具体来说,同一类内具有不同模态的样本将被迫学习同一方向的表示。这阻碍了模型捕获特定于模态的信息,导致学习不足。为此,文中提出了一种新颖的解耦多模态表示网络(DMRNet)来协助鲁棒的多模态学习。DMRNet 将来自不同模态组合的输入建模为概率分布,而不是潜在空间中的固定点,并从分布中对预测模块的嵌入进行采样以计算任务损失。此外,引入了硬组合正则器,通过引导 DMRNet 更多地关注硬模态组合来防止 DMRNet 训练不平衡。最后,对多模态分类和分割任务的广泛实验表明,所提出的 DMRNet 显着优于最先进的技术。

研究动机

尽管现有的常见的基于子空间的方法确实能够提高多模态模型的训练和部署效率,但它们将具有不同模态组合的输入投影到确定性嵌入中并直接从中进行预测。这引入了隐式类内表示方向约束,导致性能次优

图 1:CASIA-SURF 数据集上通道间距离矩阵 Dchannel的直方图图示。

具体来说,为了最小化训练损失,模型将约束同一类内具有不同模态组合的样本,以生成与类中心向量相同方向的嵌入。这阻碍了模型利用不同模态组合的特定信息,导致表示学习不足。如图1(a)和(c)所示,与不受模间干扰的单模态模型相比,基于普通子空间的模型的模内和模间特征多样性显着下降。因此,每种模态组合的性能都会较差。

论文贡献

  • 揭示了传统不完全多模态学习方法中类内表示的方向约束。它限制了模型对不同模态组合的特定信息的表示能力。

  • 通过解耦训练和推理表示,提出了一个用于不完整多模态学习的通用框架 DMRNet。这使得模型能够学习每个模态组合的非并行推理嵌入,从而提高表示能力。

  • 对多模态分类和分割任务的大量实验证明了所提出的 DMRNet 的有效性。

DMRNet

如图2所示,DMRNet由两个部分组成:解耦多模态表示和硬组合正则器。1)解耦的多模态表示,将推理表示和训练表示解耦,减轻推理表示的方向约束; 2)硬组合正则化器,挖掘和正则化硬模态组合以处理不平衡训练问题。

图 2:所提出的 DMRNet 的总体框架。

表示约束分析

文中介绍了不完全多模态学习的表征约束问题的分析,发现来自同一类的不同输入组合将被迫学习相同方向的嵌入。这限制了模型对不同模态组合的特定信息的表示能力,导致表示学习不足

具体来说,传统公共子空间模型中 的多模态嵌入 可以表示为:

其中 是第 v 个模态的嵌入。 是融合模块的参数。 模态编码器的参数。 第 v 模态的伯努利指标。它被随机设置为 0 或 1 以模拟随机模态缺失。这使得模型对于不完整的推理数据具有鲁棒性。

解耦多模态表示

如所讨论的,传统的基于子空间的通用方法的表示能力受到不同输入组合的类内表示约束的限制。为了解决这个问题,文中引入了解耦多模态表示技术,通过解耦训练和推理表示来减轻推理表示的方向约束。具体来说,它由两部分组成:表示概率化和分布正则化。

表示概率。 考虑构建概率嵌入,即 ,以获得更灵活的表示空间。为了简单起见,定义概率嵌入 服从多元高斯分布,

其中高斯分布的两个参数()都是与输入相关的预测。与现有方法在池化后估计特征向量的μi和σi不同,本文直接估计特征图的。这不仅有助于提高性能,而且使模型能够处理密集的预测任务,例如分割。具体而言, 定义如下:

每个样本的表示变成从 采样的随机嵌入。然而,采样操作是不可微分的。因此,考虑重新参数化技巧来启用反向传播,

是用于预测模块训练的嵌入, 是用于推理的最终嵌入。通过这种方式,DMRNet 将训练和推理嵌入解耦。模型的交叉熵损失可以重写如下,

分布正则化 正如所讨论的,较大的 将导致较弱的约束。因此,模型倾向于预测更大的,以提高模型捕获不同模态组合的特定信息的能力,提高表示能力。然而,较大的 也会引入较高的不确定性,这会阻碍 W 的优化。因此,需要为 引入一个正则化项来限制其范围。受以前的概率嵌入方法的启发,在优化过程中引入了正则化项,以显式约束  和正态高斯分布 N (0, I) 之间的距离,

硬组合正则化器

为了解决样本不平衡的训练问题,文中引入了硬组合正则化器。它根据估计的 挖掘硬模态组合,然后为它们引入独立的梯度路径来规范其优化。与使用额外模块的传统正则化方法相比,该正则化器与DMRNet的预测模块共享参数,因此没有引入额外的参数。

硬组合挖掘 由于模型倾向于首先拟合判别模态组合的输入,因此硬组合将比经过 LDR 优化的判别组合具有更大的方差。可以通过简单的方差排序来挖掘硬组合。

给定 V 模态,将 中的分量随机设置为 0 或 1 来获得 2V 模态组合。训练数据集中所有组合的方差集 计算如下:

硬组合正则化 如图2所示,为了鼓励模型更多地关注硬模态组合输入,文中引入了一个辅助预测器来指导它独立地决定硬模态组合输入。具体来说,给定来自模态组合 Δi 的采样嵌入 ,它计算 的硬组合正则器损失 ,如下所示,

总损失

DMRNet 的总训练损失 L 定义如下,

其中 是输入数据的传统目标任务损失。 α 和 β 是超参数。具体来说,α 控制松弛水平,β 控制硬模态组合的正则化程度。

实验结果

表 1:使用 CASIA-SURF 进行多模态分类任务的性能。指标为 ACER(↓),值越低,性能越好。黑点和 白点分别表示可用和缺失的模态。

表 2:使用 CREMA-D 和 Kinetics-Sounds 数据集进行多模态情感识别任务的性能。指标是准确度(↑),值越高,性能越好。

表 3:CASIA-SURF 数据集的消融结果。 “SF-MD”是基准模型。 “DMR”是指解耦的多模态表示。 “HCR”是指硬组合正则化器。

致谢作者,关于论文的详细实施过程和具体解释请阅读论文原文哦~❤️❤️  转载请注明出处

   喜欢的话,请别忘记点赞👍➕关注哦 



推荐阅读


学术最前沿!2024最新深度多模态数据融合综述来袭!

NeurIPS 2023|浙大&上海AI Lab&华为联合发表--跨模态泛化的多模态统一表示

TPAMI 2024 |多模态学习最新综述!普林斯顿大学、武汉大学等从数据视角解读多模态学习

CVPR 2024|拥抱单模态不确定性,实现稳健多模态融合!电子科大与同济等联手突破多模态技术瓶颈!

震撼发布!低质量多模态数据融合方法最新进展!天津大学携手顶尖高校推出重磅综述!

多模态机器学习与大模型
多模态机器学习与大模型 致力于推荐、分享、解读多模态机器学习相关的前沿论文成果,讨论大语言模型先进技术,助力AI研究者进步。 合作交流请+V:Multimodal2024,谢谢❤️
 最新文章