点击上方蓝字关注我们
论文链接:
http://arxiv.org/abs/2407.09705
代码链接:
https://github.com/GeWu-Lab/Diagnosing_Relearning_ECCV2024
简介
为了克服模型偏爱特定模态训练的不平衡多模态学习问题,现有方法提出以模态间性能差异为基础,从不同角度控制单模态编码器的训练。然而,却忽视了模态容量的内在限制。信息量很少的模态可以被认为是“学习较差”的模态,这可能会迫使模型记住更多的噪声,从而适得其反地影响多模态模型的能力。此外,当前的模态训练方法狭隘地集中于选定的学习较差的模态,甚至抑制了其他模态的训练。因此,有必要考虑模态容量的内在限制,并在平衡过程中考虑所有模态。为此,文中提出了诊断和再学习方法。首先根据其单模态表示空间的可分离性来估计每种模态的学习状态,然后根据这个状态对相应的单模态编码器进行软重初始化。通过这种方式,可以避免过度强调几乎没有信息的模态。此外,学习较差模态的编码器得到增强,同时避免了其他模态的过度训练。多模态学习从而得到有效平衡和增强。
研究动机
在现有的方法中,人们普遍认为具有较好预测性能的模态是“学得好的”模态,相应地,其他“学得较差”的模态是需要改进的模态。在单模态平衡过程中重点进行训练。然而,他们忽略了模态容量的内在限制,其中一些模态几乎没有与标签相关的信息和更多的噪声。对于这些模态的情况,有限的信息导致其预测性能有限,而不仅仅是训练不足。虽然预测性能较差,但单纯强调这些模态的训练并不能带来很多额外的好处,甚至会迫使模型记住更多的噪声,影响模型能力。
如图 1(a) 所示,与联合训练基线相比,所有现有的不平衡多模态学习方法都出现了性能下降。这一现象证明,他们错误地推行了信息匮乏且具有内在局限性的训练方式,反而适得其反,使其失去了效果。
在设计平衡策略时,现有方法狭隘地集中于学习选定的较差学习模态。有些甚至干扰了已学好的模态的训练,以方便其他模态的训练。不可避免地,对良好学习模式的无知甚至压制可能会影响其学习。如图 1(b) 和图 1(c) 所示,在现有的不平衡方法中,尽管提高了多模态性能,但良好学习的音频模态的质量可能比联合训练基线更差。
论文贡献
基于图 1(a),所提出方法可以很好地处理信息量很少的模态情况,并理想地实现性能改进。此外,如图1(b)和图1(c)所示,它还有效地增强了所有模态的学习。所提出方法很灵活,可以配备多种多模态框架,包括多模态 Transformer。
论文贡献可以概括为以下三方面:
(1)指出了现有的不平衡多模态学习方法往往忽略了模态容量的内在限制和平衡过程中良好学习的模态。
(2)提出了诊断和重新学习方法,通过基于单模态学习状态软重新初始化编码器来很好地平衡单模态训练。
(3)跨不同类型模态和多模态框架的实验证实了这种简单而有效的方法的优越性能。
方法框架
如图2左侧所示,每种模态的数据首先被输入到相应的单模态编码器中以提取特征。然后将这些单模态特征融合以获得多模态特征。本文方法不依赖于多模态融合策略,并且可以涵盖简单的融合方法(例如串联)和复杂的融合方法(例如跨模态交互)。融合的特征被输入到最终的多模态分类器中,利用一种多模态损失(交叉熵)来优化模型。
诊断:单模态学习状态估计
为了在不使用任何额外模块或不依赖融合策略的情况下很好地诊断单模态学习状态,建议重点关注单模态表示空间。众所周知,可分离性可以反映表示质量。观察和比较每个提取的单模态表示的可分离性有望捕获学习状态。文中利用均值聚类评估表示的可分离性 。
具体来说,当将单模态特征分成簇时,首先随机选取中的个样本作为个簇的质心。然后,在分配步骤中,每个样本根据欧几里得距离被分配到具有最接近均值的簇。具体来说,具体来说,当以下情况时,样本 被分配给具有质心 的第个簇:
之后,在更新步骤中,根据当前簇重新计算每个簇的质心:
在分配步骤和更新步骤之间进行给定次数的迭代或者分配不再改变之后,即获得最终的聚类结果。对于高质量的单模态表示,其理想的特征空间可分离性将带来满意的聚类结果。为了评估聚类结果,文中考虑聚类质量的代表性度量,即聚类纯度。
再学习:基于学习状态的单模态重新初始化
在上文中,单模态学习状态是通过训练和验证表示空间之间的可分离性差异来诊断的。然后,为了平衡单模态训练,根据诊断的学习状态软性地重新初始化所有单模态编码器。这种重新初始化打破了模型对一种特定模态的依赖,并通过重新学习多模态数据潜在地增强了模型的泛化能力。具体来说,模态 的重新初始化强度是根据纯度差距计算的:
模态 的编码器参数通过以下方式重新初始化:
所提出的方法如图 2 所示,整个训练过程如算法 1 所示。诊断和重新学习策略在每 H 个 epoch 进行一次。
实验结果与分析
在不同模态(如音频、视觉和光流)的多个数据集上的实验结果如表 1 所示。首先可观察到所有这些不平衡多模态学习方法都实现了多模态性能的提高,这表明了不平衡多模态学习问题的存在以及在训练过程中平衡单模态学习的必要性。更重要的是,本文方法在具有不同类型的多个数据集上始终表现出卓越的性能。这证明了诊断和再学习策略的有效性,该策略考虑了所有模态。
除了整体多模态性能的比较之外,文中评估了所提出方法的单模态表示质量,以全面反映不平衡多模态学习方法的解决情况。如图 3 所示,文中通过 t-SNE方法可视化单模态表示,并与联合训练基线进行比较。对于联合训练基线,音频模态可分离性很大,但视觉模态可分离性很差。相比之下,所提出方法的音频表示可分离性是理想的,尽管比联合训练基线稍差。并且视觉模态的表征也有了明显的提升。原因可能是诊断和再学习策略可以避免对已学过的模态的过度训练,同时保留其辨别能力,同时鼓励其他模态的训练。这些定量和定性结果表明,所提出方法有效地考虑了平衡单模态学习期间的所有模式。
致谢作者,关于论文的详细实施过程和具体解释请阅读论文原文哦~❤️❤️
喜欢的话,请别忘记点赞👍➕关注哦
推荐阅读
ICML 2024 | 深度解析多模态线性网络中的单模态偏差:突破与新发现!
ICML 2024重磅!GeminiFusion:高效逐像素多模态融合!引领Vision Transformer新纪元!
CVPR 2024|拥抱单模态不确定性,实现稳健多模态融合!电子科大与同济等联手突破多模态技术瓶颈!