论文地址:
https://arxiv.org/pdf/2305.01233
简介
作者将多模态数据的特征(即学习到的表示)抽象为 1)单模态特征,可以从单模态训练中学习,2)配对特征,只能从跨模态交互中学习。多模态模型有望在保证单模态特征学习的基础上受益于跨模态交互。然而,最近的监督多模态后期融合训练方法仍然存在对每种模态的单模态特征学习不足的问题。作者在文中证明了这种现象确实损害了模型的泛化能力。为此,作者建议根据单模态的分布,从单模态集成(UME)和提出的单模态教师(UMT)中为给定的监督多模态任务选择一种有针对性的后期融合学习方法和配对功能。实验证明,在简单的指导策略下,所提出方法可以在各种多模态数据集(包括 VGG-Sound、Kinetics-400、UCF101 和 ModelNet40)上获得与其他复杂的后期融合或中间融合方法相当的结果。
研究动机
在线性探测中,多模态学习的编码器比单模态学习的编码器表现更差。这种现象被称为模态惰性,并在图 1 中进行了说明。
除了惰性问题之外,最近的后期融合方法的另一个缺点是实施起来很复杂。例如G-Blending(Wang et al,2020)需要额外的数据分割来估计过度拟合与泛化的比率,以重新加权损失,然后一次又一次地重新训练模型。更复杂的是这些超参数需要在新的数据集上重新调整。
为此,迫切需要更简单有效的方法。作者注重学习单模态特征,并建议根据单模态和配对特征的分布,从 Uni-Modal Ensemble (UME) 和提出的 Uni-Modal Teacher (UMT) 中为给定任务选择有针对性的后期融合训练方法:
1)如果单模态和配对特征都重要,那么 UMT 是有效的,它可以帮助多模态模型通过单模态蒸馏更好地学习单模态特征,并保留跨模态交互;
2)如果配对特征不重要并且两种模态都具有很强的单模态特征,则 UME 更合适,它直接组合单模态模型的输出,几乎避免了可能导致模态惰性的跨模态交互。
方法
一个简单的解决方案是单独训练单模态模型,然后结合它们的预测来给出最终预测。然而,这样又面临另一个问题:多模态模型如何从多模态联合训练中受益?假设跨模态交互发挥了作用,通过研究VGG-Sound 上具有不同跨模态交互自由度的几种模型,包括 1)直接对单模态模型的预测进行平均,几乎没有跨模态交互; 2)在单模态预训练但冻结的编码器之上训练多模态线性分类器,其中模态可以通过线性层相互交互; 3)朴素融合或朴素多模态学习:从头开始的端到端后期融合学习,无需精心设计的技巧,其中模态可以比上述两个模型更多地交互。
如表 2 所示,在 VGG-Sound 的某些类别中,朴素融合的精度超过了两个单模态模型的精度之和。此外,朴素的融合训练拥有这些模型之间跨模式交互的最大自由度,在这些类别中获得了最佳的平均准确度。并且对单模态模型的预测进行平均,这些模型之间的跨模态交互具有最小的自由度,在这些类别中得到的平均准确度较差。结果表明,联合训练使模型能够学习超越单模态特征的表示,作者将其称为配对特征。
UMT:Uni-Modal Teacher (UMT) 被用于后期融合训练。它将预训练的单模态特征提炼为多模态后期融合模型的相应部分。UMT的框架如图4所示。UMT 和 Wang 等人的方法之间有几个重要的区别。首先,UMT 中的蒸馏发生在特征级别,而不是软标签级别。其次,与多模态模型的训练相比,UMT 中单模态模型的训练不使用任何额外的数据。其目的在于使多模态模型能够更好地学习当前数据集中的单模态特征,而不是向多模态模型引入额外的信息。
UME: Uni-Modal Ensemble(UME)旨在通过结合单模态模型的预测来避免单模态特征学习不足。首先,独立训练单模态模型。然后,通过对单模态模型的预测进行加权来给出最终输出。
作者给出了决定使用哪种方法的经验技巧:在单模态预训练编码器上训练多模态线性分类器,不同模态可以在线性层中相互作用。然后,将其与单模态模型的平均预测进行比较:
1)如果分类器的性能更好,这意味着可以从该任务中的跨模态交互中受益,则可选择UMT,其中保留跨模态交互,同时保证改进单模态特征的学习;
2)否则,跨模态交互在给定任务中弊大于利,选择UME,它几乎避免了跨模态交互。注意到在 UMT 和 UME 中,作者在单模态和多模态模型中对指定模态使用相同的backbone。
实验结果
如表 5 所示,UMT 优于其他后期融合方法。在后期融合架构中,由相应的编码器从不同模态中提取特征,然后将头层应用于输出预测。比较不同的头,包括线性层、MLP 和注意力层。在UMT,使用简单的线性层作为多模态头。作者还进行了另一个实验,添加额外的单模态线性头来接收单模态特征并生成额外的损失来联合优化模型,即 Auxiliary-CEloss。 Auxiliary-CEloss 为所有损失赋予相同的权重,而 G-Blending 根据过拟合泛化比 (OGR) 重新加权损失。 OGM-GE通过在线梯度调制控制每种模态的优化。
更详细的内容和实施过程请访问点击论文原文地址👉 https://arxiv.org/pdf/2305.01233
喜欢的话,请别忘记点赞👍➕关注哦~