点击上方蓝字关注我们
Towards Multimodal Open-Set Domain Generalization and Adaptation through Self-supervision
作者列表: Hao Dong, Eleni Chatzi, Olga Fink 作者单位: Hao Dong, Eleni Chatzi: ETH Zürich Olga Fink: EPFL 论文链接: https://arxiv.org/abs/2407.01518 代码链接: https://github.com/donghao51/MOOSA
简介
首次提出了一种针对多模态开放集领域泛化(Multimodal Open-Set Domain Generalization, MM-OSDG)的方法,并通过自监督学习机制实现。研究中引入了两种创新性的多模态自监督前置任务:掩码跨模态翻译(Masked Cross-modal Translation) 和 多模态拼图(Multimodal Jigsaw Puzzles)。这些任务帮助学习多模态的代表性特征,从而增强了模型的泛化能力和开放类检测能力。此外,还提出了一种新的熵加权机制,用于平衡不同模态的损失,并将该方法扩展至多模态开放集领域适应(Multimodal Open-Set Domain Adaptation, MM-OSDA)。通过在EPIC-Kitchens和HAC数据集上的广泛实验,验证了该方法的有效性和通用性。
研究动机
领域泛化和领域适应在应对机器学习模型在不同环境中的鲁棒性和适应性方面具有重要意义。然而,现有的研究大多集中于单一模态的数据,忽略了多模态数据在现实世界应用中的重要性。此外,当前的多模态方法通常假设源域和目标域的标签空间一致,而在实际应用中,目标域可能包含源域中未见过的新类别(开放集问题)。因此,本文的研究动机是通过引入自监督学习任务来解决多模态开放集领域泛化和适应问题。
论文贡献
首次提出MM-OSDG问题:定义并探讨了多模态开放集领域泛化问题,强调了其在实际应用中的重要性。 创新的自监督前置任务:提出了掩码跨模态翻译和多模态拼图任务,用于增强多模态特征的泛化能力和开放类检测能力。 熵加权机制:设计了一种新的熵加权机制,在不同模态间平衡损失,提高了模型的整体表现。 扩展至MM-OSDA:将方法扩展至多模态开放集领域适应情境,进一步验证了其在目标域未标注数据上的有效性。
MOOSA算法
论文框架
MOOSA框架如图1所示,主要包括以下部分:
掩码跨模态翻译(Masked Cross-modal Translation):在多模态特征之间进行翻译,通过随机掩码部分输入模态的特征并进行翻译,学习更具代表性的特征表示。 多模态拼图(Multimodal Jigsaw Puzzles):将多模态特征进行分割和随机排列,通过拼图任务迫使模型学习多模态之间的内在关系。 熵加权机制(Entropy Weighting and Minimization):根据预测的熵值为每个模态分配权重,以平衡各模态的损失贡献。
损失函数
掩码跨模态翻译损失:
其中,表示对第i模态的特征进行随机掩码。
多模态拼图损失:
其中,为拼图分类器,为重新排列后的特征嵌入。
熵加权损失:
其中,通过熵值计算得到,用于调整不同模态的损失权重。
最终损失函数:
实验结果
在EPIC-Kitchens和HAC数据集上进行了广泛的实验,包括MM-OSDG、MM-OSDA和多模态闭集领域泛化(Multimodal Closed-Set DG)设置。实验结果表明,MOOSA框架在所有测试的基准数据集上均显著优于现有的最先进方法,在平均HOS上提升了高达5.63%。此外,MOOSA在单一源域开放集泛化中也展现出了优异的表现,进一步验证了其在各种开放集设置中的鲁棒性和通用性。
表 2:EPIC-Kitchens 数据集上具有不同模态组合的多模态Open-set DG。
表 3:HAC 数据集上具有所有模态的多模态Open-set DG
关于论文的详细实施过程和具体解释请阅读论文原文哦~❤️❤️
喜欢的话,请别忘记点赞👍➕关注哦
推荐阅读
ECCV 2024|奥秘揭晓:小样本学习突破,跨领域多模态知识蒸馏动作识别
ACM MM 2024 | PC2: 用于跨模态检索中噪声对应学习的基于伪分类的伪标题方法-新基准数据集