CVPR 2024|中国人民大学创新基于样本级模态评估的多模态协作增强方法

文摘   2024-08-29 17:00   英国  

点击上方蓝字关注我们





Enhancing Multimodal Cooperation via Sample-level Modality Valuation



作者列表:

Yake Wei, Ruoxuan Feng, Zihe Wang, Di Hu

作者单位:

中国人民大学高岭人工智能学院,北京大数据管理与分析方法北京市重点实验室

论文链接:

https://arxiv.org/pdf/2309.06255

代码链接:

https://github.com/GeWu- Lab/Valuateand-Enhance-Multimodal-Cooperation

1. 简介

多模态学习的一个主要的topic是联合整合来自不同模态的异构信息。然而,大多数模型往往在多模态协作中无法很好地联合利用所有模态。一些方法被提出来识别和增强学习较差的模态,但它们往往很难在理论支持下提供样本级多模态合作的细粒度观察。因此,合理观察和改进模态之间的细粒度合作至关重要,特别是在面对不同样本之间模态差异可能不同的现实场景时。文中提出了一种基于样本级别模态估值的多模态协作增强方法。通过引入Shapley值为基础的估值指标,能够在每个样本中精细地评估每个模态的贡献,从而改进多模态学习的效果。实验结果表明,样本级别的模态估值可以显著提升模型在多个数据集上的表现,尤其是在提出的新MM-Debiased数据集上。

2. 研究动机

以往的研究多集中于全局(数据集级别)模态贡献的估计,难以捕捉到样本级别的模态差异。针对这一问题,作者提出了细粒度的模态估值方法,以改善各模态在样本级别的协作,并解决因模态贡献不均衡导致的模型性能下降问题。

3. 论文贡献

图 1. 在 Kinetics Sounds 和我们提出的 MM-Debiased 数据集上,与不平衡多模态学习方法的联合训练基线相比,准确性有所提高。其他方法:OGM-GE [21]、Greedy [33] 和 PMR [4]。

如图 1 所示,考虑样本级模态差异的方法在现有的精选数据集和文中的全局平衡数据集上取得了相当大的改进。

  • 样本级别模态估值指标:提出了一种基于Shapley值的模态估值指标,用于评估每个样本中各模态的贡献。
  • 增强多模态协作:通过聚焦于贡献较低的模态,提出了相应的方法,以在样本级别提升其辨别能力,从而增强多模态的协作效果。
  • MM-Debiased数据集:提出了一个新数据集,模态贡献在数据集层面上较为均衡,从而更好地评估多模态方法的有效性。

4. 方法

问题描述

多模态判别任务中的每个样本 具有 个模态, 是样本 的真实标签。对于特定样本 的第 个模态输入 ,模型的最终预测为 ,其中 C是输入模态的集合。

细粒度模态估值

基于 Shapely 的细粒度模态评估度量,定义了一个用于评估单一模态在每个样本中的贡献的函数 (v(C)):

然后,通过遍历所有模态的排列组合,计算出每个模态在样本中的最终贡献

低贡献模态现象

如图 2 所示,无论是在样本级别还是在数据集级别,一种模式的贡献可能会远远压倒其他模式。换句话说,多模态模型的决策由一种模态主导,其他模态贡献较低。

图 2.(a-b):摩托车类别的视听样本。(c):我们对 S.1 和 S.2 的模式评估。S.1和S.2分别表示样品1和样品2。(d):不同数据集的所有训练样本的单模态平均贡献。与其他精选数据集相比,我们提出的 MM-Debiased 数据集在数据集级别的全局差异较小。

此外,实验发现,当某个模态在样本中的贡献较低时,可能导致模型过度依赖单一模态。为了解决这一问题,作者提出了通过重新采样的方式增强低贡献模态的辨别能力,以改善多模态协作。

重新采样增强策略

在训练过程中,针对低贡献的模态,提出了样本级别和模态级别的重新采样方法。样本级别方法通过动态调整采样频率,以增强低贡献模态的学习;模态级别方法则通过对训练集的子集进行估值,以降低计算成本。

5. 实验结果

实验结果表明,提出的方法在多个数据集上均表现出色,尤其是在提出的MM-Debiased数据集上,样本级别的模态估值方法显著优于现有的多模态融合方法。此外,模态级别的方法虽然在精细度上略有不及,但在计算效率上具有明显优势,并在部分实验中表现出与样本级别方法相当的效果。

表 1. 与不同多模态融合方法的比较。粗体和下划线分别代表最佳和亚军。* 表示 Deep MKL 模型的馈送特征是通过预训练的单模态编码器提取的。贝叶斯 DNN 是从头开始训练的。


图 5. Concatenation、MMTM、MMTM-Sample 和 MMTM-Modality 的视觉特征分布,通过 t-SNE 在 Kinetics Sounds 数据集上进行可视化。如图 2d 所示,视觉形态往往是贡献较低的形态。类别以不同的颜色表示。

关于论文的详细实施过程和具体解释请阅读论文原文哦~❤️❤️

因为一些原因,非常抱歉最近几期会对之前发布的文章进行再发布,但是我们保证不会影响新文章的更新,感谢您的理解

   喜欢的话,请别忘记点赞👍➕关注哦 



扫描二维码关注我们

推荐阅读

ACL 2024|机器学习新纪元!多模态机器学习火热论文汇总特辑!(下)

ACL 2024|机器学习新纪元!多模态机器学习火热论文汇总特辑!(上)

又一种新的通用世界模型!WorldDreamer:通过预测屏蔽token带来新颖的视频生成方法!

AAAI 2024|Structure-CLIP—利用场景图知识增强多模态结构化表示

TPAMI 2024 |多模态学习最新综述!普林斯顿大学、武汉大学等从数据视角解读多模态学习

多模态机器学习与大模型
多模态机器学习与大模型 致力于推荐、分享、解读多模态机器学习相关的前沿论文成果,讨论大语言模型先进技术,助力AI研究者进步。 合作交流请+V:Multimodal2024,谢谢❤️
 最新文章