CVPR 2024｜中国人民大学创新基于样本级模态评估的多模态协作增强方法

文摘 2024-08-29 17:00 英国

点击上方蓝字关注我们

Enhancing Multimodal Cooperation via Sample-level Modality Valuation

作者列表：

Yake Wei, Ruoxuan Feng, Zihe Wang, Di Hu

作者单位：

中国人民大学高岭人工智能学院，北京大数据管理与分析方法北京市重点实验室

论文链接：

https://arxiv.org/pdf/2309.06255

代码链接：

https://github.com/GeWu- Lab/Valuateand-Enhance-Multimodal-Cooperation

1. 简介

多模态学习的一个主要的topic是联合整合来自不同模态的异构信息。然而，大多数模型往往在多模态协作中无法很好地联合利用所有模态。一些方法被提出来识别和增强学习较差的模态，但它们往往很难在理论支持下提供样本级多模态合作的细粒度观察。因此，合理观察和改进模态之间的细粒度合作至关重要，特别是在面对不同样本之间模态差异可能不同的现实场景时。文中提出了一种基于样本级别模态估值的多模态协作增强方法。通过引入Shapley值为基础的估值指标，能够在每个样本中精细地评估每个模态的贡献，从而改进多模态学习的效果。实验结果表明，样本级别的模态估值可以显著提升模型在多个数据集上的表现，尤其是在提出的新MM-Debiased数据集上。

2. 研究动机

以往的研究多集中于全局（数据集级别）模态贡献的估计，难以捕捉到样本级别的模态差异。针对这一问题，作者提出了细粒度的模态估值方法，以改善各模态在样本级别的协作，并解决因模态贡献不均衡导致的模型性能下降问题。

3. 论文贡献

图 1. 在 Kinetics Sounds 和我们提出的 MM-Debiased 数据集上，与不平衡多模态学习方法的联合训练基线相比，准确性有所提高。其他方法：OGM-GE [21]、Greedy [33] 和 PMR [4]。

如图 1 所示，考虑样本级模态差异的方法在现有的精选数据集和文中的全局平衡数据集上取得了相当大的改进。

样本级别模态估值指标：提出了一种基于Shapley值的模态估值指标，用于评估每个样本中各模态的贡献。
增强多模态协作：通过聚焦于贡献较低的模态，提出了相应的方法，以在样本级别提升其辨别能力，从而增强多模态的协作效果。
MM-Debiased数据集：提出了一个新数据集，模态贡献在数据集层面上较为均衡，从而更好地评估多模态方法的有效性。

4. 方法

问题描述

多模态判别任务中的每个样本具有个模态，是样本的真实标签。对于特定样本的第个模态输入，模型的最终预测为，其中 C是输入模态的集合。

细粒度模态估值

基于 Shapely 的细粒度模态评估度量，定义了一个用于评估单一模态在每个样本中的贡献的函数 (v(C))：

然后，通过遍历所有模态的排列组合，计算出每个模态在样本中的最终贡献。

低贡献模态现象

如图 2 所示，无论是在样本级别还是在数据集级别，一种模式的贡献可能会远远压倒其他模式。换句话说，多模态模型的决策由一种模态主导，其他模态贡献较低。

图 2.(a-b)：摩托车类别的视听样本。(c)：我们对 S.1 和 S.2 的模式评估。S.1和S.2分别表示样品1和样品2。(d)：不同数据集的所有训练样本的单模态平均贡献。与其他精选数据集相比，我们提出的 MM-Debiased 数据集在数据集级别的全局差异较小。

此外，实验发现，当某个模态在样本中的贡献较低时，可能导致模型过度依赖单一模态。为了解决这一问题，作者提出了通过重新采样的方式增强低贡献模态的辨别能力，以改善多模态协作。

重新采样增强策略

在训练过程中，针对低贡献的模态，提出了样本级别和模态级别的重新采样方法。样本级别方法通过动态调整采样频率，以增强低贡献模态的学习；模态级别方法则通过对训练集的子集进行估值，以降低计算成本。

5. 实验结果

实验结果表明，提出的方法在多个数据集上均表现出色，尤其是在提出的MM-Debiased数据集上，样本级别的模态估值方法显著优于现有的多模态融合方法。此外，模态级别的方法虽然在精细度上略有不及，但在计算效率上具有明显优势，并在部分实验中表现出与样本级别方法相当的效果。

表 1. 与不同多模态融合方法的比较。粗体和下划线分别代表最佳和亚军。* 表示 Deep MKL 模型的馈送特征是通过预训练的单模态编码器提取的。贝叶斯 DNN 是从头开始训练的。

图 5. Concatenation、MMTM、MMTM-Sample 和 MMTM-Modality 的视觉特征分布，通过 t-SNE 在 Kinetics Sounds 数据集上进行可视化。如图 2d 所示，视觉形态往往是贡献较低的形态。类别以不同的颜色表示。

关于论文的详细实施过程和具体解释请阅读论文原文哦～❤️❤️

因为一些原因，非常抱歉最近几期会对之前发布的文章进行再发布，但是我们保证不会影响新文章的更新，感谢您的理解

喜欢的话，请别忘记点赞👍➕关注哦

扫描二维码关注我们

ICML2023重磅！清华、UC、MIT强强联手—突破性提出监督多模态学习中的单模态特征新范式！

震撼发布！低质量多模态数据融合方法最新进展！天津大学携手顶尖高校推出重磅综述！

IJCAI2024-连续多模态知识图谱构建，实现动态场景中新实体和关系的添加

ICML 2024｜多模态数据融合理论创新！天津大学提出预测多模态动态融合框架

ICML2024 多模态大语言模型相关论文集锦！！大模型热度不减！

地表最强模型GPT4o-latest模型重夺第一，力压谷歌！

TPAMI 2024｜跨模态联邦学习！中科院自动化所提出跨模态联邦人类活动识别方法

ECCV2024｜GalLoP：多模态提示学习——视觉-语言模型的全局和局部提示

牛津大学发布Nature新作！教你如何使用语义熵检测大语言模型中的幻觉

CVPR2024—重磅来袭！西工大团队提出通用多模态医学数据表示学习方法！持续自监督学习！

AI 之王 GPT-6 猎户座来了！大模型杀疯了

CVPR 2024｜北大携手阿里巴巴提出幻觉增强对比学习的多模态大模型

大模型顶级瘦身术！知识蒸馏联合提示学习！

ECCV 2024 | 如何利用自监督学习强化多模态模型的领域泛化和自适应

ECCV 2024｜奥秘揭晓：小样本学习突破，跨领域多模态知识蒸馏动作识别

ACM MM 2024 | PC2: 用于跨模态检索中噪声对应学习的基于伪分类的伪标题方法-新基准数据集

ACL 2024｜抢先知！多模态大语言模型最新综述！

火遍科研圈！中国科学院「紫东太初」如何打破机器幻觉之谜？

中山大学、鹏城实验室等首发！CVPR 2024| DMR：分解多模态表示——视觉强化学习中帧和事件融合

CVPR 2024｜中国人民大学创新基于样本级模态评估的多模态协作增强方法

ACL 2024｜机器学习新纪元！多模态机器学习火热论文汇总特辑！（下）

大神李宏毅“机器学习”课程集结成书，Datawhale新书出版了！

2024年了，Diffusion模型还有哪些能做的？

ACL 2024｜机器学习新纪元！多模态机器学习火热论文汇总特辑！（上）

又一种新的通用世界模型！WorldDreamer：通过预测屏蔽token带来新颖的视频生成方法！

AAAI 2024｜Structure-CLIP—利用场景图知识增强多模态结构化表示

论文速递｜追踪多模态机器学习领域最新研究动态！

北航、小米EV创新MV2DFusion多模态3D检测框架，自动驾驶技术新飞跃！

文末赠书｜作者硬核，内容透彻接地气的多模态大模型通识读本！国家队大模型紫东太初负责人王金桥力作

ECCV 2024｜多模态学习新突破！中国人民大学、清华大学等提出诊断和再学习方法平衡多模态训练

投稿必读

又一篇多模态顶会！这个idea简直“ 杀疯了 ” ....

ACM MM 2024 | PC2: 用于跨模态检索中噪声对应学习的基于伪分类的伪标题方法-新基准数据集

多模态再次爆发！

TPAMI 2024|华南理工大学等继PMF后提出改进版本EPMF！高效感知多传感器融合，解决3D语义分割问题

ACL 2024 ｜南京大学与上海AI Lab提出多模态GUI智能体，像人一样操作手机电脑

TIP 2024｜Mind the Gap! 南开大学提出跨模态 UNet 学习与模态无关的表示

中科院深圳研究院发布多模态医学图像分割新进展！MICFormer：多模态信息交互!

中山大学、鹏城实验室等首发！CVPR 2024| DMR：分解多模态表示——视觉强化学习中帧和事件融合

ICML2023| 解密冻结大语言模型引导视觉-语言预训练前沿技术，弥补多模态差距

ECCV2024｜GalLoP：多模态提示学习——视觉-语言模型的全局和局部提示

NeurIPS 2023｜浙大&上海AI Lab&华为联合发表--跨模态泛化的多模态统一表示

AAAI2024-南京大学、腾讯联合发表--MmAP：跨域多任务学习的多模态对齐提示

CVPR2024—重磅来袭！西工大团队提出通用多模态医学数据表示学习方法！持续自监督学习！

CVPR2024-多模态MLM新SOTA，因果上下文生成解决视觉问答任务

CVPR2023-动态多模态特征融合！模态级分类！融合级语义分割！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉