ECCV 2024｜多模态学习新突破！中国人民大学、清华大学等提出诊断和再学习方法平衡多模态训练

文摘 2024-08-16 11:00 英国

点击上方

蓝字

关注我们

论文链接：

http://arxiv.org/abs/2407.09705

代码链接：

https://github.com/GeWu-Lab/Diagnosing_Relearning_ECCV2024

简介

为了克服模型偏爱特定模态训练的不平衡多模态学习问题，现有方法提出以模态间性能差异为基础，从不同角度控制单模态编码器的训练。然而，却忽视了模态容量的内在限制。信息量很少的模态可以被认为是“学习较差”的模态，这可能会迫使模型记住更多的噪声，从而适得其反地影响多模态模型的能力。此外，当前的模态调制方法狭隘地集中于选定的学习较差的模态，甚至抑制了其他模态的训练。因此，有必要考虑模态容量的内在限制，并在平衡过程中考虑所有模态。为此，文中提出了诊断和再学习方法。首先根据其单模态表示空间的可分离性来估计每种模态的学习状态，然后根据这个状态对相应的单模态编码器进行软重初始化。通过这种方式，可以避免过度强调几乎没有信息的模态。此外，学习较差模态的编码器得到增强，同时避免了其他模态的过度训练。多模态学习从而得到有效平衡和增强。

研究动机

在现有的方法中，人们普遍认为具有较好预测性能的模态是“学得好的”模态，相应地，其他“学得较差”的模态是需要改进的模态。在单模态平衡过程中重点进行训练。然而，他们忽略了模态容量的内在限制，其中一些模态几乎没有与标签相关的信息和更多的噪声。对于这些模态的情况，有限的信息导致其预测性能有限，而不仅仅是训练不足。虽然预测性能较差，但单纯强调这些模态的训练并不能带来很多额外的好处，甚至会迫使模型记住更多的噪声，影响模型能力。

如图 1(a) 所示，与联合训练基线相比，所有现有的不平衡多模态学习方法都出现了性能下降。这一现象证明，他们错误地推行了信息匮乏且具有内在局限性的训练方式，反而适得其反，使其失去了效果。

在设计平衡策略时，现有方法狭隘地集中于学习选定的较差学习模态。有些甚至干扰了已学好的模态的训练，以方便其他模态的训练。不可避免地，对良好学习模式的无知甚至压制可能会影响其学习。如图 1(b) 和图 1(c) 所示，在现有的不平衡方法中，尽管提高了多模态性能，但良好学习的音频模态的质量可能比联合训练基线更差。

论文贡献

基于图 1(a)，所提出方法可以很好地处理信息量很少的模态情况，并理想地实现性能改进。此外，如图1(b)和图1(c)所示，它还有效地增强了所有模态的学习。所提出方法很灵活，可以配备多种多模态框架，包括多模态 Transformer。

论文贡献可以概括为以下三方面：

（1）指出了现有的不平衡多模态学习方法往往忽略了模态容量的内在限制和平衡过程中良好学习的模态。

（2）提出了诊断和重新学习方法，通过基于单模态学习状态软重新初始化编码器来很好地平衡单模态训练。

（3）跨不同类型模态和多模态框架的实验证实了这种简单而有效的方法的优越性能。

方法框架

如图2左侧所示，每种模态的数据首先被输入到相应的单模态编码器中以提取特征。然后将这些单模态特征融合以获得多模态特征。本文方法不依赖于多模态融合策略，并且可以涵盖简单的融合方法（例如串联）和复杂的融合方法（例如跨模态交互）。融合的特征被输入到最终的多模态分类器中，利用一种多模态损失（交叉熵）来优化模型。

诊断：单模态学习状态估计

为了在不使用任何额外模块或不依赖融合策略的情况下很好地诊断单模态学习状态，建议重点关注单模态表示空间。众所周知，可分离性可以反映表示质量。观察和比较每个提取的单模态表示的可分离性有望捕获学习状态。文中利用均值聚类评估表示的可分离性。

具体来说，当将单模态特征分成簇时，首先随机选取中的个样本作为个簇的质心。然后，在分配步骤中，每个样本根据欧几里得距离被分配到具有最接近均值的簇。具体来说，具体来说，当以下情况时，样本被分配给具有质心的第个簇：

之后，在更新步骤中，根据当前簇重新计算每个簇的质心：

在分配步骤和更新步骤之间进行给定次数的迭代或者分配不再改变之后，即获得最终的聚类结果。对于高质量的单模态表示，其理想的特征空间可分离性将带来满意的聚类结果。为了评估聚类结果，文中考虑聚类质量的代表性度量，即聚类纯度。

再学习：基于学习状态的单模态重新初始化

在上文中，单模态学习状态是通过训练和验证表示空间之间的可分离性差异来诊断的。然后，为了平衡单模态训练，根据诊断的学习状态软性地重新初始化所有单模态编码器。这种重新初始化打破了模型对一种特定模态的依赖，并通过重新学习多模态数据潜在地增强了模型的泛化能力。具体来说，模态的重新初始化强度是根据纯度差距计算的：

模态的编码器参数通过以下方式重新初始化：

所提出的方法如图 2 所示，整个训练过程如算法 1 所示。诊断和重新学习策略在每 H 个 epoch 进行一次。

实验结果与分析

在不同模态（如音频、视觉和光流）的多个数据集上的实验结果如表 1 所示。首先可观察到所有这些不平衡多模态学习方法都实现了多模态性能的提高，这表明了不平衡多模态学习问题的存在以及在训练过程中平衡单模态学习的必要性。更重要的是，本文方法在具有不同类型的多个数据集上始终表现出卓越的性能。这证明了诊断和再学习策略的有效性，该策略考虑了所有模态。

除了整体多模态性能的比较之外，文中评估了所提出方法的单模态表示质量，以全面反映不平衡多模态学习方法的解决情况。如图 3 所示，文中通过 t-SNE方法可视化单模态表示，并与联合训练基线进行比较。对于联合训练基线，音频模态可分离性很大，但视觉模态可分离性很差。相比之下，所提出方法的音频表示可分离性是理想的，尽管比联合训练基线稍差。并且视觉模态的表征也有了明显的提升。原因可能是诊断和再学习策略可以避免对已学过的模态的过度训练，同时保留其辨别能力，同时鼓励其他模态的训练。这些定量和定性结果表明，所提出方法有效地考虑了平衡单模态学习期间的所有模式。

更详细的内容和实施过程请访问论文原文，如有侵权，可联系删，感恩

喜欢的话，请别忘记点赞👍➕关注哦

TPAMI 2024|华南理工大学等继PMF后提出改进版本EPMF！高效感知多传感器融合，解决3D语义分割问题

ACM MM 2024 | PC2: 用于跨模态检索中噪声对应学习的基于伪分类的伪标题方法-新基准数据集

中山大学、鹏城实验室等首发！CVPR 2024| DMR：分解多模态表示——视觉强化学习中帧和事件融合

NeurIPS 2023｜浙大&上海AI Lab&华为联合发表--跨模态泛化的多模态统一表示

http://mp.weixin.qq.com/s?__biz=MzkxNzY2NDA1OQ==&mid=2247485016&idx=1&sn=63cc9146472d1b46b04815ee444629ed

多模态机器学习与大模型

多模态机器学习与大模型致力于推荐、分享、解读多模态机器学习相关的前沿论文成果，讨论大语言模型先进技术，助力AI研究者进步。合作交流请+V：Multimodal2024，谢谢❤️

CVPR投稿倒计时15天！Transformer还能卷出哪些新花样？

I 2025｜快手科技发布突破性EVLM！高效视觉语言模型，极大降低计算成本，实现全面视觉感知！

EMNLP 2024｜南京大学重磅推出EFUF：高效细粒度unlearning框架，全面破解多模态大语言模型“幻觉”难题！

NeurIPS 2024 | G3: 一种基于多模态大模型的高效自适应地理定位框架

港中文、UCL、武大联手攻关！NeurIPS 2024 全新多模态情绪分析模型，精准应对不完整数据挑战！

刷新多模态医学图像报告生成新高度｜AAAI 2023 山东大学&齐鲁医院推出多模态记忆Transformer！

NeurIPS 2024｜多模态学习重磅论文全览！最新研究集锦，不容错过！（下）

NeurIPS 2024｜多模态学习重磅论文全览！最新研究集锦，不容错过！（上）

突破了LLM极限，GPT-o1深度揭秘

港中文、上海AI Lab与浙大重磅推出PointLLM：大语言模型再升级，强势赋能点云理解！-ECCV 2024

NeurIPS 2024 | 像素级MLLM: Vitron, 实现图像视频的理解、生成、分割、编辑大一统

TPAMI 2024 | 基于时空结构对齐的视频-语言表示学习

ECCV 2024｜解锁多模态自监督学习！深度解耦常见与独特表示的创新突破

CVPR2023-基于交互式提示学习的多模态融合方法

CVPR 2024｜多模态大模型引爆！“因果推理”加持, 解锁链接上下文学习的无限潜能

CVPR 2023｜TransFusion震撼登场！突破性语义分割多模态融合网络，点云与图像直接融合！

TPAMI | SegNet:语义分割领域超经典轻量化模型

ECCV 2024｜多模态学习不鲁棒？表示解耦打造稳健多模态学习新纪元

NeurIPS 2021-如何利用知识图谱构建世界模型？！一种新的文本世界建模技术！

文末赠书｜《AI系统：原理与架构》于华为HC大会2024正式发布

又一本开源免费的大模型书来了，449页pdf！

CVPR 2024｜突破模态瓶颈！交替单模态适应引领多模态表示学习，攻克模态惰性与遗忘难题！

速来围观！多模态大型语言模型(MLLM)最新进展与实战应用全揭秘！

学术最前沿！2024最新深度多模态数据融合综述来袭！

AI大模型掀起效率革命！掌握ChatGPT等前沿技术，赋能企事业办公、科研与项目研发实战

ICML 2024｜浙大，NUS等高校联手推出多模态LLM革命性自动编码技术—Morph-Tokens

AAAI 2024｜重磅发布！多模态跟踪新范式：条件生成对抗网络与扩散模型的融合引爆技术革命！

ECCV 2024 | 破解多模态学习：单模态模型联合嵌入助力缺失模态预测新突破！

NeurIPS 2023｜浙大&上海AI Lab&华为联合发表--跨模态泛化的多模态统一表示

TPAMI 2024|打破边界！双向LiDAR相机语义分割中的单到多模态知识蒸馏革命

顶会NeurIPS‘24放榜！接收数量突破4千！8865高分被拒？

NeurIPS 2024|颠覆性发现！大型视觉-语言模型真的会“看”吗？MMStar基准揭示多模态评估误区与数据泄漏隐患

ECCV 2024 ｜中国人民大学、清华大学等提出平衡多模态学习的诊断和再学习方法

TPAMI 2024｜颠覆跨模态相似性学习的“游戏规则”！因果不变交互挖掘CIIM强势来袭：打破模态壁垒，精准捕捉跨模态信息！

TIP 2024｜Mind the Gap! 南开大学提出跨模态 UNet 学习与模态无关的表示

ICLR2024多模态融合论文汇总！时间检验奖和最佳论文奖汇总！

ICML 2024 | 深度解析多模态线性网络中的单模态偏差：突破与新发现！

第一本中文大语言模型教程来了！人大出版，391页！

ICML 2024重磅！GeminiFusion：高效逐像素多模态融合！引领Vision Transformer新纪元！

CVPR 2024｜拥抱单模态不确定性，实现稳健多模态融合！电子科大与同济等联手突破多模态技术瓶颈！

ICML2023重磅！清华、UC、MIT强强联手—突破性提出监督多模态学习中的单模态特征新范式！

震撼发布！低质量多模态数据融合方法最新进展！天津大学携手顶尖高校推出重磅综述！

IJCAI2024-连续多模态知识图谱构建，实现动态场景中新实体和关系的添加

ICML 2024｜多模态数据融合理论创新！天津大学提出预测多模态动态融合框架

ICML2024 多模态大语言模型相关论文集锦！！大模型热度不减！

地表最强模型GPT4o-latest模型重夺第一，力压谷歌！

TPAMI 2024｜跨模态联邦学习！中科院自动化所提出跨模态联邦人类活动识别方法

ECCV2024｜GalLoP：多模态提示学习——视觉-语言模型的全局和局部提示

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉

ECCV 2024｜ 多模态学习新突破！中国人民大学、清华大学等提出诊断和再学习方法平衡多模态训练