ICML2023 清华大学、加州大学、麻省理工等高校联合提出——监督多模态学习中的单模态特征学习

文摘 2024-06-03 13:00 英国

论文地址：

https://arxiv.org/pdf/2305.01233

简介

作者将多模态数据的特征（即学习到的表示）抽象为 1）单模态特征，可以从单模态训练中学习，2）配对特征，只能从跨模态交互中学习。多模态模型有望在保证单模态特征学习的基础上受益于跨模态交互。然而，最近的监督多模态后期融合训练方法仍然存在对每种模态的单模态特征学习不足的问题。作者在文中证明了这种现象确实损害了模型的泛化能力。为此，作者建议根据单模态的分布，从单模态集成（UME）和提出的单模态教师（UMT）中为给定的监督多模态任务选择一种有针对性的后期融合学习方法和配对功能。实验证明，在简单的指导策略下，所提出方法可以在各种多模态数据集（包括 VGG-Sound、Kinetics-400、UCF101 和 ModelNet40）上获得与其他复杂的后期融合或中间融合方法相当的结果。

研究动机

在线性探测中，多模态学习的编码器比单模态学习的编码器表现更差。这种现象被称为模态惰性，并在图 1 中进行了说明。

除了惰性问题之外，最近的后期融合方法的另一个缺点是实施起来很复杂。例如G-Blending（Wang et al，2020）需要额外的数据分割来估计过度拟合与泛化的比率，以重新加权损失，然后一次又一次地重新训练模型。更复杂的是这些超参数需要在新的数据集上重新调整。

为此，迫切需要更简单有效的方法。作者注重学习单模态特征，并建议根据单模态和配对特征的分布，从 Uni-Modal Ensemble (UME) 和提出的 Uni-Modal Teacher (UMT) 中为给定任务选择有针对性的后期融合训练方法：

1）如果单模态和配对特征都重要，那么 UMT 是有效的，它可以帮助多模态模型通过单模态蒸馏更好地学习单模态特征，并保留跨模态交互；

2）如果配对特征不重要并且两种模态都具有很强的单模态特征，则 UME 更合适，它直接组合单模态模型的输出，几乎避免了可能导致模态惰性的跨模态交互。

方法

一个简单的解决方案是单独训练单模态模型，然后结合它们的预测来给出最终预测。然而，这样又面临另一个问题：多模态模型如何从多模态联合训练中受益？假设跨模态交互发挥了作用，通过研究VGG-Sound 上具有不同跨模态交互自由度的几种模型，包括 1）直接对单模态模型的预测进行平均，几乎没有跨模态交互； 2）在单模态预训练但冻结的编码器之上训练多模态线性分类器，其中模态可以通过线性层相互交互； 3）朴素融合或朴素多模态学习：从头开始的端到端后期融合学习，无需精心设计的技巧，其中模态可以比上述两个模型更多地交互。

如表 2 所示，在 VGG-Sound 的某些类别中，朴素融合的精度超过了两个单模态模型的精度之和。此外，朴素的融合训练拥有这些模型之间跨模式交互的最大自由度，在这些类别中获得了最佳的平均准确度。并且对单模态模型的预测进行平均，这些模型之间的跨模态交互具有最小的自由度，在这些类别中得到的平均准确度较差。结果表明，联合训练使模型能够学习超越单模态特征的表示，作者将其称为配对特征。

UMT：Uni-Modal Teacher (UMT) 被用于后期融合训练。它将预训练的单模态特征提炼为多模态后期融合模型的相应部分。UMT的框架如图4所示。UMT 和 Wang 等人的方法之间有几个重要的区别。首先，UMT 中的蒸馏发生在特征级别，而不是软标签级别。其次，与多模态模型的训练相比，UMT 中单模态模型的训练不使用任何额外的数据。其目的在于使多模态模型能够更好地学习当前数据集中的单模态特征，而不是向多模态模型引入额外的信息。

UME： Uni-Modal Ensemble（UME）旨在通过结合单模态模型的预测来避免单模态特征学习不足。首先，独立训练单模态模型。然后，通过对单模态模型的预测进行加权来给出最终输出。

作者给出了决定使用哪种方法的经验技巧：在单模态预训练编码器上训练多模态线性分类器，不同模态可以在线性层中相互作用。然后，将其与单模态模型的平均预测进行比较：

1）如果分类器的性能更好，这意味着可以从该任务中的跨模态交互中受益，则可选择UMT，其中保留跨模态交互，同时保证改进单模态特征的学习；

2）否则，跨模态交互在给定任务中弊大于利，选择UME，它几乎避免了跨模态交互。注意到在 UMT 和 UME 中，作者在单模态和多模态模型中对指定模态使用相同的backbone。

实验结果

如表 5 所示，UMT 优于其他后期融合方法。在后期融合架构中，由相应的编码器从不同模态中提取特征，然后将头层应用于输出预测。比较不同的头，包括线性层、MLP 和注意力层。在UMT，使用简单的线性层作为多模态头。作者还进行了另一个实验，添加额外的单模态线性头来接收单模态特征并生成额外的损失来联合优化模型，即 Auxiliary-CEloss。 Auxiliary-CEloss 为所有损失赋予相同的权重，而 G-Blending 根据过拟合泛化比 (OGR) 重新加权损失。 OGM-GE通过在线梯度调制控制每种模态的优化。

更详细的内容和实施过程请访问点击论文原文地址👉 https://arxiv.org/pdf/2305.01233

喜欢的话，请别忘记点赞👍➕关注哦～

http://mp.weixin.qq.com/s?__biz=MzkxNzY2NDA1OQ==&mid=2247484249&idx=1&sn=fbfcc7d000399079d4dfb85992b3aad2

多模态机器学习与大模型

多模态机器学习与大模型致力于推荐、分享、解读多模态机器学习相关的前沿论文成果，讨论大语言模型先进技术，助力AI研究者进步。合作交流请+V：Multimodal2024，谢谢❤️

CVPR投稿倒计时15天！Transformer还能卷出哪些新花样？

I 2025｜快手科技发布突破性EVLM！高效视觉语言模型，极大降低计算成本，实现全面视觉感知！

EMNLP 2024｜南京大学重磅推出EFUF：高效细粒度unlearning框架，全面破解多模态大语言模型“幻觉”难题！

NeurIPS 2024 | G3: 一种基于多模态大模型的高效自适应地理定位框架

港中文、UCL、武大联手攻关！NeurIPS 2024 全新多模态情绪分析模型，精准应对不完整数据挑战！

刷新多模态医学图像报告生成新高度｜AAAI 2023 山东大学&齐鲁医院推出多模态记忆Transformer！

NeurIPS 2024｜多模态学习重磅论文全览！最新研究集锦，不容错过！（下）

NeurIPS 2024｜多模态学习重磅论文全览！最新研究集锦，不容错过！（上）

突破了LLM极限，GPT-o1深度揭秘

港中文、上海AI Lab与浙大重磅推出PointLLM：大语言模型再升级，强势赋能点云理解！-ECCV 2024

NeurIPS 2024 | 像素级MLLM: Vitron, 实现图像视频的理解、生成、分割、编辑大一统

TPAMI 2024 | 基于时空结构对齐的视频-语言表示学习

ECCV 2024｜解锁多模态自监督学习！深度解耦常见与独特表示的创新突破

CVPR2023-基于交互式提示学习的多模态融合方法

CVPR 2024｜多模态大模型引爆！“因果推理”加持, 解锁链接上下文学习的无限潜能

CVPR 2023｜TransFusion震撼登场！突破性语义分割多模态融合网络，点云与图像直接融合！

TPAMI | SegNet:语义分割领域超经典轻量化模型

ECCV 2024｜多模态学习不鲁棒？表示解耦打造稳健多模态学习新纪元

NeurIPS 2021-如何利用知识图谱构建世界模型？！一种新的文本世界建模技术！

文末赠书｜《AI系统：原理与架构》于华为HC大会2024正式发布

又一本开源免费的大模型书来了，449页pdf！

CVPR 2024｜突破模态瓶颈！交替单模态适应引领多模态表示学习，攻克模态惰性与遗忘难题！

速来围观！多模态大型语言模型(MLLM)最新进展与实战应用全揭秘！

学术最前沿！2024最新深度多模态数据融合综述来袭！

AI大模型掀起效率革命！掌握ChatGPT等前沿技术，赋能企事业办公、科研与项目研发实战

ICML 2024｜浙大，NUS等高校联手推出多模态LLM革命性自动编码技术—Morph-Tokens

AAAI 2024｜重磅发布！多模态跟踪新范式：条件生成对抗网络与扩散模型的融合引爆技术革命！

ECCV 2024 | 破解多模态学习：单模态模型联合嵌入助力缺失模态预测新突破！

NeurIPS 2023｜浙大&上海AI Lab&华为联合发表--跨模态泛化的多模态统一表示

TPAMI 2024|打破边界！双向LiDAR相机语义分割中的单到多模态知识蒸馏革命

顶会NeurIPS‘24放榜！接收数量突破4千！8865高分被拒？

NeurIPS 2024|颠覆性发现！大型视觉-语言模型真的会“看”吗？MMStar基准揭示多模态评估误区与数据泄漏隐患

ECCV 2024 ｜中国人民大学、清华大学等提出平衡多模态学习的诊断和再学习方法

TPAMI 2024｜颠覆跨模态相似性学习的“游戏规则”！因果不变交互挖掘CIIM强势来袭：打破模态壁垒，精准捕捉跨模态信息！

TIP 2024｜Mind the Gap! 南开大学提出跨模态 UNet 学习与模态无关的表示

ICLR2024多模态融合论文汇总！时间检验奖和最佳论文奖汇总！

ICML 2024 | 深度解析多模态线性网络中的单模态偏差：突破与新发现！

第一本中文大语言模型教程来了！人大出版，391页！

ICML 2024重磅！GeminiFusion：高效逐像素多模态融合！引领Vision Transformer新纪元！

CVPR 2024｜拥抱单模态不确定性，实现稳健多模态融合！电子科大与同济等联手突破多模态技术瓶颈！

ICML2023重磅！清华、UC、MIT强强联手—突破性提出监督多模态学习中的单模态特征新范式！

震撼发布！低质量多模态数据融合方法最新进展！天津大学携手顶尖高校推出重磅综述！

IJCAI2024-连续多模态知识图谱构建，实现动态场景中新实体和关系的添加

ICML 2024｜多模态数据融合理论创新！天津大学提出预测多模态动态融合框架

ICML2024 多模态大语言模型相关论文集锦！！大模型热度不减！

地表最强模型GPT4o-latest模型重夺第一，力压谷歌！

TPAMI 2024｜跨模态联邦学习！中科院自动化所提出跨模态联邦人类活动识别方法

ECCV2024｜GalLoP：多模态提示学习——视觉-语言模型的全局和局部提示

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉