ECCV 2024 | 如何利用自监督学习强化多模态模型的领域泛化和自适应

文摘 2024-09-03 10:00 英国

点击上方蓝字关注我们

Towards Multimodal Open-Set Domain Generalization and Adaptation through Self-supervision

作者列表: Hao Dong, Eleni Chatzi, Olga Fink
作者单位:

Hao Dong, Eleni Chatzi: ETH Zürich
Olga Fink: EPFL

论文链接:

https://arxiv.org/abs/2407.01518

代码链接:

https://github.com/donghao51/MOOSA

简介

首次提出了一种针对多模态开放集领域泛化（Multimodal Open-Set Domain Generalization, MM-OSDG）的方法，并通过自监督学习机制实现。研究中引入了两种创新性的多模态自监督前置任务：掩码跨模态翻译（Masked Cross-modal Translation） 和 多模态拼图（Multimodal Jigsaw Puzzles）。这些任务帮助学习多模态的代表性特征，从而增强了模型的泛化能力和开放类检测能力。此外，还提出了一种新的熵加权机制，用于平衡不同模态的损失，并将该方法扩展至多模态开放集领域适应（Multimodal Open-Set Domain Adaptation, MM-OSDA）。通过在EPIC-Kitchens和HAC数据集上的广泛实验，验证了该方法的有效性和通用性。

研究动机

领域泛化和领域适应在应对机器学习模型在不同环境中的鲁棒性和适应性方面具有重要意义。然而，现有的研究大多集中于单一模态的数据，忽略了多模态数据在现实世界应用中的重要性。此外，当前的多模态方法通常假设源域和目标域的标签空间一致，而在实际应用中，目标域可能包含源域中未见过的新类别（开放集问题）。因此，本文的研究动机是通过引入自监督学习任务来解决多模态开放集领域泛化和适应问题。

论文贡献

首次提出MM-OSDG问题：定义并探讨了多模态开放集领域泛化问题，强调了其在实际应用中的重要性。
创新的自监督前置任务：提出了掩码跨模态翻译和多模态拼图任务，用于增强多模态特征的泛化能力和开放类检测能力。
熵加权机制：设计了一种新的熵加权机制，在不同模态间平衡损失，提高了模型的整体表现。
扩展至MM-OSDA：将方法扩展至多模态开放集领域适应情境，进一步验证了其在目标域未标注数据上的有效性。

MOOSA算法

论文框架

图 1：MM-OSDG MOOSA 框架。EntWei & EntMin：熵加权和最小化

MOOSA框架如图1所示，主要包括以下部分：

掩码跨模态翻译（Masked Cross-modal Translation）：在多模态特征之间进行翻译，通过随机掩码部分输入模态的特征并进行翻译，学习更具代表性的特征表示。
多模态拼图（Multimodal Jigsaw Puzzles）：将多模态特征进行分割和随机排列，通过拼图任务迫使模型学习多模态之间的内在关系。
熵加权机制（Entropy Weighting and Minimization）：根据预测的熵值为每个模态分配权重，以平衡各模态的损失贡献。

损失函数

掩码跨模态翻译损失：

其中，表示对第i模态的特征进行随机掩码。

多模态拼图损失：

其中，为拼图分类器，为重新排列后的特征嵌入。

熵加权损失：

其中，通过熵值计算得到，用于调整不同模态的损失权重。

最终损失函数：

实验结果

在EPIC-Kitchens和HAC数据集上进行了广泛的实验，包括MM-OSDG、MM-OSDA和多模态闭集领域泛化（Multimodal Closed-Set DG）设置。实验结果表明，MOOSA框架在所有测试的基准数据集上均显著优于现有的最先进方法，在平均HOS上提升了高达5.63%。此外，MOOSA在单一源域开放集泛化中也展现出了优异的表现，进一步验证了其在各种开放集设置中的鲁棒性和通用性。

表 2：EPIC-Kitchens 数据集上具有不同模态组合的多模态Open-set DG。

表 3：HAC 数据集上具有所有模态的多模态Open-set DG

关于论文的详细实施过程和具体解释请阅读论文原文哦～❤️❤️

喜欢的话，请别忘记点赞👍➕关注哦

CVPR投稿倒计时15天！Transformer还能卷出哪些新花样？

I 2025｜快手科技发布突破性EVLM！高效视觉语言模型，极大降低计算成本，实现全面视觉感知！

EMNLP 2024｜南京大学重磅推出EFUF：高效细粒度unlearning框架，全面破解多模态大语言模型“幻觉”难题！

NeurIPS 2024 | G3: 一种基于多模态大模型的高效自适应地理定位框架

港中文、UCL、武大联手攻关！NeurIPS 2024 全新多模态情绪分析模型，精准应对不完整数据挑战！

刷新多模态医学图像报告生成新高度｜AAAI 2023 山东大学&齐鲁医院推出多模态记忆Transformer！

NeurIPS 2024｜多模态学习重磅论文全览！最新研究集锦，不容错过！（下）

NeurIPS 2024｜多模态学习重磅论文全览！最新研究集锦，不容错过！（上）

突破了LLM极限，GPT-o1深度揭秘

港中文、上海AI Lab与浙大重磅推出PointLLM：大语言模型再升级，强势赋能点云理解！-ECCV 2024

NeurIPS 2024 | 像素级MLLM: Vitron, 实现图像视频的理解、生成、分割、编辑大一统

TPAMI 2024 | 基于时空结构对齐的视频-语言表示学习

ECCV 2024｜解锁多模态自监督学习！深度解耦常见与独特表示的创新突破

CVPR2023-基于交互式提示学习的多模态融合方法

CVPR 2024｜多模态大模型引爆！“因果推理”加持, 解锁链接上下文学习的无限潜能

CVPR 2023｜TransFusion震撼登场！突破性语义分割多模态融合网络，点云与图像直接融合！

TPAMI | SegNet:语义分割领域超经典轻量化模型

ECCV 2024｜多模态学习不鲁棒？表示解耦打造稳健多模态学习新纪元

NeurIPS 2021-如何利用知识图谱构建世界模型？！一种新的文本世界建模技术！

文末赠书｜《AI系统：原理与架构》于华为HC大会2024正式发布

又一本开源免费的大模型书来了，449页pdf！

CVPR 2024｜突破模态瓶颈！交替单模态适应引领多模态表示学习，攻克模态惰性与遗忘难题！

速来围观！多模态大型语言模型(MLLM)最新进展与实战应用全揭秘！

学术最前沿！2024最新深度多模态数据融合综述来袭！

AI大模型掀起效率革命！掌握ChatGPT等前沿技术，赋能企事业办公、科研与项目研发实战

ICML 2024｜浙大，NUS等高校联手推出多模态LLM革命性自动编码技术—Morph-Tokens

AAAI 2024｜重磅发布！多模态跟踪新范式：条件生成对抗网络与扩散模型的融合引爆技术革命！

ECCV 2024 | 破解多模态学习：单模态模型联合嵌入助力缺失模态预测新突破！

NeurIPS 2023｜浙大&上海AI Lab&华为联合发表--跨模态泛化的多模态统一表示

TPAMI 2024|打破边界！双向LiDAR相机语义分割中的单到多模态知识蒸馏革命

顶会NeurIPS‘24放榜！接收数量突破4千！8865高分被拒？

NeurIPS 2024|颠覆性发现！大型视觉-语言模型真的会“看”吗？MMStar基准揭示多模态评估误区与数据泄漏隐患

ECCV 2024 ｜中国人民大学、清华大学等提出平衡多模态学习的诊断和再学习方法

TPAMI 2024｜颠覆跨模态相似性学习的“游戏规则”！因果不变交互挖掘CIIM强势来袭：打破模态壁垒，精准捕捉跨模态信息！

TIP 2024｜Mind the Gap! 南开大学提出跨模态 UNet 学习与模态无关的表示

ICLR2024多模态融合论文汇总！时间检验奖和最佳论文奖汇总！

ICML 2024 | 深度解析多模态线性网络中的单模态偏差：突破与新发现！

第一本中文大语言模型教程来了！人大出版，391页！

ICML 2024重磅！GeminiFusion：高效逐像素多模态融合！引领Vision Transformer新纪元！

CVPR 2024｜拥抱单模态不确定性，实现稳健多模态融合！电子科大与同济等联手突破多模态技术瓶颈！

ICML2023重磅！清华、UC、MIT强强联手—突破性提出监督多模态学习中的单模态特征新范式！

震撼发布！低质量多模态数据融合方法最新进展！天津大学携手顶尖高校推出重磅综述！

IJCAI2024-连续多模态知识图谱构建，实现动态场景中新实体和关系的添加

ICML 2024｜多模态数据融合理论创新！天津大学提出预测多模态动态融合框架

ICML2024 多模态大语言模型相关论文集锦！！大模型热度不减！

地表最强模型GPT4o-latest模型重夺第一，力压谷歌！

TPAMI 2024｜跨模态联邦学习！中科院自动化所提出跨模态联邦人类活动识别方法

ECCV2024｜GalLoP：多模态提示学习——视觉-语言模型的全局和局部提示

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉