ICML 2024 ｜多模态最新进展！单模态增益多模态学习，解决多模态和单模态学习目标梯度冲突问题

文摘 2024-07-05 08:02 英国

论文链接：

https://arxiv.org/pdf/2405.17730

代码链接：

https://github.com/GeWu-Lab/MMPareto_ICML2024

简介

具有针对性的单模态学习目标的多模态学习方法在缓解多模态学习不平衡问题方面表现出了卓越的功效。然而，之前被忽视的多模态和单模态学习目标之间的梯度冲突，这可能会误导单模态编码器优化。为了很好地减少这些冲突，作者观察了多模态损失和单模态损失之间的差异，其中更容易学习的多模态损失的梯度幅度和协方差都小于单模态损失。利用这一特性，文中分析了多模态场景下的 Pareto 积分，并提出了 MMPareto 算法，该算法可以确保最终梯度的方向对所有学习目标都是通用的，并增强幅度以提高泛化能力，从而提供单模态辅助。

研究动机

多模态学习过程中存在模态不均衡问题，即大多数多模态模型不能很好地联合利用所有模态，对每种模态的利用不平衡。此外，在多任务场景下，模型优化中存在先前被忽视的风险，这也可能会限制模型的能力。不可否认，单模态学习目标有效地增强了相应模态的学习。同时，单模态编码器参数的优化受到多模态联合学习目标和自身单模态学习目标的影响。这需要同时最小化两个学习目标，但通常不存在一组可以满足该目标的参数。因此，这些多模态和单模态学习目标在优化过程中可能会发生冲突。在图 1a 中，以广泛使用的 Kinetics Sounds 数据集上的视频编码器为例。可看出负余弦相似度表明多模态和单模态梯度在优化过程中确实存在方向冲突。特别是，早期训练阶段的这些冲突可能会严重损害模型能力，从而导致主要的多模态学习可能会受到干扰。

论文贡献

（1）提出了多模态帕累托（MMPareto）算法，该算法在梯度积分时分别考虑方向和大小。它确保了无害的单模态辅助，其中最终梯度的方向是所有学习目标的共同方向，并增强了泛化能力。

（2）对该方法的收敛性进行了分析。基于多种类型数据集的结果，该方法有效缓解了不平衡的多模态学习问题，并且可以很好地配备具有密集跨模态交互的模型，例如多模态 Transformers 。单模态性能甚至优于单独训练的单模态模型，这是以前很少实现的。

（3）验证了所提出的方法还可以扩展到任务难度存在明显差异的多任务情况，表明其可扩展性。

MMPareto方法

类似多任务的多模态框架

在多模态学习中，模型有望通过整合多种模态的信息来产生正确的预测。因此，经常存在多模态联合损失，需要融合多模态特征进行预测。然而，仅利用这种联合损失来一起优化所有模态可能会导致优化过程由一种模态主导，而导致其他模态严重优化不足。为了克服这种不平衡的多模态学习问题，引入针对每种模态优化的单模态损失被广泛使用，并被证明可以有效缓解这种不平衡的多模态学习问题。在这些场景中，损失函数为：

其中是多模态联合损失，是模态 k 的单模态损失。n 是模态的数量。我们主要考虑多模态判别任务，并且所有损失都是交叉熵损失函数。这种类似多任务的多模态框架如图 2 的左侧部分所示。

SGD 属性和假设

多模态框架同时具有多模态损失函数和单模态损失函数。对于，模态k的单模态编码器参数、迭代t处的和的梯度满足：

其中和是批次采样协方差。在多模态情况下，单模态损失仅接收基于相应模态数据的预测。相比之下，多模态损失通过来自所有模态数据的更充分信息进行优化，使其更容易训练。经验证，多模态损失比单模态损失收敛速度更快，训练误差更低.

基于之前的研究和作者在文中的验证，可提出假设1：

假设1. 在多任务多模态情况下，对于共享单模态编码器，单模态损失的梯度往往比易于学习的多模态损失具有更大的幅度和更大的批量采样协方差。

多模态学习中的帕累托积分

在多模态情况下，多模态损失和单模态损失紧密相关，但它们的梯度仍然可能存在冲突，如图1a。因此，如何很好地整合和是需要解决的问题。这符合多任务学习中帕累托方法的思想。在帕累托方法中，在每次迭代时，梯度被分配不同的权重，加权组合是最终的梯度，它可以提供有利于所有学习目标的下降方向。最后，参数可以收敛到权衡状态，即帕累托最优，其中任何目标都不能在不损害任何其他目标的情况下推进。将帕累托积分引入多模态框架是很自然的，避免了多模态和单模态梯度之间的冲突。对于模态 k，帕累托算法被公式化来求解：

其中表示L2范数。为了简洁起见，在某些部分将模态 k 表示为。这个问题等价于寻找梯度向量族的凸包中的最小范数。帕累托最优的必要条件是这个优化问题的最小范数为 0，并且相应的参数是帕累托平稳，或者它可以提供所有学习共同的下降方向目标。

多模态帕累托算法

基于以上分析，传统的帕累托方法在多模态学习中可能会导致极小值，进而削弱模型泛化能力。文中提出了多模态帕累托（MMPareto）算法，分别考虑冲突情况和非冲突情况。整体算法如图2所示。文中以模态k的编码器为例，所有模态的编码器都遵循相同的积分。为了简洁起见，还省略了。

非冲突情况 首先考虑cos β ≥ 0 的情况。在这种情况下，和之间的余弦相似度为正。对于方向，梯度向量族的任意凸组合对于所有学习目标都是通用的。因此，在这种情况下，在积分过程中指定 2 = 2 = 1 而不是 Pareto 解析解，以增强 SGD 噪声项。通过此设置，最终梯度为，噪声项为与传统 Pareto 噪声项相比，强度有所增强。

冲突情况 对于 cos β < 0 的情况，必须找到所有损失的共同方向，并在梯度积分过程中增强 SGD 噪声强度。因此，首先解决Pareto优化问题，得到和，这可以提供一个不冲突的方向。此外，为了增强噪声项的强度，增加了最终梯度的大小。以统一基线的大小为基准，在适当的范围内调整：

总体而言，MMPareto 提供了无冲突方向和增强的 SGD 噪声强度，帮助模型收敛到更平坦的最小值并更好地泛化。除此之外，我们还分析了所提出的 MMPareto 方法的收敛性.

实验结果

根据表1，可以得出统一基线可以获得相当可观的性能，甚至可以优于或与这些不平衡的多模态学习方法相媲美。原因可能是单模态损失的引入有效地增强了每种模态的学习，这符合这些比较方法的核心思想。此外，与现有的多模态预测方法相比，MMpareto 方法具有无冲突优化过程，取得了相当大的改进。更重要的是，MMPareto方法同时表现出出色的单模态性能，甚至可以超越单独训练的单模态模型。例如，在 CREMA-D 和 Kinetics Sounds 数据集上，MMPareto 的音频准确性优于纯音频方法。这在之前的研究中是很少实现的。

更详细的内容和实施过程请访问点击👉原文链接

喜欢的话，请别忘记点赞👍➕关注哦～

ICML2023重磅！清华、UC、MIT强强联手—突破性提出监督多模态学习中的单模态特征新范式！

震撼发布！低质量多模态数据融合方法最新进展！天津大学携手顶尖高校推出重磅综述！

IJCAI2024-连续多模态知识图谱构建，实现动态场景中新实体和关系的添加

ICML 2024｜多模态数据融合理论创新！天津大学提出预测多模态动态融合框架

ICML2024 多模态大语言模型相关论文集锦！！大模型热度不减！

地表最强模型GPT4o-latest模型重夺第一，力压谷歌！

TPAMI 2024｜跨模态联邦学习！中科院自动化所提出跨模态联邦人类活动识别方法

ECCV2024｜GalLoP：多模态提示学习——视觉-语言模型的全局和局部提示

牛津大学发布Nature新作！教你如何使用语义熵检测大语言模型中的幻觉

CVPR2024—重磅来袭！西工大团队提出通用多模态医学数据表示学习方法！持续自监督学习！

AI 之王 GPT-6 猎户座来了！大模型杀疯了

CVPR 2024｜北大携手阿里巴巴提出幻觉增强对比学习的多模态大模型

大模型顶级瘦身术！知识蒸馏联合提示学习！

ECCV 2024 | 如何利用自监督学习强化多模态模型的领域泛化和自适应

ECCV 2024｜奥秘揭晓：小样本学习突破，跨领域多模态知识蒸馏动作识别

ACM MM 2024 | PC2: 用于跨模态检索中噪声对应学习的基于伪分类的伪标题方法-新基准数据集

ACL 2024｜抢先知！多模态大语言模型最新综述！

火遍科研圈！中国科学院「紫东太初」如何打破机器幻觉之谜？

中山大学、鹏城实验室等首发！CVPR 2024| DMR：分解多模态表示——视觉强化学习中帧和事件融合

CVPR 2024｜中国人民大学创新基于样本级模态评估的多模态协作增强方法

ACL 2024｜机器学习新纪元！多模态机器学习火热论文汇总特辑！（下）

大神李宏毅“机器学习”课程集结成书，Datawhale新书出版了！

2024年了，Diffusion模型还有哪些能做的？

ACL 2024｜机器学习新纪元！多模态机器学习火热论文汇总特辑！（上）

又一种新的通用世界模型！WorldDreamer：通过预测屏蔽token带来新颖的视频生成方法！

AAAI 2024｜Structure-CLIP—利用场景图知识增强多模态结构化表示

论文速递｜追踪多模态机器学习领域最新研究动态！

北航、小米EV创新MV2DFusion多模态3D检测框架，自动驾驶技术新飞跃！

文末赠书｜作者硬核，内容透彻接地气的多模态大模型通识读本！国家队大模型紫东太初负责人王金桥力作

ECCV 2024｜多模态学习新突破！中国人民大学、清华大学等提出诊断和再学习方法平衡多模态训练

投稿必读

又一篇多模态顶会！这个idea简直“ 杀疯了 ” ....

ACM MM 2024 | PC2: 用于跨模态检索中噪声对应学习的基于伪分类的伪标题方法-新基准数据集

多模态再次爆发！

TPAMI 2024|华南理工大学等继PMF后提出改进版本EPMF！高效感知多传感器融合，解决3D语义分割问题

ACL 2024 ｜南京大学与上海AI Lab提出多模态GUI智能体，像人一样操作手机电脑

TIP 2024｜Mind the Gap! 南开大学提出跨模态 UNet 学习与模态无关的表示

中科院深圳研究院发布多模态医学图像分割新进展！MICFormer：多模态信息交互!

中山大学、鹏城实验室等首发！CVPR 2024| DMR：分解多模态表示——视觉强化学习中帧和事件融合

ICML2023| 解密冻结大语言模型引导视觉-语言预训练前沿技术，弥补多模态差距

ECCV2024｜GalLoP：多模态提示学习——视觉-语言模型的全局和局部提示

NeurIPS 2023｜浙大&上海AI Lab&华为联合发表--跨模态泛化的多模态统一表示

AAAI2024-南京大学、腾讯联合发表--MmAP：跨域多任务学习的多模态对齐提示

CVPR2024—重磅来袭！西工大团队提出通用多模态医学数据表示学习方法！持续自监督学习！

CVPR2024-多模态MLM新SOTA，因果上下文生成解决视觉问答任务

CVPR2023-动态多模态特征融合！模态级分类！融合级语义分割！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉