简介

语言监督下的多模态对比学习代表了现代机器学习的范式转变。通过在网络规模数据集上进行预训练，多模态对比学习可以学习表现出令人印象深刻的鲁棒性和可迁移性的高质量表示。尽管它在经验上取得了成功，但理论理解仍处于起步阶段，尤其是与单模态对比学习的比较。在这项工作中，文中引入了一个特征学习理论框架，为理解多模态和单模态对比学习之间的差异提供了理论基础。基于由信号和噪声组成的数据生成模型，文中对使用 InfoMax 目标函数训练的 ReLU 网络进行分析。通过基于轨迹的优化分析和对下游任务的泛化表征，确定了影响多模态和单模态对比学习在下游任务中的泛化性的关键因素，即信噪比(SNR) 。通过两种模态之间的协作，多模态学习可以实现更好的特征学习，从而导致下游任务的性能比单模态学习有所提高。文中提供了一个统一的框架，可以描述单模态和多模态对比学习的优化和泛化。在合成数据集和真实数据集上进行的经验实验进一步巩固了理论成果。

研究动机

尽管多模态对比学习取得了前所未有的成功，但导致更高性能的基本机制，特别是与单模态对比学习相比，仍然尚未得到充分探索。最近，一些开创性的著作为单模态或多模态对比学习提供了理论解释。例如，通过分析其特征学习过程，研究了单模态对比学习如何学习神经网络的特征表示。至于多模态对比学习，文献[12,58]解释了为什么多模态对比学习比监督学习表现出零样本可迁移性和对分布变化的鲁棒性，这提供了有价值的见解。尽管现有的两方面工作都在各自的背景下提供了有效的理论见解，但很少有工作在统一的框架下比较两种类型的对比学习的优化和泛化。这促使我们为单模态和多模态对比学习建立系统的特征学习分析。

特别是，考虑一个包含两种数据模态的数据生成模型，这些数据模态是根据信号和噪声特征生成的。信号特征在不同模态中具有相关性，而噪声特征在模态间不存在相关性。文中研究了梯度下降训练下单模态和多模态对比学习的优化。通过研究信号学习和噪声记忆的轨迹，建立了收敛条件并进一步表征了下游任务的泛化能力。结果表明，通过模态之间的合作，多模态对比学习可以在下游任务中实现更好的泛化。相反，如果没有第二种模态的帮助，单模态对比学习集中于从数据中学习噪声，因此对下游任务的概括性较差。

论文贡献

这项工作为非凸设置下梯度下降训练下的单模态和多模态对比学习建立了第一个系统的比较优化分析。证明了通过克服非凸困难，单模态和多模态都可以在多项式迭代后在 InfoMax 对比损失下实现接近于零的训练误差。
通过对来自数据的ReLU 网络的信号学习和噪声记忆进行基于轨迹的分析，成功地描述了单模态和多模态对比学习之间的泛化差异。不同模态的不同信噪比导致两个对比学习框架下游任务的泛化存在差异。
文中理论表明，多模态相对于单模态对比学习的优势来自于第二种模态的高质量以及两种模态通过对比学习进行的合作。这种分歧最终体现在特征学习的差异以及下游任务泛化的最终差距上。

方法

单模态对比学习

使用带有 ReLU 激活的单层神经网络作为编码器，其中 m 是神经元的数量，代表嵌入维度。更准确地说，

令对于 , ，并且 σ(·) 是 ReLU 激活函数。采用高斯初始化权重，其中作为强度。

给定一对正数据样本，对比损失函数基于相似性度量，定义为两个样本 x 的表示之间的内积，

其中是停止梯度操作，它受到最近的实证工作 [19, 10] 和研究对比学习的理论工作的启发。这里将正样本定义为:

特别是，考虑了信号保持不变而噪声向量因添加的独立噪声而被破坏的增强形式。文中考虑对比损失如下：

文中使用梯度下降来优化对比学习损失，从而导致梯度更新：

其中，将表示为学习率，并将损失导数定义为:

直观上，当正对之间的相似度较高，而负时间之间的相似度较低时，我们可以看到和，因为且。因此，梯度下降接近于零，表明结果接近收敛。此外，权重的演化方向由信号向量 μ 和噪声向量组成，其中。

多模态对比学习

使用两个神经网络和分别编码两个输入模态 x 和。两个神经网络都使用 ReLU 激活函数。更准确地说，

令和。这里 σ(·) 是 ReLU 激活函数，和 r \in [m] $是两个网络中的权重。给定嵌入，两种模态的相似度函数定义为:

上面定义的两个相似度函数以模态为中心，并应用停止梯度操作。对比多模态学习的目标函数可以表示为:

与单模态学习相同，其目标函数由式（1）控制。多模态对比学习的目标函数采用1个正对和M个负对。此外，我们要求负对不共享相同的标签。为了优化多模态学习的目标函数，应用梯度下降同时训练两个编码器。第一模态网络的梯度下降规则由以下表达式控制。

这里稍微滥用了符号，文中使用 , 来表示两种模态的损失导数。与信号模态学习相比，多模态学习的主要区别在于相应的嵌入来自另一种模态。可以类似地导出第二模态的梯度更新。

下游任务评估

为了评估单模态和多模态对比学习在下游任务中的分布外泛化性能，考虑一个测试分布，其中样本生成如下。

测试信号满足，测试噪声，并且服从 Rademacher 分布。在训练完成后，在学习到的嵌入顶部引入一个线性头部以适应测试分布，即

具体而言，考虑分类任务，并定义总体 0-1 测试误差为

主要结果

文中这部分主要介绍关键理论发现，通过特征学习分析阐明了单模态和多模态对比学习的优化和泛化结果。对梯度下降引起的迭代使用基于轨迹的分析，然后对下游测试集的性能进行训练后分析。下面给出主要假设和主要定理。

(1)采用高维设置来保证足够的超参数化。 (2,3) 选择学习率和初始化强度以确保梯度下降能够有效地最小化对比损失。 (4)隐藏层大小m和训练样本数n的选择是为了提供足够的集中度。 (5)设置增强的强度以保持两个正样本之间的相似性。 (6) 样本数与信噪比的关系是为了区分单模态和多模态对比学习的特征学习过程。 (7)为了区分单模态和多模态对比学习，引入了常数Cμ，它使得多模态对比学习中两种模态之间能够合作。

定理4.2指出，尽管单模态对比学习实现的训练误差很小，但下游任务的测试误差很大。

定理4.3表明，经过训练的多模态对比学习可以实现较小的训练误差和下游测试误差。与定理4.2相比，定理4.3表明多模态对比学习在下游任务中的泛化能力优于单模态对比学习。造成这种差异的原因是两种模模态可以相互合作：一种模态的更高质量可以促进目标模态的特征学习，有助于推广到下游任务。相反，增强通常保持与原始数据相同的信噪比，因此单模态学习很难从增强中受益，只能记住数据中的噪声，这不适用于下游任务。

书籍推荐

想要了解更多多模态大模型的知识，可以阅读下面👇这本书籍：

编辑推荐：

（1）内容权威：作者为一线的LLM研究及实践者，本书受到多位研究专家、科技公司管理者的好评及推荐。全面覆盖了多模态大模型的算法原理和应用实战，从基础到高级，涵盖Transformer、GPT系列、深度生成模型等前沿技术，详尽介绍了预训练模型、分布式训练等重要内容。

（2）质量可靠：书中包含丰富的项目案例。通过具体实战项目，如Stable Diffusion进行图像生成和Code Llama进行代码生成，展示了大模型的实际部署和优化过程，并强调了微调技术的细节，确保读者能够在实际操作中有效应用所学知识。

（3）收获切实：通过阅读本书，你将：1）深入了解多模态大模型的架构、原理及应用；2）掌握大模型的实际部署和优化技巧；3）获得详细的微调技术指导，提升在深度学习模型领域的实战能力和职业竞争力。

致谢作者，转载请注明出处！关于论文的详细实施过程和具体解释请阅读论文原文哦～❤️❤️ /欢迎投稿

喜欢的话，请别忘记点赞👍➕关注哦

一文彻底搞懂多模态 - 多模态推理

大模型经典著作《大语言模型基础与前沿》

NeurIPS 2024|耦合Mamba：通过耦合状态空间模型增强多模态融合

腾讯&南大最新联合发布｜VITA：首个开源交互式全能多模态大模型！

一文彻底搞懂多模态 - 多模态学习

ICCV 2023｜CleanCLIP重磅登场！消除多模态对比学习中的数据中毒攻击

导师一个idea都没给，但也发了顶会AAAI，我摸索的这个方法绝了！

重磅3D多模态MSF框架发布！2D/3D语义分割双模态解析，重塑3D物体检测多语义融合框架

最新进展！全新特征学习框架，深度解析单模态与多模态对比学习泛化差异

揭秘时间魔法！段类型特征驱动的时间序列聚类算法

EMNLP 2024 多模态学习最新论文合集出炉！快速关注热点研究！

文末赠书｜深度揭秘！多模态大模型如何运作？一文读懂其核心原理！

NeurIPS 2024震撼发布：上交大&清华领衔创新，Diff-eRank大模型评估新指标，精准衡量LLM去噪实力！

CVPR投稿倒计时15天！Transformer还能卷出哪些新花样？

I 2025｜快手科技发布突破性EVLM！高效视觉语言模型，极大降低计算成本，实现全面视觉感知！

EMNLP 2024｜南京大学重磅推出EFUF：高效细粒度unlearning框架，全面破解多模态大语言模型“幻觉”难题！

NeurIPS 2024 | G3: 一种基于多模态大模型的高效自适应地理定位框架

港中文、UCL、武大联手攻关！NeurIPS 2024 全新多模态情绪分析模型，精准应对不完整数据挑战！

刷新多模态医学图像报告生成新高度｜AAAI 2023 山东大学&齐鲁医院推出多模态记忆Transformer！

NeurIPS 2024｜多模态学习重磅论文全览！最新研究集锦，不容错过！（下）

NeurIPS 2024｜多模态学习重磅论文全览！最新研究集锦，不容错过！（上）

突破了LLM极限，GPT-o1深度揭秘

港中文、上海AI Lab与浙大重磅推出PointLLM：大语言模型再升级，强势赋能点云理解！-ECCV 2024

NeurIPS 2024 | 像素级MLLM: Vitron, 实现图像视频的理解、生成、分割、编辑大一统

TPAMI 2024 | 基于时空结构对齐的视频-语言表示学习

ECCV 2024｜解锁多模态自监督学习！深度解耦常见与独特表示的创新突破

CVPR2023-基于交互式提示学习的多模态融合方法

CVPR 2024｜多模态大模型引爆！“因果推理”加持, 解锁链接上下文学习的无限潜能

CVPR 2023｜TransFusion震撼登场！突破性语义分割多模态融合网络，点云与图像直接融合！

TPAMI | SegNet:语义分割领域超经典轻量化模型

ECCV 2024｜多模态学习不鲁棒？表示解耦打造稳健多模态学习新纪元

NeurIPS 2021-如何利用知识图谱构建世界模型？！一种新的文本世界建模技术！

文末赠书｜《AI系统：原理与架构》于华为HC大会2024正式发布

又一本开源免费的大模型书来了，449页pdf！

CVPR 2024｜突破模态瓶颈！交替单模态适应引领多模态表示学习，攻克模态惰性与遗忘难题！

速来围观！多模态大型语言模型(MLLM)最新进展与实战应用全揭秘！

学术最前沿！2024最新深度多模态数据融合综述来袭！

AI大模型掀起效率革命！掌握ChatGPT等前沿技术，赋能企事业办公、科研与项目研发实战

ICML 2024｜浙大，NUS等高校联手推出多模态LLM革命性自动编码技术—Morph-Tokens

AAAI 2024｜重磅发布！多模态跟踪新范式：条件生成对抗网络与扩散模型的融合引爆技术革命！

ECCV 2024 | 破解多模态学习：单模态模型联合嵌入助力缺失模态预测新突破！

NeurIPS 2023｜浙大&上海AI Lab&华为联合发表--跨模态泛化的多模态统一表示

TPAMI 2024|打破边界！双向LiDAR相机语义分割中的单到多模态知识蒸馏革命

顶会NeurIPS‘24放榜！接收数量突破4千！8865高分被拒？

NeurIPS 2024|颠覆性发现！大型视觉-语言模型真的会“看”吗？MMStar基准揭示多模态评估误区与数据泄漏隐患

ECCV 2024 ｜中国人民大学、清华大学等提出平衡多模态学习的诊断和再学习方法

TPAMI 2024｜颠覆跨模态相似性学习的“游戏规则”！因果不变交互挖掘CIIM强势来袭：打破模态壁垒，精准捕捉跨模态信息！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉