点击上方蓝字关注我们
On the Comparison between Multi-modal and Single-modal Contrastive Learning
作者:
Wei Huang, Andi Han, Yongqiang Chen等
作者单位:
RIKEN AIP, 香港中文大学
论文链接:
https://arxiv.org/pdf/2411.02837
简介
语言监督下的多模态对比学习代表了现代机器学习的范式转变。通过在网络规模数据集上进行预训练,多模态对比学习可以学习表现出令人印象深刻的鲁棒性和可迁移性的高质量表示。尽管它在经验上取得了成功,但理论理解仍处于起步阶段,尤其是与单模态对比学习的比较。在这项工作中,文中引入了一个特征学习理论框架,为理解多模态和单模态对比学习之间的差异提供了理论基础。基于由信号和噪声组成的数据生成模型,文中对使用 InfoMax 目标函数训练的 ReLU 网络进行分析。通过基于轨迹的优化分析和对下游任务的泛化表征,确定了影响多模态和单模态对比学习在下游任务中的泛化性的关键因素,即信噪比(SNR) 。通过两种模态之间的协作,多模态学习可以实现更好的特征学习,从而导致下游任务的性能比单模态学习有所提高。文中提供了一个统一的框架,可以描述单模态和多模态对比学习的优化和泛化。在合成数据集和真实数据集上进行的经验实验进一步巩固了理论成果。
研究动机
尽管多模态对比学习取得了前所未有的成功,但导致更高性能的基本机制,特别是与单模态对比学习相比,仍然尚未得到充分探索。最近,一些开创性的著作为单模态或多模态对比学习提供了理论解释。例如,通过分析其特征学习过程,研究了单模态对比学习如何学习神经网络的特征表示。至于多模态对比学习,文献[12,58]解释了为什么多模态对比学习比监督学习表现出零样本可迁移性和对分布变化的鲁棒性,这提供了有价值的见解。尽管现有的两方面工作都在各自的背景下提供了有效的理论见解,但很少有工作在统一的框架下比较两种类型的对比学习的优化和泛化。这促使我们为单模态和多模态对比学习建立系统的特征学习分析。
特别是,考虑一个包含两种数据模态的数据生成模型,这些数据模态是根据信号和噪声特征生成的。信号特征在不同模态中具有相关性,而噪声特征在模态间不存在相关性。文中研究了梯度下降训练下单模态和多模态对比学习的优化。通过研究信号学习和噪声记忆的轨迹,建立了收敛条件并进一步表征了下游任务的泛化能力。结果表明,通过模态之间的合作,多模态对比学习可以在下游任务中实现更好的泛化。相反,如果没有第二种模态的帮助,单模态对比学习集中于从数据中学习噪声,因此对下游任务的概括性较差。
论文贡献
这项工作为非凸设置下梯度下降训练下的单模态和多模态对比学习建立了第一个系统的比较优化分析。证明了通过克服非凸困难,单模态和多模态都可以在多项式迭代后在 InfoMax 对比损失下实现接近于零的训练误差。
通过对来自数据的ReLU 网络的信号学习和噪声记忆进行基于轨迹的分析,成功地描述了单模态和多模态对比学习之间的泛化差异。不同模态的不同信噪比导致两个对比学习框架下游任务的泛化存在差异。
文中理论表明,多模态相对于单模态对比学习的优势来自于第二种模态的高质量以及两种模态通过对比学习进行的合作。这种分歧最终体现在特征学习的差异以及下游任务泛化的最终差距上。
方法
单模态对比学习
使用带有 ReLU 激活的单层神经网络 作为编码器,其中 m 是神经元的数量,代表嵌入维度。更准确地说,
令 对于 , ,并且 σ(·) 是 ReLU 激活函数。采用高斯初始化权重 ,其中 作为强度。
给定一对正数据样本,对比损失函数基于相似性度量,定义为两个样本 x 的表示之间的内积,
其中 是停止梯度操作,它受到最近的实证工作 [19, 10] 和研究对比学习的理论工作的启发。这里将正样本定义为:
特别是,考虑了信号保持不变而噪声向量因添加的独立噪声而被破坏的增强形式。 文中考虑对比损失如下:
文中使用梯度下降来优化对比学习损失,从而导致梯度更新:
其中,将 表示为学习率,并将损失导数定义为:
直观上,当正对之间的相似度较高,而负时间之间的相似度较低时,我们可以看到 和 ,因为 且 。因此,梯度下降接近于零,表明结果接近收敛。此外,权重的演化方向由信号向量 μ 和噪声向量 组成,其中 。
多模态对比学习
使用两个神经网络和 分别编码两个输入模态 x 和 。两个神经网络都使用 ReLU 激活函数。更准确地说,
令 和 。这里 σ(·) 是 ReLU 激活函数, 和 r \in [m] $是两个网络中的权重。给定嵌入,两种模态的相似度函数定义为:
上面定义的两个相似度函数以模态为中心,并应用停止梯度操作。对比多模态学习的目标函数可以表示为:
与单模态学习相同,其目标函数由式(1)控制。 多模态对比学习的目标函数采用1个正对和M个负对。此外,我们要求负对不共享相同的标签。为了优化多模态学习的目标函数,应用梯度下降同时训练两个编码器。第一模态网络的梯度下降规则由以下表达式控制。
这里稍微滥用了符号,文中使用 , 来表示两种模态的损失导数。与信号模态学习相比,多模态学习的主要区别在于相应的嵌入来自另一种模态。可以类似地导出第二模态的梯度更新。
下游任务评估
为了评估单模态和多模态对比学习在下游任务中的分布外泛化性能,考虑一个测试分布 ,其中样本 生成如下。
测试信号 满足 ,测试噪声 ,并且 服从 Rademacher 分布。在训练完成后,在学习到的嵌入 顶部引入一个线性头部以适应测试分布,即
具体而言,考虑分类任务,并定义总体 0-1 测试误差为
主要结果
文中这部分主要介绍关键理论发现,通过特征学习分析阐明了单模态和多模态对比学习的优化和泛化结果。对梯度下降引起的迭代使用基于轨迹的分析,然后对下游测试集的性能进行训练后分析。下面给出主要假设和主要定理。
(1)采用高维设置来保证足够的超参数化。 (2,3) 选择学习率和初始化强度以确保梯度下降能够有效地最小化对比损失。 (4)隐藏层大小m和训练样本数n的选择是为了提供足够的集中度。 (5)设置增强的强度以保持两个正样本之间的相似性。 (6) 样本数与信噪比的关系是为了区分单模态和多模态对比学习的特征学习过程。 (7)为了区分单模态和多模态对比学习,引入了常数Cμ,它使得多模态对比学习中两种模态之间能够合作。
定理4.2指出,尽管单模态对比学习实现的训练误差很小,但下游任务的测试误差很大。
定理4.3表明,经过训练的多模态对比学习可以实现较小的训练误差和下游测试误差。与定理4.2相比,定理4.3表明多模态对比学习在下游任务中的泛化能力优于单模态对比学习。造成这种差异的原因是两种模模态可以相互合作:一种模态的更高质量可以促进目标模态的特征学习,有助于推广到下游任务。相反,增强通常保持与原始数据相同的信噪比,因此单模态学习很难从增强中受益,只能记住数据中的噪声,这不适用于下游任务。
1
书籍推荐
想要了解更多 多模态大模型的知识,可以阅读下面👇这本书籍:
编辑推荐:
(1)内容权威:作者为一线的LLM研究及实践者,本书受到多位研究专家、科技公司管理者的好评及推荐。全面覆盖了多模态大模型的算法原理和应用实战,从基础到高级,涵盖Transformer、GPT系列、深度生成模型等前沿技术,详尽介绍了预训练模型、分布式训练等重要内容。
(2)质量可靠:书中包含丰富的项目案例。通过具体实战项目,如Stable Diffusion进行图像生成和Code Llama进行代码生成,展示了大模型的实际部署和优化过程,并强调了微调技术的细节,确保读者能够在实际操作中有效应用所学知识。
(3)收获切实:通过阅读本书,你将:1)深入了解多模态大模型的架构、原理及应用;2)掌握大模型的实际部署和优化技巧;3)获得详细的微调技术指导,提升在深度学习模型领域的实战能力和职业竞争力。
致谢作者,转载请注明出处!关于论文的详细实施过程和具体解释请阅读论文原文哦~❤️❤️ /欢迎投稿
喜欢的话,请别忘记点赞👍➕关注哦
推荐阅读
CVPR 2024|拥抱单模态不确定性,实现稳健多模态融合!电子科大与同济等联手突破多模态技术瓶颈!
ECCV 2024 | 破解多模态学习:单模态模型联合嵌入助力缺失模态预测新突破!
TPAMI 2024 |多模态学习最新综述!普林斯顿大学、武汉大学等从数据视角解读多模态学习
🌟投稿必读