ICML 2024 | 深度解析多模态线性网络中的单模态偏差:突破与新发现!

文摘   2024-09-21 17:34   英国  

点击上方蓝字关注我们



Understanding Unimodal Bias in Multimodal Deep Linear Networks

作者: Yedi Zhang, Peter E. Latham, Andrew Saxe

作者单位: Gatsby Computational Neuroscience Unit, University College London, Sainsbury Wellcome Centre, University College London

论文链接:

https://yedizhang.github.io/unimodal-bias.html

代码链接:

https://yedizhang.github.io/unimodal-bias.html

简介

同时使用多个输入流来训练多模态神经网络在直观上是有利的,但在实践中却具有挑战性。一个关键的挑战是单模态偏差,即网络在联合训练期间过度依赖一种模态而忽略其他模态。文中开发了一种多模态深度线性网络单模态偏差理论,以了解架构和数据统计如何影响这种偏差。这是首次根据网络内模态融合的深度、数据集统计和初始化来计算学习中单模态阶段的持续时间。文中表明,融合发生的层越深,单模态阶段越长。较长的单模态阶段可能导致泛化缺陷和过度参数化状态下的永久性单模态偏差。本文的结果来自多模态线性网络,在某些情况下可以扩展到非线性网络。总之,这项工作阐明了联合训练下多模态学习的病理,表明后期和中期融合架构可能导致较长的单模态阶段和永久性的单模态偏差。

研究动机

多模态神经网络在多个输入模态下的联合训练带来直观的优势,但也面临挑战,尤其是单模态偏差问题,即网络在联合训练中过于依赖某个模态,忽视其他模态。

多模态网络表现出单模态偏差的程度取决于数据集和多模态网络架构。关于数据集,研究者们通过构建更平衡的多模态数据集设法减轻了偏差。关于多模态网络架构,实证研究表明,单模态偏差出现在联合训练的后期融合网络和中期融合网络中,而早期融合网络可能会鼓励使用所有输入模态。现有研究虽然提出了一些缓解单模态偏差的经验性方法,但在理论上对单模态偏差如何受到网络配置、数据集统计和初始化影响的理解仍然很少。本文试图通过分析多模态深度线性网络,揭示单模态偏差的形成原因,并提供解决该问题的理论基础。

论文贡献

  • 提出了单模态偏差在多模态线性网络中的理论解释,揭示了后期和中间融合网络中单模态偏差的显著性。

  • 计算了后期和中间融合网络中单模态阶段的持续时间,解析了网络结构、数据集统计和初始化对该现象的影响。

  • 分析了单模态阶段中的错误归因现象及浅层模态偏好。

  • 证明了在过参数化情况下,长时间的单模态阶段会导致泛化能力下降和永久的单模态偏差

  • 提供了数值模拟验证,证明了其结论适用于线性和某些非线性网络。

多模态深度线性网络

通过多模态深度线性网络的梯度下降学习动态研究了单模态偏差问题。具体的网络结构为总深度为L的网络,在不同层次 进行模态融合。

多模态数据:定义输入相关矩阵与输入输出相关矩阵

给定一个由 P 个样本组成的数据集, 假设有两种模态 A 和 B,完整输入 。由于文中研究具有均方误差损失的多模态线性网络,因此学习动态仅取决于数据的相关矩阵。定义数据的输入相关矩阵为 和输入输出相关矩阵为 ,分别为

多模态深度线性网络

图 1. 总深度为 L 且融合层位于 的多模态融合网络示意图。

定义多模态深度线性网络,其总深度 L 和 处的融合层定义为

整个网络输入输出映射表示为,每个模态的映射表示为。文中用W来统称所有权重参数。假设两个预融合层分支中的神经元数量具有相同的顺序。图 1 给出了该网络的示意图。

梯度下降动态

在小学习率的限制下,梯度下降动态可以用连续时间微分方程很好地逼近;对于融合前层 1 ≤ l ≤ :

对于融合后层 + 1 ≤ l ≤ L,

其中时间常数 τ 是学习率的倒数, 表示输出误差 与输入 之间的相关性,

网络使用小的随机权重进行初始化。

两层多模态线性网络

图 2. 融合点对学习动态和损失情况的影响。顶行:早期融合。底行:晚期融合。两个网络都使用相同的数据集进行训练。(a,d) 网络示意图。(b,e) 训练轨迹。(c,f) 相图。后期融合将两个鞍形流形(蓝色和洋红色十字)引入损失视野中,导致学习轨迹在单模态解决方案附近趋于稳定。

文中研究了两层多模态线性网络,其中 L = 2。两层网络有两种可能的融合方案:早期融合,Lf = 1,如图 2a 所示;后期融合,Lf = 2 ,如图 2d 所示。

损失视野

如图 2b 和 2e 所示,早期融合网络几乎同时从两种模态学习,而后期融合网络在两个不同的时间学习两种模态,中间有一个明显的单模态阶段。对于这两个网络,损失轨迹都表现出类似阶段的行为。正如 Saxe 等人所研究的那样,从小型初始化训练的线性网络在大部分时间里学习缓慢,并通过 S 形过渡阶段从一个固定点或鞍座快速移动到下一个固定点或鞍座。我们表明,早期的融合网络有两个固定点流形,对应于它们的一个过渡阶段。相比之下,后期融合网络有两个不动点流形和两个鞍点流形,解释了它们的两个过渡阶段。

早期融合 早期融合网络中有两种不动点流形:一种是零点处的不稳定不动点,另一种是全局伪逆解处的稳定不动点流形:

后期融合 后期融合线性网络具有与早期融合网络相同的两个固定点流形 、M*。此外,后期融合线性网络有两个鞍形流形 ,对应于学习一种模态而不是另一种,

通过分析损失情况可以得出单模态偏差在后期融合线性网络中很明显,但在早期融合线性网络中并不明显。因此,后文主要关注后期融合网络。

单模态阶段持续时间

通过计算不同网络参数(融合层深度、输入输出相关性)和数据统计(输入模态之间的相关性)的影响,得出单模态阶段的持续时间为

单模态阶段的错误归因

图 3. 两层后期融合线性网络中单模态阶段的持续时间和错误归因量。

在单模态阶段, 尽可能地拟合输出,并且网络通过利用模态 B 的相关性将模态 B 贡献的一些输出错误地归因于模态 A。当模态相关时,局部伪逆解与全局伪逆解不同。具体来说,如果模态具有如图 3a 所示的正相关,则模态 A 的权重会过冲;如果如图 3b 所示为负相关,则模态 A 的权重会下冲。当模态 B 在时间 赶上时,这种错误归因就会被纠正,并且网络最终收敛到全局伪逆解。在图 3d 中,为了清楚起见,使用标量输入证明,当模态具有更强的相关性时,错误归因更加严重。

当模态不相关时,后期融合网络在单模态阶段不会错误归因,因为局部伪逆解与全局伪逆解相同。模态 A 的权重在时间 收敛到全局解,此后不再改变,如图 2e 所示。在这种情况下,后期融合网络的行为与两个单独训练的单模态网络相同。

浅层模态偏好

那么我们应该先学习哪种模态呢? 后期融合线性网络具有我们所说的“浅层模态偏好”。他们优先考虑学习速度更快的方式,这不一定是能带来更大损失减少的方式。文中得出结论,无论首先学习哪种模态以及单模态阶段有多长,网络最终都会收敛到零损失。但它们会影响过度参数化机制中的泛化误差

欠参数化和过度参数化

在参数化不足的情况下,训练损失紧密跟踪相应的泛化误差,如图 5a 和 5b 所示,因为训练数据足以准确估计真实的数据分布。对训练损失的分析也适用于泛化误差。早期和晚期融合网络在收敛时都实现了比单模态网络(灰色虚线)更低的泛化误差。

图 5. 过度参数化和参数化不足的两层早期和晚期融合线性网络。

在过度参数化的情况下,与有效参数的数量(线性网络的输入维度)相比,样本数量不足。如图 5c 所示,过参数化早期融合线性网络在一个过渡阶段学习两种模态。正如理论预测的那样,泛化误差在过渡阶段减小,之后增大。如果采用提前停止,我们将获得一个从两种模态中学习并且不会显着过度拟合的模型。该模型比单模态模型具有更低的泛化误差。如图 5d 所示,过度参数化的后期融合线性网络首先学习学习速度更快的模态,并在单模态阶段(当训练损失趋于稳定但泛化误差增加时)过度拟合该模态。因此,过度拟合是一种可以将瞬态单模态阶段转化为泛化缺陷和永久单模态偏差的机制

7. 实验结果

作者通过数值模拟验证了理论分析,主要进行了以下实验:

  1. 单模态偏差的显著性:对比早期融合和晚期融合网络的训练过程,发现晚期融合网络在训练初期经历了长时间的单模态阶段,而早期融合网络能够较早地利用所有模态。
  2. 单模态阶段的持续时间:通过调整数据统计(如输入模态之间的相关性),作者验证了强相关性和深融合层延长了单模态阶段。
  3. 泛化能力的影响:在过参数化条件下,长时间的单模态阶段导致了泛化能力的下降,并可能产生永久的单模态偏差。

这些实验结果表明,网络架构和数据统计对单模态偏差的影响较大,且延长的单模态阶段会影响网络的泛化能力。

致谢作者,关于论文的详细实施过程和具体解释请阅读论文原文哦~❤️❤️

   喜欢的话,请别忘记点赞👍➕关注哦 


        

推荐阅读


ICML 2024重磅!GeminiFusion:高效逐像素多模态融合!引领Vision Transformer新纪元!

CVPR 2024|拥抱单模态不确定性,实现稳健多模态融合!电子科大与同济等联手突破多模态技术瓶颈!

ICML2023重磅!清华、UC、MIT强强联手—突破性提出监督多模态学习中的单模态特征新范式!

震撼发布!低质量多模态数据融合方法最新进展!天津大学携手顶尖高校推出重磅综述!

多模态机器学习与大模型
多模态机器学习与大模型 致力于推荐、分享、解读多模态机器学习相关的前沿论文成果,讨论大语言模型先进技术,助力AI研究者进步。 合作交流请+V:Multimodal2024,谢谢❤️
 最新文章