点击上方卡片,关注“AI学术工坊”公众号
各种重磅干货,第一时间送达
通过参数高效自适应实现缺失模态的稳健多模态学习
摘要
多模态学习旨在利用来自多个来源的数据来提高下游任务的整体性能。希望数据中的冗余能够使多模态系统对某些相关模态中缺失或损坏的观测具有鲁棒性。然而,我们观察到,如果在测试时缺少一种或多种模态,现有的几个多模态网络的性能会显著下降。为了实现对缺失模态的鲁棒性,我们提出了一种简单且参数高效的预训练多模态网络自适应程序。特别是,我们利用中间特征的调制来补偿缺失的模态。我们证明,这种自适应可以部分弥补由于缺失模态导致的性能下降,并且在某些情况下优于为可用模态组合训练的独立专用网络。所提出的自适应需要极少的参数(例如,少于总参数的 1%),并且适用于广泛的模态组合和任务。我们进行了一系列实验,以强调我们提出的方法在七个数据集上的五种不同多模态任务上的缺失模态鲁棒性。我们提出的方法展示了跨各种任务和数据集的多功能性,并且优于现有的缺少模态的稳健多模态学习方法。
论文链接:https://arxiv.org/pdf/2310.03986
论文标题:ROBUST MULTIMODAL LEARNING WITH MISSING MODALITIES VIA PARAMETER-EFFICIENT ADAPTATION
论文作者:Md Kaykobad Reza, Ashley Prater-Bennette, M. Salman Asif
1.关键字
稳健的多模态学习、参数高效适应、缺失模态适应、缺失模态稳健性
2.引言
多模态学习 (MML) [1], [2] 是一种通用框架,用于处理、组合和理解来自多个不同数据源的信息。融合来自多种模态(例如文本、图像、音频和传感器数据)的知识有望提供更准确、更可靠的系统。近年来,MML 在广泛的应用中取得了显著的成功,包括图像分割 [3]、[4]、[5]、描述 [6]、[7]、分类 [8]、[9]、情绪分析 [10]、[11] 和自动驾驶 [12]、[13]。在所有这些应用中,人们经常会遇到由于硬件限制/故障、隐私问题或数据获取成本/约束而导致某些模态损坏或丢失的情况。因此,处理损坏或丢失的模态的能力对于多模态系统的稳健性和可靠性至关重要。然而,大多数现有的多模态模型并非为处理损坏或缺失的模态而设计的。本文的主要重点是研究和增强现有多模态模型在不同缺失模态场景中的鲁棒性。
最近的研究 [14]、[15]、[16] 表明,MML 对缺失模态并不具有天生的鲁棒性,当测试时模态缺失时,性能可能会显著下降。现有的鲁棒 MML 方法通常适用于它们所训练的特定模态组合,并且在应用于未经训练的组合时往往表现不佳。例如,一种方法是采用鲁棒训练策略,如训练期间的模态丢失 [17]、[18]、部分或全部模态掩蔽 [19]、[20] 和知识提炼 [21]、[22]。这些方法要么需要专门的训练策略,要么利用额外的模型/子网络来指导底层模型。另一种方法用来自不同模态的聚合信息标记替换无信息标记,或者学习预测特定缺失模态的标记 [4]、[20]、[23]。为每种可能的模态组合训练这种单独的(独立)网络是不可行的,特别是当输入模态数量很大时。一种最新的稳健 MML 方法是从可用模态中推断缺失的模态 [24]、[25]、[26]。这些方法的性能取决于推断缺失模态的生成模型。
在本文中,我们提出了一种参数高效的方法来调整现有的多模态网络,使其在不同的缺失模态场景中表现良好。我们的主要目标是以可控的方式修改网络,作为可用模态的函数。例如,如果缺少一种模态,我们会试图修改从可用模态中提取和融合特征进行推理的方式。我们的目标是执行参数高效的自适应,而不是为每种模态组合学习一个独立的网络。图 1 说明了我们提出的方法,其中给定的多模态网络可以通过在不同层上转换可用输入模态的中间特征来适应任意模态组合。为了实现参数高效的自适应,我们建议使用简单的线性变换(例如缩放和平移)来调节中间特征或特征的低秩增量,以补偿缺失的模态。我们的方法不需要重新训练整个模型或任何专门的训练策略。与使用所有模态训练并使用缺失模态进行测试的多模态网络相比,经过调整的网络提供了显着的性能改进。如表 1 所示,经过调整的模型的性能也与针对每种输入模态组合专门训练的模型相当或更好。我们提出了一系列实验来评估我们的方法,并与现有的在七个数据集上的五个多模态任务上实现稳健 MML 的方法进行比较(第 4.1 节)。我们测试了不同的参数高效适应策略,发现缩放和平移的中间特征调制提供了整体最佳性能,这将在第 S4 节中讨论。我们的方法显示出显着的性能改进,额外可学习参数不到 1%,如第 4.7.2 节所述。
贡献. 主要贡献可总结如下。
我们提出了一种参数高效的自适应程序,用于多模态学习,该程序对缺失模态具有鲁棒性。经过调整的模型可以根据可用的模态轻松切换到不同的网络状态,同时将延迟、计算或内存开销降至最低。 与使用所有模态训练的模型相比,经过调整的网络在缺失模态下的性能显著提高,并且与针对特定模态组合训练的网络相当或更好(表 1)。 我们的方法用途广泛,可适用于各种多模态任务、数据集和模型。对不同数据集和任务的详细评估表明,我们的方法优于现有的基线方法和为特定任务和数据集设计的鲁棒模型(第 4.3 节 - 第 4.6 节)。
3.提出的方法
在本节中,我们首先介绍缺失模态的网络自适应的一般框架。然后,我们讨论为什么我们关注参数高效的自适应,介绍我们提出的缺失模态自适应方法的细节,并强调我们方法的主要优点。
3.1 缺失模态的网络自适应
我们将给定多模态任务的输入模态集表示为 。给定全集 ,我们可以训练一个具有参数 的模型 ,该模型将所有模态(表示为 )的输入映射到输出 ,如下所示
虽然我们可以确保在训练期间所有输入模态的可用性,但某些模态在测试时可能无法访问,尤其是在实际部署之后。由于硬件故障、数据获取成本或隐私问题,任何模态子集 都可能丢失。如果我们使用在所有输入模态上训练的模型(如 (1) 所示),当模态子集在测试期间丢失时,会观察到显着的性能下降,如表 1 所示。
3.1.1 简单方法
当模态 的一个子集缺失时,一种简单而朴素的方法是针对可用的输入模态训练一个新模型。不失一般性,假设 表示缺失的模态。我们可以使用可用的输入模态 重新训练模型 ,以获得一组新的参数 ,如下所示
其中 表示 中模态的输入数据。原则上,我们可以为每个可能的 训练一个模型,并在测试时使用相应的模型。这种方法是不可行的,因为训练大量可能的模态组合的模型需要计算和存储资源。此外,在实际场景中,部署大量训练过的模型并在测试时选择其中一个是不可行的。这种方法的另一个缺点是,即使我们希望 ,前面提到的训练过程也不能保证这一点。
3.1.2 参数高效方法
我们提出了一种替代方法,以参数高效的方式为所有输入模态子集 调整单个模型。首先,我们选择一个在模态 的全集上训练的模型 ,如 (1) 所示,并冻结参数 。然后,我们学习少量特定于可用输入模态集 的参数 ,并将模型更新为
其中 表示更新模型的预测。我们的目标是在最佳情况下让 接近所有模态预测 ),在最坏情况下让 接近基于可用输入模态训练的模型的预测 )。
如果 中的参数数量明显小于 中的参数总数,则 (3) 中所示的自适应方法被认为是参数高效的。在自适应过程中,我们保持 冻结,并证明 的总参数中不到 1% 就足以实现网络自适应(第 4.7.2 节)。
3.1.3 需要参数有效的适应
近年来,已经提出了许多针对缺失模态的 MML 的方法。据我们所知,该领域仍未探索参数高效适应。如第 2 节所述,当前的稳健 MML 方法需要使用专门的训练策略 [18]、[20] 重新训练整个模型,或利用额外的模块/子网络来指导多模态模型 [21]、[22]。此外,这些方法不是很通用,并且在不同的缺失模态场景中表现不佳,如表 2 和表 3 所示。为了解决这些问题,我们提出了参数高效适应来增强 MML 的缺失模态稳健性。我们的方法只需要为不同的缺失模态场景学习非常少量的参数,而无需重新训练整个网络。此外,它也适用于第 4 节讨论的各种模型架构、任务和模态组合。
3.2 稳健 MML 的参数高效自适应
本节概述了我们针对缺失模态的多模态网络自适应方法。我们解释了选择中间特征调制的原因,并与其他参数高效方法进行了比较,突出了我们方法的主要优势。
多模态模型的适应性。据我们所知,目前还没有提出或应用任何参数有效的适应性方法来处理缺失模态的多模态模型适应性。我们的动机来自低秩适应 [43]、[48]、[49]、[51] 和基于特征调制的方法 [44]。这些方法可以增强深度模型的表示能力。我们扩展了这些适应性方法来构建一个通用框架,该框架可以转换可用模态的中间特征,以找到最佳特征表示来弥补由于缺失模态而导致的性能差距。
3.2.1 训练:缺失模态的模型适应
我们的方法如图 1 所示。在不失一般性的情况下,我们假设一个通用的多模态模型,其中每个模态都经过单独的编码器进行特征提取,然后经过融合块融合提取的特征。融合的特征被传递给解码器头进行预测。此设置可以轻松推广到具有共享编码器、不同编码器/模型架构和/或不同(早期或中期)融合策略的模型。
我们用 中所有可用的模态训练这个多模态网络 ,以学习参数 ,如 (1) 所示。然后,我们调整 以适应不同的可用模态子集 。与现有方法不同,我们不会尝试从任何其他模态/子网络中生成 [19]、[52]、近似 [4]、[33] 或提取知识 [20]、[22]。我们的目标是学习一个针对可用输入模态的修改函数,以适当地学习和融合特征来补偿任何缺失的模态。我们不会像 (2) 所示那样在可用模态上重新训练整个网络,而是调整基础网络 并专注于学习遵循 (3) 的一组最小参数。
为了调整基础模型 ,如图 1a 所示,我们冻结参数 ,这会冻结模型中的所有层。然后,我们在每个冻结的线性、卷积和范数层之后插入具有可学习参数 的可适应层。我们将缺失的模态分支显示为灰色,表示它们处于非活动状态并且对模型输出没有贡献。然后,我们按照 (3) 调整 以学习 。在学习给定模态组合 的 时,我们按照标准做法 [18]、[20]、[22]、[35] 将缺失的模态设置为零。我们最小化不同模态组合相对于 的交叉熵损失。
下面我们讨论如何使用基于低阶和中阶特征调制的自适应来适应缺失的模态。我们的框架是通用的,也可以结合其他参数高效的自适应方法。
低秩/加性自适应。我们扩展了低秩/加性方法,以适应缺失模态的多模态模型。假设 是来自任何层的 个输入模态的权重矩阵之一,其中 。如图 1b 所示,我们学习该层的低秩权重更新矩阵 ,以将输入 转换为该层,如下所示
中间特征调制。我们扩展了 SSF [44] 方法,使其适用于缺少模态的多模态模型。如图 1c 所示,可适应的 SSF 层在每一层调制来自每个可用模态的中间标记/特征。对于第 个输入模态,其中 ,我们分别将可学习的尺度和移位参数表示为 和 ,其中 是模型的嵌入维度。第 个输入模态的任何冻结层的输出 都会经过其后的 SSF 层。SSF 层对 应用线性变换,如下所示:
其中 是转换后的特征,它将被馈送到模型中的下一个冻结层, 是标记的数量。请注意,如果任何层的输出形状为 ()(对于卷积层),我们在应用 (5) 之前将其重塑为 (),其中 。我们将转换后的特征重塑回原始形状(如果需要),然后再将其传递到下一层。我们可以将可学习参数表示为 。BitFit [51] 方法也可用于自适应,因为我们只需要学习所有 的偏差/移位项 。我们将 (5) 修改为
可学习参数可表示为 。因此,每个可用模态的中间特征都会被调节,以找到更好的表示来补偿缺失的模态。
3.2.2 推理:缺失模态的模型适应
在测试时,我们将预训练权重 加载到基本多模态模型 中。如果所有模态都可用,则我们可以使用 进行预测。当模态子集缺失时,我们可以选择与可用输入模态 相对应的学习参数 ,将它们插入模型并使用它们进行预测,如下所示:
由于我们在每一层之后插入自适应层,因此不需要对模型架构进行任何重大更改,并且可以轻松完成,而无需重新加载所有模型参数 。我们只需要加载 中的参数并将其插入模型中。由于我们只插入了非常少量的附加参数,因此它增加的计算开销非常有限。此外,如果有不同的模态子集可用,则调整很简单。我们只需要用可用模态集的相应参数替换现有的学习参数 ,确保在测试阶段处理可用模态的各种组合时的适应性和灵活性。
我们仅在编码器和融合块中插入自适应层,同时保持解码器/预测头不变。我们观察到,使用预训练的解码器/预测头在缺少几种模态的情况下提供了良好的整体性能。
3.2.3 特征调制与低秩适应
虽然我们在 (4)、(5) 和 (6) 中介绍了三种自适应方法,但我们选择使用 SSF (5) 的中间特征调制作为实验的主要方法。我们主要选择这种技术是因为它的简单性和有效性。我们的实验表明,与其他参数高效的自适应方法相比,使用 SSF 的简单线性变换进行的特征变换在大多数情况下效果很好,如表 S3 中所述。我们在补充部分的表 S4、S5 和 S6 中提供了平均准确率、F1 分数和 % mIoU 的详细比较。SSF 在增强表示能力 [49]、更快的收敛 [48]、防止表示学习过程中的信息丢失 [50] 以及减轻上游和下游任务之间的分布不匹配 [44] 方面显示出巨大的潜力。这些特点促使我们将这种方法扩展到具有缺失模态的 MML,并构建一个通用框架,该框架可以非常有效地学习可用输入模态的正确调制,以弥补缺失模态时的性能差距。
这种方法的一些主要优点如下。首先,参数 与输入特征/模态无关,这使得它适用于各种任务和输入模态组合。其次,我们可以轻松地将这些可学习层插入现有模型中,而无需更改模型架构。我们可以轻松地为给定的输入模态组合切换/选择相应的 SSF 参数。最后,它引入了极少量的额外可学习参数。与为每个输入组合训练单独的模型或使用一些专门的训练策略(如模态丢弃 [17]、[18] 或知识蒸馏 [20]、[22])重新训练模型相比,由此产生的适应性可以节省大量成本。
4.实验与结果
我们进行了详细的实验,以评估我们提出的方法在七个数据集上的五个多模态任务上的有效性和通用性。在本节中,我们将与现有的对缺失模态具有鲁棒性的基线方法进行比较。
4.1 数据集和任务
在本节中,我们将对每个数据集进行简要描述。有关每个数据集的全面详细信息,请参阅补充材料中的 S1 部分。
4.1.1 多模态语义分割
MFNet 数据集 [53] 包含 1569 个已注册的 RGB-Thermal 图像对,分为训练集和测试集。每幅图像为 640 × 480 像素,包含 9 个类别的注释。
NYUDv2 数据集 [54] 有 1449 对对齐的 RGB-Depth 图像对。它分为训练集和测试集,分别有 795 和 654 个图像对。每幅图像为 640 × 480 像素,包含 40 个类别的注释。我们在实验中使用 HHA 编码图像 [55] 代替原始深度图。
4.1.2 多模态材料分割
MCubeS 数据集 [56] 有 4 种输入模式:RGB、线性偏振角 (AoLP)、线性偏振度 (DoLP) 和近红外 (NIR)。该数据集分为训练集、验证集和测试集,分别包含 302、96 和 102 组图像,以及 20 个材料类别的每像素真实注释。
4.1.3 多模态动作识别
NTU RGB+D (NTU60) 数据集 [57] 包含 60 个动作类别的 56,880 个视频样本。它包含 RGB 视频 (1920 × 1080)、深度图序列 (512 × 424)、红外 (IR) 视频 (512 × 424) 和 3D 骨骼数据。我们在实验中使用 RGB 和深度数据,并使用跨主题协议评估性能。
4.1.4 多模态情绪分析
CMU-MOSI 数据集 [58] 包含音频、视觉和文本模态,用于多模态情绪分析。该数据集有 2,199 个样本,分为训练、验证和测试,分别包含 1,284、229 和 686 个样本。
CMU-MOSEI 数据集 [59] 是另一个大规模数据集。它包含 23,453 个音频、视频和文本样本。数据集分为训练集、验证集和测试集。
4.1.5 多模态分类
UPMC Food-101 数据集 [60] 是一个流行的多模态分类数据集,包含图像和文本作为输入模态。该数据集包含 90,704 个图像-文本对和 101 个食物类别。
4.2 实现细节
我们使用 CMNeXt [61] 作为多模态分割任务的基础模型,使用多模态变换器 [62] 进行多模态情绪分析,使用 UMDR [63] 进行多模态动作识别,使用 ViLT [64] 进行多模态分类。我们使用每个数据集的所有输入模态训练相应的基础模型。为了评估缺失模态的性能,我们提供可用的模态,并将图像的缺失模态设置为零,将文本的缺失模态设置为空字符串。为了对任何模态子集 执行模型自适应,我们对可学习参数进行微调,直到所有任务都收敛。
对于多模态分割任务,我们将学习率设置为 ,并应用多项式学习率调度器,功率 = 0.9。前 10 个epoch是预热时期,学习率设置为原始速率的 0.1 倍。尺度 () 和移位 () 参数分别用全 1 和全 0 初始化。我们使用交叉熵损失和 AdamW 优化器 [65],,权重衰减 = 0.01。我们将批量大小设置为 4 并报告单尺度性能。所有其他超参数与 [61] 相同。对于多模态情绪分析、动作识别和分类任务,我们分别使用了 [66]、[63] 和 [27] 中的默认设置。
对于每个任务/数据集,我们尽可能展示先前工作报告的结果。值得注意的是,由于这个标准,一些基线方法可能仅出现在特定实验中,具体取决于其报告数量的可用性。我们还对 SSF 与其他参数高效的自适应技术进行了详细比较,我们在补充材料中的 S4 节中讨论了这些技术。
4.3 多模态分割实验
在本节中,我们展示了多模态语义和材料分割的实验结果。首先,我们将我们的方法与基线方法进行全面比较,然后与现有的稳健方法进行比较。
4.3.1 整体性能比较
我们在表 1 中报告了不同基线方法的实验结果。预训练模型是指使用所有可用模态训练的基础 CMNeXt 模型。模态重复意味着使用其中一种可用模态替代缺失的模态。专用训练表示我们为每种输入模态组合训练一个 CMNeXt 模型,并在某些模态缺失时使用与可用模态相对应的模型。适应模型是指使用我们的方法针对每种输入模态组合进行适应的模型。
预训练模型在缺失模态时性能显著下降。与所有模态都可用时相比,当 MFNet 上缺少 Thermal 和 NYUDv2 上缺少 Depth 时,我们分别看到 6.39% 和 5.11% 的下降。当 RGB 缺失时,这种影响会放大,因为我们分别观察到 MFNet 和 NYUDv2 数据集上 24.62% 和 51.04% 的下降。在 MCubeS 数据集上,当缺少不同的模态组合时,我们观察到预训练模型下降了 2.48-9.22%。模态复制方法也观察到类似的性能下降趋势,尽管在大多数情况下它的表现优于预训练模型。
自适应模型的整体性能明显优于预训练模型和模态复制方法。对于 MFNet,当 RGB 和 Thermal 分别可用时,与预训练模型相比,观察到 1.51% 和 15.41% 的改进。自适应模型的性能也接近专用模型。对于 NYUDv2 数据集,当深度和 RGB 缺失时,与预训练模型相比,我们分别看到 1.63% 和 31.46% 的性能提升。对于 MCubeS 数据集上的所有输入组合,与预训练模型相比,我们看到 1.82-8.11% 的性能提升。在 NYUDv2 和 MCubeS 数据集上,自适应模型的表现优于专用模型。每个类的 IoU 分析表明,对于大多数类别,自适应模型的表现都优于预训练模型,这提供了整体性能改进,如第 S5 节所述。
适应过程中的特征调制有助于模型学习更好的特征表示,因此在模态缺失时表现更好。我们将在第 4.7.1 节中讨论这一点。结果还表明,我们不需要为每种模态组合训练专用网络,这需要更多的时间和计算资源。相反,适应一个基础模型就足以在缺失模态场景中获得相当甚至更好的性能,同时减少时间和计算开销。
4.3.2 与 MFNet 数据集上的稳健方法的比较
在表 2 中,我们将 Adapted 模型与现有的稳健模型在 MFNet 数据集上的 RGB-thermal 语义分割性能进行了比较。结果表明,与现有的基线方法相比,Adapted 模型提供了最佳的平均性能。在稳健模型中,基于互补随机掩蔽和知识蒸馏的模型 CRM [20] 与 Adapted 模型相比具有竞争力。当只有 RGB 可用时,Adapted 模型的性能更好,而当只有 Thermal 可用时,CRM 的性能更好。值得注意的是,CRM 是专门为 RGB-Thermal 对设计的,需要专门的训练方法。相比之下,我们的方法是通用的,适用于任何输入模态,不需要任何专门的训练技术。与基于部分掩蔽和递归网格的 SpiderMesh [32]、基于变分概率融合的 VPFNet [35] 和基于模态差异减少的 MDRNet [73] 模型相比,我们的方法表现明显更好。
4.3.3 与 NYUDv2 数据集上的稳健方法进行比较
表 3 显示了在 NYUDv2 数据集上进行 RGB-Depth 语义分割时与现有稳健模型的性能比较。平均而言,Adapted 模型的表现优于现有的稳健模型。基于动态 token 选择和替换的模型 TokenFusion [4] 在深度可用且 RGB 缺失时,mIoU 表现略好 (+0.12%),但平均准确率下降幅度较大 (-5.59%)。另一方面,当 RGB 可用且深度缺失时,Adapted 模型的表现明显更好 (+3.5% mIoU 和 +4.47% 平均准确率)。尽管 TokenFusion 旨在与 RGB-Depth 对配合使用,而我们的方法与输入模态无关,但 Adapted 模型的平均性能也优于 TokenFusion 模型。与基于动态通道交换的 CEN [79] 和基于非对称融合的 AsymFusion [78] 模型相比,我们的方法表现也明显更好。
我们观察到,当深度可用且 RGB 缺失时,CMNeXt 模型表现不佳。这是由于其不对称架构,将 RGB 视为主要模态,而将其他模态视为补充。因此,在没有 RGB 的情况下,性能会显著下降。然而,该模型在适应后克服了这个问题,并在所有缺失模态场景中提高了性能,证明了我们的适应方法的有效性。
4.3.4 预测的可视化
对于定性分析,我们在图 2 中展示了一些由预训练和自适应模型预测的分割图示例。对于每个数据集,我们展示输入图像、所有模态可用时的预测(CMNeXt 列)、预训练和自适应模型针对不同可用/缺失模态场景的预测(可用的输入模态名称显示在每个图像上方的括号中)。我们在图 2a 中看到,当只有 RGB 图像可用时,预训练模型无法检测到人类,当只有热图像可用时,预训练模型无法检测到汽车。自适应模型可以检测到缺少模态的人类和汽车。
在 NYUDv2 数据集上,如图 2b 所示,自适应模型可以比缺少模态的预训练模型更准确地检测窗户、床和家具。在 MCubeS 数据集上,自适应模型可以比预训练模型更准确地识别沙子、天空和砾石。在所有情况下,缺少模态的自适应模型的预测更接近具有所有输入模态的预训练模型的预测。我们在补充材料中的图 S3 中提供了额外的可视化效果。
4.4 多模态情感分析实验
我们在 CMU-MOSI [58] 和 CMU-MOSEI [59] 数据集上测试了多模态情感分析的自适应方法,并在表 4 中报告了结果。我们使用多模态变换器 (MulT) [62] 作为基础模型,并使用我们的方法对其进行了调整。我们观察到,当文本可用且音频或视频或两者都在测试时缺失时,性能不会显着下降。[15] 中报告了类似的趋势。如果在测试时缺少文本,则基本 MulT 模型的性能会显着下降。与基本 MulT 模型相比,自适应模型可以部分补偿缺失的模态并提供明显更好的性能。
对于 CMU-MOSI 数据集,当仅有音频和仅有视觉时,我们观察到准确度分别提高了 1.69% 和 2.44%,F1 得分也比基本 MulT 模型有更大的提高。当有视听模式且缺少文本时,改编后的模型提供了显着的改进。与基本 MulT 模型相比,它的准确度提高了 6.56%,F1 得分提高了 12.01%。对于 CMU-MOSEI 数据集,我们看到所有指标都有了更大的改善。实验表明,与 MulT 模型相比,纯音频、纯视觉和视听场景的准确度分别提高了 25.7%、24.21% 和 21.41%。我们还观察到与基本 MulT 模型相比,F1 得分提高了 27.91%-36.30%。
我们将我们的自适应方法与现有的多模态情绪分析方法进行了比较。对于 CMU-MOSI 数据集,BERT MAG 在准确度方面表现更好,但我们的自适应方法在 F1 分数方面表现更好。需要提到的一点是,BERT MAG 使用预训练的 BERT 模型并在数据集上对其进行微调,但我们没有对额外数据进行任何预训练。对于 CMU-MOSEI,我们的自适应方法在大多数情况下效果更好。
4.5 多模态行为识别实验
我们在 NTU RGB+D [57] 数据集上评估了我们的方法,以完成多模态动作识别任务。我们使用 UMDR [63] 作为基础模型,并使用我们的方法对其进行调整。如表 5 所示,与最近的基于模态掩蔽和生成的方法 ActionMAE [23] 以及基于模态解耦和重新耦合的方法 Motion-RGBD [91] 和 UMDR [63] 相比,我们的调整效果更好。当 RGB 可用且深度缺失时,我们的调整分别比 ActionMAE 和 UMDR 提高了 7.03% 和 1.06%。当深度可用且 RGB 缺失时,我们分别比 ActionMAE 和 UMDR 提高了 3.79% 和 0.30%。此外,我们的方法在所有场景中都优于所有现有的基线方法。这也表明,与基于模态掩蔽、生成和蒸馏的方法相比,我们的方法可以学习更好的特征表示。
基本 UMDR 模型有 75.82M 个参数。我们的自适应方法增加了 0.24M 个额外的可学习参数,这仅占模型总参数的 0.32%。其他方法没有报告其总参数数量,因此我们省略了此表的总参数列。
4.6 多模态分类实验
为了进一步评估我们方法的有效性,我们将其与 UPMC Food-101 [60] 数据集上最近基于提示的方法 missingaware prompts [27] 进行了比较。结果总结在表 6 中。为了公平评估,我们使用与 [27] 相同的实验设置和评估脚本来评估不同可用和缺失模态场景下的性能。图像和文本列表示训练和测试期间可用的图像和文本模态的数量。我们的自适应方法在大多数场景中都优于基于提示的方法。平均而言,我们的方法比最佳提示方法提高了 1.29%,比基本 ViLT 模型提高了 9.45%。这些结果证实了这样一个事实:通过中间特征调制来调整模型有助于模型学习最佳特征表示,从而在不同的缺失模态场景中表现更好。
参数效率。我们保持预先训练的 ViLT 主干不变,并比较可学习提示 [27] 和我们的方法所需的额外可学习参数。我们需要的额外参数较少,但性能优于输入级别和注意力级别提示。因此,与基于提示的方法相比,我们的自适应方法显示出更高的参数效率和有效性。
4.7 特征及参数分析
我们进行了额外的分析来评估适应方法的有效性和普遍性。我们将在本节中讨论它们。
4.7.1 为什么适应后的模型表现更好?
为了进一步分析自适应如何帮助模型提高整体性能,我们对从网络最后一层提取的最终融合特征进行了余弦相似度分析。具体来说,我们计算预训练模型(Pretrained)中完整和缺失模态特征之间的余弦相似度,以及自适应模型(Adapted)中完整和缺失模态特征之间的余弦相似度。我们在图 3 中展示了每个类的余弦相似度。
与预训练模型相比,在 MCubeS 数据集(用于多模态材料分割)和 NTU RGB+D 数据集(用于多模态动作识别,当 RGB 可用且其他模态缺失时)上,调整后的模型与完整模态特征的余弦相似度更高。这种增加的相似度表明,即使某些模态缺失,调整后的模型也能更好地保留原始完整模态输入特征的基本信息。因此,这种特征表示的稳健性可显著提高模型的整体性能。这些结果证明了调整后的模型在处理模态缺失场景和保持稳健预测质量方面的有效性。
我们在此仅展示 NTU RGB+D 数据集的 60 个类别中的前 20 个。我们在补充材料中的 S6 节中对所有 60 个类别(包括其他缺失场景)进行了比较。
4.7.2 性能增益与可学习参数
我们的方法仅需少量额外的可学习参数即可实现显著的性能提升。如表 2 和表 3 所示,与基础 CMNeXt 模型相比,经过调整的模型在 mIoU 方面平均提高了 8.46% 和 16.54%,而额外参数仅为 0.79M(即占模型总参数的 0.68%)。对于多模态情绪分析,如表 4 所示,与基础 MulT 模型相比,经过调整的模型在 CMU-MOSI 和 CMU-MOSEI 数据集上的准确率分别提高了 3.57% 和 23.78%,F1 得分分别提高了 6.79% 和 33.22%,而额外参数仅为 0.02M(即占模型总参数的 0.775%)。对于 UPMC Food-101 数据集上的多模态分类,如表 6 所示,经过调整的模型比基础 ViLT 模型实现了 9.45% 的平均性能提升,并且仅增加了 0.207M 个可学习参数(即模型参数总量的 0.18%)。
总之,在我们的实验中,在基础网络中学习少量额外参数可以在所有任务和架构中缺失模态的情况下显著提高性能。我们方法的参数复杂度与表 2 中的 CRM [20] 和表 6 中的提示 [27] 等现有的稳健方法相当/更好。然而,现有的关于缺失模态稳健性的研究在模型架构 [4]、[32]、融合方法 [35]、[63]、训练程序 [20]、[32] 和缺失特征生成方法 [23] 方面差异很大。由于这种异质性,仅基于模型大小/参数数量进行公平比较是不可行的。
5.局限性和未来方向
在这项工作中,我们的主要重点是增强现有多模态模型的缺失模态稳健性。虽然我们的方法可以使现有模型对不同的缺失模态场景具有稳健性,但它具有某些局限性。首先,我们只考虑了测试时的缺失模态。然而在现实生活中,模态在训练和测试时都可能缺失。其次,我们的方法为每种缺失模态组合学习一组自适应参数。虽然自适应参数的数量很少,但整体参数复杂度将随着模态组合的数量而变化。对于 种模态,我们可以有最多 种可能的组合,因为每种模态都可以使用或缺失。我们的方法将需要 组自适应参数来适应每种可能的缺失模态组合(不包括两种所有或所有模态都可用的情况)。如果我们预计在测试时 中的一种模态会缺失,这是大多数已发表作品的情况,我们的方法将需要 组自适应参数。第三,我们在编码器和融合块的每一层之后插入可学习层。我们没有尝试优化参数数量或找到插入这些可学习层的最佳位置。未来的研究将探索这些领域,以进一步减少参数数量,增强该方法在新任务和数据集中的有效性和适用性。
6.结论
测试时缺失模态会导致多模态系统性能显著下降。在本文中,我们提出了一种简单且参数高效的自适应方法,用于在模态缺失的情况下进行稳健的多模态学习。我们证明了简单的线性运算可以有效地转换单个预训练的多模态网络,并实现与针对不同模态组合训练的多个(独立)专用网络相当的性能。我们评估了我们的方法的性能,并与现有的针对五种不同多模态任务的稳健方法进行了比较。我们的方法需要极少量的附加参数(例如,<1% 的总参数),同时与现有的基线模型和方法相比,针对不同的缺失模态场景显著提高了性能。我们的自适应策略适用于不同的网络架构、模态和任务,可以成为构建稳健多模态系统的通用解决方案。