学术最前沿！2024最新深度多模态数据融合综述来袭！

文摘 2024-10-12 10:02 英国

点击上方蓝字关注我们

Deep Multimodal Data Fusion

作者: Fei Zhao, Chengcui Zhang, Baocheng Geng

作者单位: The University of Alabama at Birmingham, Birmingham, AL, USA

论文链接:

https://dl.acm.org/doi/10.1145/3649447

ACM Comput. Surv.

简介

多模态人工智能 (Multimodal AI) 通常涉及各种类型的数据（例如，图像、文本或从不同传感器收集的数据）、特征工程（例如，提取、组合/融合）和决策。随着架构变得越来越复杂，多模态神经网络可以将特征提取、特征融合和决策过程集成到一个模型中。这些过程之间的界限越来越模糊。融合所基于的传统多模态数据融合分类法（例如，早期/晚期融合）已不再适合现代深度学习时代。因此，基于所使用的主流技术，本文提出了一种新的细粒度分类法，将最先进 (SOTA) 模型分为五类：编码器-解码器方法、注意力机制方法、图神经网络方法、生成神经网络方法和其他基于约束的方法。大多数现有的多模态数据融合综述仅关注一项特定任务，结合两种特定模态。与其他方法不同，本综述涵盖了更广泛的模态组合，包括视觉 + 语言（例如视频、文本）、视觉 + 传感器（例如图像、激光雷达）等，以及它们对应的任务（例如视频字幕、物体检测）。此外，还提供了这些方法之间的比较，以及该领域的挑战和未来方向。

研究动机及贡献

图 4. 传统分类法将融合方法分为三类。

多模态数据融合方法传统上分为四类，如图4所示，包括早期融合、中期融合、晚期融合和混合融合：

（1）早期融合：将从每种模态获得的原始数据或预处理数据融合在一起，然后发送到模型；

（2）中期融合：将从不同模态提取的特征融合在一起，并发送到模型进行决策；

（3）后期融合（也称为“决策融合”）：将从每种模态获得的单独决策融合在一起形成最终预测，例如多数投票或加权平均值，或基于单独决策的元 ML 模型。

（4）混合融合：早期、中期和晚期融合的组合。随着大量多模态数据的出现，对更先进的方法（VS 精心挑选的融合方式）的需求空前增长。

然而，这种传统的融合分类只能为多模态数据融合提供基本指导。为了从多模态数据中提取更丰富的表征，DNN 的架构变得越来越复杂，不再单独、独立地从每个模态中提取特征。相反，表征学习、模态融合和决策在大多数情况下是交织在一起的。因此，无需精确指定多模态数据融合发生在网络的哪个部分。融合多模态数据的方法已经从传统的显式方法（例如早期融合、中期融合和后期融合）转变为更隐式的方法。

图5.本文提出的深度多模态数据融合模型的细粒度分类图。

因此，本文对深度多模态数据融合进行了全面的概述和分类。本综述的贡献有三方面：

提供了一种新颖的深度多模态数据融合模型的细粒度分类法，不同于现有的根据早期、中期、晚期和混合融合等传统分类法对融合方法进行分类的调查。文中探索了最新进展，并将 SOTA 融合方法分为五类：编码器-解码器方法、注意力机制方法、GNN 方法、GenNN 方法和其他基于约束的方法，如图5所示。
对由各种模态组成的深度多模态数据融合进行了全面的回顾，包括视觉+语言、视觉+其他传感器等。现有的综述通常侧重于单一任务（如多模态物体识别）和两种模态的一种特定组合（如 RGB+深度数据），而本综述的范围更广，涵盖了各种模态及其相应的任务，包括多模态物体分割、多模态情感分析、VQA 和视频字幕等。
探索了深度多模态数据融合的新趋势，并比较和对比 SOTA 模型。一些过时的方法，如深度信念网络，被排除在本综述之外。然而，大型预训练模型，即深度学习的后起之秀，被纳入了本综述中，例如基于 Transformer 的预训练模型。

基于编码器-解码器的融合方法

由于编码器-解码器模型网络架构具有强大的表示学习能力和良好的灵活性，近年来编码器-解码器被越来越多的深度多模态数据融合模型采用。基于模态和任务的差异，多模态数据融合模型的架构差异很大。本文总结了编码器-解码器融合方法的一般思想，并摒弃了一些无法推广的任务特定融合策略。编码器-解码器融合的一般结构如图6所示。我们可以看出，从不同个体模态获得的高级特征被投影到潜在空间中。然后，任务特定解码器将从输入多模态数据中学习到的潜在表示生成预测。在现实场景中，这种结构存在大量变体。我们将它们分为3个子类：原始数据级融合、分层特征融合和决策级融合。

图 6.融合多模态数据的编码器-解码器方法的一般结构。每个编码器的输入数据可以是每个模态的原始数据或每个模态的特征。编码器可以是独立的，也可以共享权重。解码器可以包含上采样或下采样操作，具体取决于特定任务。

基于注意力机制的融合方法

注意力机制已成为多模态数据融合任务的主要工具之一。基于注意力机制的多模态模型可分为三类：

图 10。不同注意力机制和融合架构的说明。（a）显示了专注于模态内关系的注意力机制。（b）显示了专注于模态间关系的注意力机制。（c）显示了基于 Transformer 的架构，包括模态内自注意力和模态间交叉注意力。

模态内自注意力

总体结构如图10 (a) 所示。该方法的动机是迫使模型利用模态内关系。注意操作可以是基于点积的，也可以是基于加法门的，等等。这意味着，对于给定的模态，注意操作仅考虑来自该特定模态的数据。在 Transformer 模型中，用于注意计算的键 (K)、查询 (Q) 和值 (V) 张量是相同的，并且都来自相同的模态或序列，如图10 (c) 左侧所示。这确保了注意过程只集中在每个单一模态的数据上，从而可以对模态内关系进行有针对性的、不加稀释的分析。该方法通常用于多模态任务。

模态内自注意力机制具有诸多优势，包括灵活性、易于实现和相对较低的计算成本，这主要是因为它避免了辨别不同模态之间的差异和利用不同模态之间的相关性所需的复杂分析。然而，由于只关注模态内关系，这种方法可能会忽略不同模态之间可以提高模型性能的宝贵互补性。

跨模态交叉注意

总体结构如图10 （b）所示。作为模态内自注意力的补充，模态间交叉注意力机制侧重于挖掘不同模态之间的关系。注意力分数是使用多模态数据计算的。这意味着每个注意操作都会考虑来自多个模态的数据。在 Transformer 模型的背景下，注意力计算中使用的查询（Q）张量以及键（K）和值（V）张量来自两个或多个不同的模态或序列，如图10 （c）右侧所示。由于某些模态流可以比其他模态流包含更多当前任务的信息，因此获得的注意权重可以仅适用于信息量更大的模态。它将为一个模态产生一个以另一个模态为条件的注意力池特征。

模态间交叉注意力机制虽然功能强大，但在实际应用中也存在一些挑战。模态间交叉注意力的本质是管理和利用不同模态之间的关系，这本身就会带来计算和结构复杂性。随着模态数量的增加，这种复杂性会变得尤为明显，需要更多的计算资源和更复杂的管理。同时，模态间交叉注意力机制的有效性与其处理的模态的质量和相关性密切相关。因此，质量差或不一致的模态会严重阻碍注意力机制的最佳性能，导致结果不佳。

基于 Transformer 的方法

基于 Transformer 的大型预训练模型在许多多模态数据融合任务中占据主导地位，例如 interBERT和 videoBERT。如图10 (c) 所示。在编码器中，有堆叠的自注意力块，其中 K，Q，V缩放点积注意力机制的输入来自同一个张量，以探索输入的模态内关系。在解码器中，有堆叠的自注意力块和交叉注意力块，其中 K，Q，V来自不同的模态，例如Q来自第二种模态，而 K,V 来自第一种模态。这些自注意力和交叉注意力模块有助于模型有效地捕捉多模态内部和之间的关系。目前，基于 Transformer 的大型预训练模型可以分为两类：（1）单 Transformer 架构：在这种架构中，来自不同模态的输入数据将由单个编码器或多个堆叠编码器联合处理，例如 VideoBERT、HERO、NExT-GPT、ClipBERT和 DeCEMBERT；（2）多 Transformers 架构：在这种架构中，来自不同模态的输入数据将由特定于模态的 Transformers 分别编码，然后进行联合建模，例如 X-llm、UniVL 和 ActBERT。大型预训练模型能够学习多模态的综合表示并在下游任务上获得有竞争力的表现。然而，目前大多数大型预训练模型都集中在视觉语言领域。对于其他类型的模态，大型预训练模型的资源仍然有限。表1总结并展示了最先进的大型预训练模型。

基于图神经网络的融合

基于编码器-解码器的融合和基于注意力的融合方法在从欧几里得空间内的数据中捕获隐藏模式方面取得了巨大成功。然而，它们很难处理从非欧几里得领域生成的数据，这些数据以具有复杂关系和对象间相互依赖关系的图来表示。 图卷积网络( GCN ) 利用适用于图形数据的卷积层来聚合来自相邻节点的信息，从而促进跨模态的空间局部特征融合。另一个值得注意的子类型是图注意力网络( GAT )，它将注意力机制引入到图结构中。通过动态衡量相邻节点的重要性，GAT 可以更精确地关注图中的相关部分，通过捕获不同数据源之间的复杂模式和关系来增强融合过程。图 11.基于 GNN 的多模态数据融合与集成的图示。（a）显示了基于 GNN 的多模态数据融合的总体架构。（b）显示了多模态数据的集成如何在图形构建过程中发生。

将 GNN 应用于多模态数据融合的一般策略可分为两类：

个体模态的表征学习

可视化效果如图11 (a)所示。在该策略中，GNN 仅用于从图数据中提取新的表示，这意味着由非图结构化数据组成的子分支将不使用 GNN 进行特征提取。然后，将从不同模态中学习到的表示整合在一起。

融合数据的表征学习

可视化结果如图11 (b) 所示。该融合策略的关键操作是图构建。一般来说，与之前的可以有多个子网络或子模态分支的策略不同，该策略在表示学习过程之前在图构建中融合多模态数据。

与其他融合方法相比，基于 GNN 的融合模型的优势包括：(1) 能够通过深度学习技术直接处理图结构数据，而无需将数据投影到欧几里得空间；(2) 能够直观地利用图结构数据中节点之间的关系，并可以扩展到利用多模态问题中的模态内和模态间关系。然而，基于 GNN 的融合模型的缺点是，图构建过程通常高度依赖于对特定输入数据和任务特征的先验知识。它耗时耗空间，不易推广。到目前为止，我们回顾了基于编码器-解码器的融合、基于注意力的融合和基于 GNN 的融合。它们都可以利用不同模态之间的关系来提高多模态网络的性能。然而，这种融合方法难以处理缺失数据问题。

基于生成神经网络的融合

GenNN 是深度学习领域的基础支柱，尤其适用于以数据生成、重建和建模为中心的任务。这些网络旨在捕获和复制数据的底层分布，使其对从图像合成到时间序列预测等大量应用都具有重要价值。鉴于其生成能力，生成模型在真实数据稀缺、嘈杂或不完整的情况下发挥了重要作用，提供了一种补充和增强现有数据集的强大机制。该类模型可以根据其他模态合成缺失的模态。总体思路如图12所示。

图 12.基于 GenNN 的方法的总体架构。

基于 GenNN 的模型可用于解决多模态任务中的缺失数据问题，也可作为正则化器来利用多模态之间的语义相关性。然而，当涉及到利用多模态之间的模态内和模态间关系来提高模型性能时，基于 GenNN 的网络的架构灵活性相对较低，并且需要大量的训练技能。在这方面，注意力机制在科学界引起了更多的关注。由于注意力机制具有很强的揭示不同模态间内部和相互关系的能力，它已被广泛应用于多模态数据融合。

其他基于约束的方法

上面回顾的大多数融合策略都是基于联合表示的，这意味着输入的多模态数据将被映射到一个共同的潜在空间中。该模型将学习输入数据的联合表示。然而，还有另一种方法，称为基于协调表示的框架，它在一定约束条件下学习每种模态的分离但协调的表示。

如图13 (a) 所示，协调表征架构分别处理各个模态，但对它们施加某些相似性约束，以将它们带入协调空间。可以使用典型相关分析( CCA ) 约束、余弦距离约束、L2 距离约束或其他约束将学习到的每种模态表征相互比较。这些相似性约束将作为损失函数中的正则化项。

图 13.（a）显示了具有某些约束的协调表示框架的可视化，以保持学习到的表示在语义上一致。（b）显示了侧重于模态间和模态内关系的张量融合机制。

这些基于表示的协调融合的主要缺点之一是它们适用于输入模态为 2/3 的情况。当模态数量大于 3 时，网络架构可能过于复杂，性能无法得到保证。

5种融合方法的比较结果总结在表2中。与 GenNN 和其他基于约束的方法只能在少数（例如 2）种模态上表现良好不同，基于编码器-解码器的方法和基于注意力机制的方法可以轻松推广到三种或更多种模态。此外，这两类方法可以很好地协同工作。

表3，对不同任务中融合方法的详细定量比较，并突出显示了每个任务中的最佳表现。

应用和数据集

目前，科学界和工业界有大量与深度多模态数据融合相关的应用。随着模态多样性的增加，多模态数据融合的下游任务类型也在不断增加。这里选择了一些与多模态数据融合相关的热门应用，并将它们分为三类：视觉与语言、视觉与传感器和其他。这些任务的数据集总结如表4所示：

未来研究方向

未来方向基于深度学习的多模态数据融合在近十年中发展迅速。然而，仍然存在一些研究空白：

缺失模态挑战

在实际场景中，模态问题分为两类：模态缺失问题和模态噪声问题。模态缺失问题是指在多模态样本中至少一种模态缺失。模态噪声问题是指至少一种模态的数据有噪声或未对齐。大多数 SOTA 方法都基于数据集中不存在数据缺失问题的假设。许多基于这一假设的 SOTA 深度数据融合模型只有在理想条件下才能工作良好。

缺乏数据

多模态数据融合是人工智能的一个新兴研究领域。目前公开的多模态数据集仍然有限。众所周知，基于深度学习的模型的性能通常取决于训练过程中使用的样本数量。高质量、大规模的数据集将极大地帮助模型学习到所观察到的对象或活动的准确、全面的表示。因此，创建更大、更高质量的多模态数据集是推动该领域发展的关键任务之一。

缺乏大型预训练模型

大型预训练模型能够学习更全面的多模态表示。通过迁移学习，训练有素的大型预训练模型在下游任务上的表现可以比针对特定任务设计的模型更具竞争力。然而，目前现有的大型预训练多模态模型仅专注于 CV 和 NLP 的跨学科领域。未来，为其他跨学科领域创建大型预训练多模态模型可能是多模态数据融合的一个潜在方向。

模型的可解释性

尽管数据驱动方法在不同学科中取得了令人难以置信的成功，但深度学习模型的一些缺点限制了它们的适用性。例如，它通常需要大量的训练数据和密集的计算资源来学习理想的映射，而这在通信降级或能源受限的环境中几乎不可用。此外，DNN 通常被设计为黑匣子，无法解释如何理解和表征预测结果和置信区间。

致谢作者，关于论文的详细实施过程和具体解释请阅读论文原文哦～❤️❤️

喜欢的话，请别忘记点赞👍➕关注哦

一文彻底搞懂多模态 - 多模态推理

大模型经典著作《大语言模型基础与前沿》

NeurIPS 2024|耦合Mamba：通过耦合状态空间模型增强多模态融合

腾讯&南大最新联合发布｜VITA：首个开源交互式全能多模态大模型！

一文彻底搞懂多模态 - 多模态学习

ICCV 2023｜CleanCLIP重磅登场！消除多模态对比学习中的数据中毒攻击

导师一个idea都没给，但也发了顶会AAAI，我摸索的这个方法绝了！

重磅3D多模态MSF框架发布！2D/3D语义分割双模态解析，重塑3D物体检测多语义融合框架

最新进展！全新特征学习框架，深度解析单模态与多模态对比学习泛化差异

揭秘时间魔法！段类型特征驱动的时间序列聚类算法

EMNLP 2024 多模态学习最新论文合集出炉！快速关注热点研究！

文末赠书｜深度揭秘！多模态大模型如何运作？一文读懂其核心原理！

NeurIPS 2024震撼发布：上交大&清华领衔创新，Diff-eRank大模型评估新指标，精准衡量LLM去噪实力！

CVPR投稿倒计时15天！Transformer还能卷出哪些新花样？

I 2025｜快手科技发布突破性EVLM！高效视觉语言模型，极大降低计算成本，实现全面视觉感知！

EMNLP 2024｜南京大学重磅推出EFUF：高效细粒度unlearning框架，全面破解多模态大语言模型“幻觉”难题！

NeurIPS 2024 | G3: 一种基于多模态大模型的高效自适应地理定位框架

港中文、UCL、武大联手攻关！NeurIPS 2024 全新多模态情绪分析模型，精准应对不完整数据挑战！

刷新多模态医学图像报告生成新高度｜AAAI 2023 山东大学&齐鲁医院推出多模态记忆Transformer！

NeurIPS 2024｜多模态学习重磅论文全览！最新研究集锦，不容错过！（下）

NeurIPS 2024｜多模态学习重磅论文全览！最新研究集锦，不容错过！（上）

突破了LLM极限，GPT-o1深度揭秘

港中文、上海AI Lab与浙大重磅推出PointLLM：大语言模型再升级，强势赋能点云理解！-ECCV 2024

NeurIPS 2024 | 像素级MLLM: Vitron, 实现图像视频的理解、生成、分割、编辑大一统

TPAMI 2024 | 基于时空结构对齐的视频-语言表示学习

ECCV 2024｜解锁多模态自监督学习！深度解耦常见与独特表示的创新突破

CVPR2023-基于交互式提示学习的多模态融合方法

CVPR 2024｜多模态大模型引爆！“因果推理”加持, 解锁链接上下文学习的无限潜能

CVPR 2023｜TransFusion震撼登场！突破性语义分割多模态融合网络，点云与图像直接融合！

TPAMI | SegNet:语义分割领域超经典轻量化模型

ECCV 2024｜多模态学习不鲁棒？表示解耦打造稳健多模态学习新纪元

NeurIPS 2021-如何利用知识图谱构建世界模型？！一种新的文本世界建模技术！

文末赠书｜《AI系统：原理与架构》于华为HC大会2024正式发布

又一本开源免费的大模型书来了，449页pdf！

CVPR 2024｜突破模态瓶颈！交替单模态适应引领多模态表示学习，攻克模态惰性与遗忘难题！

速来围观！多模态大型语言模型(MLLM)最新进展与实战应用全揭秘！

学术最前沿！2024最新深度多模态数据融合综述来袭！

AI大模型掀起效率革命！掌握ChatGPT等前沿技术，赋能企事业办公、科研与项目研发实战

ICML 2024｜浙大，NUS等高校联手推出多模态LLM革命性自动编码技术—Morph-Tokens

AAAI 2024｜重磅发布！多模态跟踪新范式：条件生成对抗网络与扩散模型的融合引爆技术革命！

ECCV 2024 | 破解多模态学习：单模态模型联合嵌入助力缺失模态预测新突破！

NeurIPS 2023｜浙大&上海AI Lab&华为联合发表--跨模态泛化的多模态统一表示

TPAMI 2024|打破边界！双向LiDAR相机语义分割中的单到多模态知识蒸馏革命

顶会NeurIPS‘24放榜！接收数量突破4千！8865高分被拒？

NeurIPS 2024|颠覆性发现！大型视觉-语言模型真的会“看”吗？MMStar基准揭示多模态评估误区与数据泄漏隐患

ECCV 2024 ｜中国人民大学、清华大学等提出平衡多模态学习的诊断和再学习方法

TPAMI 2024｜颠覆跨模态相似性学习的“游戏规则”！因果不变交互挖掘CIIM强势来袭：打破模态壁垒，精准捕捉跨模态信息！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉