点击上方蓝字关注我们
GeminiFusion: Efficient Pixel-wise Multimodal Fusion for Vision Transformer
作者列表: Ding Jia, Jianyuan Guo, Kai Han,Han Wu, Chao Zhang, Chang Xu, Xinghao Chen 作者单位: 北京大学,悉尼大学,华为诺亚方舟实验室 论文链接: https://arxiv.org/pdf/2406.01210 代码链接: https://github.com/JiaDingCN/GeminiFusion
简介
跨模态Transformer在各种视觉任务中表现出色,能够有效整合不同模态信息。文中首先批判了之前的 token交换方法,这些方法用跨模态特征替换信息量较少的token,并表明其效果不如交叉注意力机制。然而,交叉注意力的计算需求较高,限制了其处理长序列的能力。为了解决这一问题,提出了一种基于像素的融合方法,GeminiFusion,通过对齐的跨模态表示,结合模态内和模态间的注意力。实验结果表明,GeminiFusion在多个多模态任务中超越了现有技术,且GeminiFusion 的运行复杂度与输入 token的数量呈线性关系,其效率与单模态同类模型相当。
研究动机
在当前文献中,多模态融合的主要范式可以分为两种,即基于交叉的融合和基于交换的融合。在早期基于交互的方法中,常见的做法涉及直接连接来自不同模态的标记。这种直接的融合方法忽略了模态间的相互作用,有时会导致比单模态方法更差的性能。虽然引入了交叉注意力机制作为解决方案,但随着输入令牌数量的增加,完全注意力的二次复杂度挑战了跨模态模型的可行性。为了解决这个问题,一个简单的策略是将跨模式交互限制在后面的层,通常称为后期融合。然而,这种方法限制了网络浅层从另一种模态访问有价值特征的能力,削弱了促进模态之间互助的最初目标,并阻碍了整体模型性能。
基于交换的融合通过利用视觉任务中不同模态的固有对齐,为计算开销提供了无参数解决方案。例如,激光雷达和点云等世界空间数据可以投影到配对图像平面上的像素。该方法需要动态预测每个输入标记的重要性,然后用来自一种模态的不太重要的标记替换另一种模态的标记。文中结果说明,无条件替换所有token通常产生最佳效果。这表明,每个token都携带独特信息,直接替代会导致信息不可逆的丢失。不同模态在相同位置的同步信息交换,强调了保留并整合不同模态特征的必要性。
文中提出,基于交换的融合的性能始终低于基于交叉注意力的融合,而完全注意力引入的额外开销构成了重大挑战。
论文贡献
为了克服这一挑战并保持原始单模态学习捕获的核心信息,提出了像素级多模态融合方法GeminiFusion。
证明了,直接用另一种模态的特征替换一种模态的特征是次优的。每次只需交换所有tokens即可达到更好的效果;
提出了一种名为 GeminiFusion 的有效多模态特征融合方法,利用视觉任务中不同模态输入固有的高度对齐,同时保留原始的单模态特征;
在多模态图像到图像转换、3D 对象检测任务和任意模态分割的广泛实验一致证实了提出的 GeminiFusion 的有效性
GeminiFusion
总体框架
GeminiFusion 模型采用编码器-解码器架构,编码器具有类似于SegFormer的四级结构,用于提取分层特征。为了简洁起见,图 2 仅说明了四个阶段中的初始阶段。
图 2:(a) GeminiFusion 的整体架构:GeminiFusion 模型设计为即插即用,可无缝集成到各种视觉主干中。(b) GeminiFusion 模块:利用两种模态的对齐特征执行逐像素融合以丰富多模态特征。(c) TokenFusion:在两个特征之间交换某些像素,但会导致信息丢失。(d) 交叉注意:需要大量内存资源并且输入 token 的复杂度为二次方。
基于交换的融合
基于单模态 Transformer 中总是存在无用标记或通道这一动机,TokenFusion和 CEN 等基于交换的方法旨在动态检测这些无用的标记或通道,并用来自其他模态的特征替换它们。具体来说,如果只有两种模态作为输入,即 和 ,则标记交换过程可以表述为
其中 表示输入 的第 i 个 token,II 是断言下标条件的指示符,因此它输出一个掩码张量 ,参数 θ 是设置为 0.02 的小阈值,并且运算符 ⊙ 表示逐元素乘法。
通过 L-1 范数约束来强制监督掩码生成过程。然而,这种方法引入了随机性因素。该模型在生成掩码时不会优先考虑 token 的信息重要性。文中认为,掩码与 token 的内在信息内容之间的联系没有得到很好的控制,这可能导致交换过程中的随机性。 如图 3c 和图 3d 所示,改变阈值并不能阻止初始层中的 token 被完全交换。这表明 TokenFusion 的运行方式并不像最初希望的那样,其中信息量微不足道的 token 被来自其他模态的 token 所取代。此外,如图 3a 和图 3b 所示,将阈值设置为 1,从而允许所有 token 始终被交换,会产生更好的结果。这表明基于交换的 TokenFusion 方法不仅不稳定,而且容易丢失关键信息。因此,它可能不如涉及完全信息交换的策略有效。
图 3:阈值对基于交换的 TokenFusion 的影响。交换所有token几乎总是会产生最佳结果。
基于交叉注意力的融合
基于交叉注意力的融合架构的典型特征是利用规范注意力来处理多种模态的输入。如图 2d 所示,考虑这样的场景,从两种模态获取了一组 N 个补丁,表示为 ,通过多模态信息增强的相应输出 可以通过以下方式生成:
上述操作的计算复杂度为 ,其中 N 是两种模态的标记数量。
GeminiFusion:像素级融合模块
GeminiFusion 模块受 TokenFusion的启发,假设并非所有的块都对融合过程做出同等贡献。不太突出的块可以有效地被来自替代模态的空间对应块替代,这意味着所有块之间的详尽交互可能不是必须的。因此,文中假设:模态间信息交换的关键在于共享相同空间坐标的块,因为这些位置是信息交换最相关和最重要的位置。利用这一见解,GeminiFusion 模块被设计为优先考虑来自不同模态的空间共置块之间的交互,从而改进交叉注意机制:
其中 i 在 d 的范围内。GeminiFusion模块的针对性交互策略不仅将计算量集中在最关键的信息交换上,而且还显着减少了计算负载。这种效率通过计算复杂度降低至 来量化。与交叉注意力相比,FLOPs 从 17G 骤降至仅 0.14G。计算需求惊人地减少了 99.2%。
然而,这里面临两个主要挑战:(i)注意力分数的不一致结果。(ii) 像素注意力机制中的 Softmax 函数限制。当前的注意力公式在每个像素的基础上运行,产生维度为 1 × 1 的注意力图。在这种情况下,softmax 函数的应用是无效的,因为它总是返回值 1,从而使预期的区分注意机制。这一结果削弱了模型在不同模态之间分配不同程度的注意力的能力。
为了解决上述问题,首先,引入一个轻量级关系鉴别器来评估模态之间的差异。文中研究结果表明,1 × 1 卷积和 softmax 函数的协同组合就足够了。具体来说,来自两种模态的补丁被连接并输入关系鉴别器,随后分配一个从 0 到 1 的关系分数。
文中通过层自适应噪声来增强自注意力。这种方法涉及在层级别注入最少量的噪声,巧妙地增强特征表示,而不会给模型带来无关信息的负担。为了封装 L 层输入张量的这个过程,GeminiFusion 模块中得到的输出张量可以用数学方式表示如下:
这种特定于层的噪声促进了自注意力和跨模式注意力之间的动态平衡,并确保了 softmax 操作的适当功能。图 5 说明了随着层深度的增加,注意力分数的变化。
图 5:自注意力(模态内)和交叉注意力(模态间)获得的注意力分数的比较。左:有噪音。右:无噪音。
实验结果
GeminiFusion 在 NYUDv2、SUN RGB-D 和 DeLiVER 数据集上与最先进的多模态分割方法进行了基准测试,结果详见表 5。
表 5:多模态语义分割任务的 NYUDv2、SUN RGB-D 和 DeLiVER 数据集与最先进方法的比较结果。
表 6:NYUDv2 数据集上关系鉴别器的消融。所有训练epoch数都是对齐的。文中使用 MiT-B3 作为主干。
表 8:仅将 GeminiFusion 添加到最后 k 层,在 NYUDv2 和 SUN RGB-D 数据集上获得多模态语义分割结果。
致谢作者,关于论文的详细实施过程和具体解释请阅读论文原文哦~❤️❤️
喜欢的话,请别忘记点赞👍➕关注哦
推荐阅读
CVPR 2024|拥抱单模态不确定性,实现稳健多模态融合!电子科大与同济等联手突破多模态技术瓶颈!
ICML2023重磅!清华、UC、MIT强强联手—突破性提出监督多模态学习中的单模态特征新范式!
ICML 2024|多模态数据融合理论创新!天津大学提出预测多模态动态融合框架