TIP 2024｜Mind the Gap! 南开大学提出跨模态 UNet 学习与模态无关的表示

文摘 2024-09-24 06:32 英国

点击上方蓝字关注我们

论文链接：

https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=10384354

代码链接：

https://github.com/Chaoscendence/MarrNet

简介

常见的缩小模态差异的方法包括减少不同模态表示的分布差异、学习难以区分的表示或显式模态转移。前两种方法在消除模态特有变化的同时会丧失判别信息，而第三种方法严重依赖于成功的模态转移，当显式模态转移不可能或困难时，性能可能会急剧下降。为了解决这个问题，作者提出了一种紧凑的编码器-解码器神经模块（cmUNet），以在保留身份相关信息的同时学习模态无关表示。这是通过跨模态变换和模态内重建实现的，并通过对抗性/感知损失来增强，该损失鼓励在原始样本空间中表示的不可区分性。为了跨模态匹配，作者又提出了MarrNet，其中cmUNet连接到标准特征提取网络，后者以模态无关表示作为输入并输出匹配的相似度分数。实验表明，MarrNet在对抗伪装和遮挡方面表现出卓越的鲁棒性，并且在与现有方法的比较中表现出显著优势（超过10%）。且所提出的cmUNet是一种元方法，可以作为各种应用的构建模块。

研究动机

（1）目前流行的学习表示（元）方法包括使用最大平均差异（MMD）和 Wasserstein 损失等距离来减少两种模态之间表示的分布差异。然而，这些损失/约束直接应用于学习的特征，并迫使相应的分布接近。从而导致，不仅模态相关信息被删除，而且判别信息也可能被损坏。

（2）跨模态人脸识别的常见方法受益于生成模型，但这些方法存在一些局限性：首先，域转移或联合建模本身具有挑战性，通常需要大量训练数据（例如大型人脸数据集 MSCeleb-1M）。这限制了这些方法在小数据应用中的使用。其次，图像生成（一对一翻译）是计算密集型的，对于识别来说基本上是不必要的，因为生成的图像随后用于学习没有领域/模态信息或偏差的语义表示。那么是否有可能用单个紧凑的神经模块替换这种复杂的域转移和表示学习流程呢？作者在文中给出了回应。

论文贡献

（1）提出跨模态编码器-解码器模块（cmUNet）来学习模态无关的表示，该模块执行跨模态变换和模态内重建，以删除模态特定信息，同时保留身份相关的判别特征。 cmUNet 是一种元方法，可用于截然不同的任务。

（2）对于跨模态匹配，提出了 MarrNet，其中 cmUNet 连接到标准特征提取网络，该网络将模态不可知的表示作为输入，并输出用于匹配的相似性分数。

（3）提出“薄冰假设”（“thin-ice hypothesis“） 来描述发现，即由于无法处理模态间隙，跨模态匹配方法可能会产生偏差，无法从部分甚至不相关的区域中提取判别信息，从而导致泛化能力较差。

（4）提出了一个新问题拉曼红外光谱匹配，并创建了一个数据集 cmRRUFF，该数据集可用作跨模态表示学习的基准。

MarrNet：使用跨模态 UNET 学习与模态无关的表示

如果无论原始样本的模态如何，它们在样本空间中的解码都无法区分，那么表示就是模态不可知的。为了学习这种表示，文中设计了一个紧凑的跨模态编码器解码器神经模块cmUNet，它执行跨模态和模内重建，如图 2(c) 所示。添加特定于模态的判别来检查通过不同模态的解码器解码的学习表示的不可区分性。

对于跨模态匹配，只需将 cmUNet 连接到下游特征提取网络以进一步学习判别表示，如图 3 所示。换句话说，cmUNet 的编码器部分获得的模态不可知表示被传递给对同质输入（在特征空间中）进行操作的 Siamese 网络。当使用预训练的backbone时，则将 backbone的前几层复制为编码器，并相应地创建解码器。 backbone的其余部分被视为 Siamese 网络（用于判别特征学习）。所提出的方法被命名为 MarrNet，用于跨模态匹配的模态不可知表示正则化。

Encoders

对应于同一样本的两种模态的两个输入和首先分别由和编码，使得它们的输出和在模态方面不可区分。换句话说，我们期望它们被转换成一个共同的特征空间，在那里它们共享相同的“潜在”模态。这将减轻识别网络（图 3 中的连体网络 S）的负担，以弥合两种模态之间的差距，并专注于学习最终分类的判别信息。

Decoders

通过两个解码器解码特征和，并评估重建样本、和变换后的样本如下所述定性和定量采样、.

Discriminators

在对抗性学习的设置中采用特定于模态的判别器，每个判别器都针对相应的解码器来评估域的保真度。

Loss

与输入模态匹配的解码器的输出使用重建损失进行评估：

使用跨模态变换损失评估通过相反模态的生成器（解码器）生成的输出:

使用模态感知判别器与真实样本进行比较来评估来自解码器的转换样本，产生对抗性损失：

此外，文中使用标准三元组损失来训练 Siamese 网络:

把所有的loss加在一起得到总损失：

Inference

在推理中，解码器和判别器被丢弃。网络输入通过与其模态相对应的编码器，然后馈送到 Siamese 网络进行匹配。

实验结果

致谢作者，关于论文的详细实施过程和具体解释请阅读论文原文哦～❤️❤️

喜欢的话，请别忘记点赞👍➕关注哦