AAAI 2024|重磅发布!多模态跟踪新范式:条件生成对抗网络与扩散模型的融合引爆技术革命!

文摘   2024-10-09 16:16   英国  

点击上方蓝字关注我们


论文链接:

https://arxiv.org/pdf/2309.01728

代码链接:

https://github.com/Zhangyong-Tang/GMMT-AAAI2024

简介

生成模型 (GM) 因其实现全面理解的卓越能力而受到越来越多的研究兴趣。然而,它们在多模式跟踪领域的潜在应用尚未得到探索。在这种背景下,我们寻求揭示利用生成技术来解决多模式跟踪中的关键挑战(信息融合)的潜力。本文深入研究了两种著名的 GM 技术,即条件生成对抗网络(CGAN)和扩散模型(DM)。与标准融合过程不同,标准融合过程中每个模态的特征直接输入融合块,我们在 GM 框架中将这些多模态特征与随机噪声结合起来,有效地将原始训练样本转化为更难的实例。这种设计擅长从特征中提取判别线索,增强最终的跟踪性能。实验结果表明,所提出的基于生成的融合机制通过在 GTOT、LasHeR 和 RGBD1K 上创下新记录,实现了最先进的性能。

研究动机及贡献

生成模型凭借全面理解的优势在许多下游任务都取得了可喜的性能,例如图像到图像翻译和多模态图像融合等。然而,将其在其他多模态任务上的成功扩展到多模态跟踪尚未得到充分讨论。

如图 1 所示。为了学习输入和输出之间的外部投影以及内部数据分布,GM 需要更长的训练时间和更大的训练数据。本文讨论了应用 GM 解决多模态信息融合的潜力,并提出了一种用于多模态跟踪的新颖的基于生成的融合机制(GMMT)。论文的贡献如下:

1)探索了以生成方法解决多模式跟踪的信息融合部分的潜力。为了实现这一目标,提出了一种新的基于生成的融合机制,该机制使融合的特征更具辨别力。

2)提出了一种通用的融合机制,并在多个基线方法、基准测试和两个多模态跟踪任务上证明了其泛化能力。

3)大量实验结果表明,所提出的方法在 RGB-T 和 RGB-D 跟踪任务上都是最先进的方法。

方法

多模态跟踪旨在通过多种模态之间的协作来获得预测,要求模型融合来自多模态输入的相关线索。预处理后,图像被发送到特征提取器和融合块。然而,这两个块有时会交叠,因此组合起来称为 F。然后将使用的融合特征 f 转发到任务头 H 以提取特定于任务的信息。之后,经过后处理可以维持最终的预测P。数学描述如下:

其中θ和分别表示F和H的可学习参数。输入是预处理后的多模态图像对。

基于生成的融合机制(GMMT)

鉴于融合过程通常应用于特征级别,GMMT 也在嵌入特征空间中进行了精心设计和讨论。按照 GMS 的典型设计,应事先获得所使用的原始融合特征 f(GMMT 的输入),这与多阶段训练方案一致。除了使用f之外,还应该保留每个模态的特征,从而为指导特定帧对的融合提供了强有力的条件。因此,本文采用了两个流行的 GM,即条件生成对抗网络(CGAN)和扩散模型(DM)。

基于 DM 的 GMMT 如图 2(a)所示。遵循DDIM(Song,Meng,and Ermon 2020),在训练阶段,使用原始融合特征f作为。在前向扩散过程中, 通过随机高斯噪声 进行扩散,其定义如下:

其中下标 t 是从区间 [1, T] 中选择的随机因子,它定义了执行多少步。 的阶乘,即 的余数。 是预定义的扩散速率,决定了第 t 步前进的距离。一旦计算出噪声表示 ,反向扩散过程就开始,旨在恢复干净的 。它以 作为输入,以 作为条件,并将 t、 的张量化嵌入作为标志。这些元素被连接并馈送到 U 形网络 U 中。然后通过最小化输出和噪声 之间的 L2 损失来优化 U,基于此可以根据公式3 导出 分布的均值 和方差 .

因此,在测试阶段,迭代执行反向扩散过程,最终可以从学习到的分布中采样结果。但一开始用随机噪声代替,然后将时间标志t从T反向遍历到1。

一般来说,对于基于 DM 的 GMMT,典型的跟踪过程如式(1)所示。 公式1 展开为式 4:

其中Sam是sampler的缩写,意思是从生成的分布中采样数据。受全概率公式的启发,用P作为分布的符号。基于CGAN的GMMT如图2(b)所示。

判别器 D 和生成器 G 被迭代训练。为了训练 D,合成的 和原始的 被one-hot标记,将 1 分配给 ,将 0 分配给 。之后,分别计算 的损失,分别表示为 。为了区分真假数据,对D进行优化,最小化 。训练完D后,其参数被冻结,开始G的学习过程。 送入D,标签变为1,得到对应的损失并最小化。由于G是为了欺骗和误导D而设计的,因此相当于。值得注意的是,这部分的损失是通过均方误差计算的。为了确保公平比较,G 的架构反映了基于 DM 的 GMMT 中采用的 U 的架构。另外,由于推理时只使用了G,所以补充材料中保留了D的引入。

总之,基于 CGAN 的 GMMT 的输出由假特征组成,这意味着分布没有被明确学习。因此,整体跟踪过程与式1相同。

多模态跟踪器

所提出的 GMMT 在三个 RGB-T 跟踪器上实现,即自行设计的 Siamese 跟踪器、ViPT 和 TBSI,这意味着 m = 2。在讨论 GMMT 时,假设使用的融合特征 f 是预先定义的,这表明基线跟踪器应该事先进行预训练。这需要两个训练阶段:一个训练基线方法,另一个训练提出的 GMMT。

GMMT 在第二阶段被训练。为了向 GMMT 提供稳定的输入,在训练 GMMT 时,特征提取器和原始融合块被冻结。此外,为了协调融合方法和跟踪任务,附加了一个可学习的跟踪头,这意味着该阶段的损失结合了生成损失和从基线方法继承的跟踪损失

其中 λ 是一个超参数,用于平衡生成损失的贡献。

在测试阶段,整体跟踪流程几乎是一样的。唯一的变化是原始融合块被丢弃,GMMT生成的融合特征作为后续任务头H的输入。

致谢作者,关于论文的详细实施过程和具体解释请阅读论文原文哦~❤️❤️


   喜欢的话,请别忘记点赞👍➕关注哦 



        

推荐阅读



CVPR 2024|拥抱单模态不确定性,实现稳健多模态融合!电子科大与同济等联手突破多模态技术瓶颈!

震撼发布!低质量多模态数据融合方法最新进展!天津大学携手顶尖高校推出重磅综述!

ICML 2024|多模态数据融合理论创新!天津大学提出预测多模态动态融合框架

ICML 2024重磅!GeminiFusion:高效逐像素多模态融合!引领Vision Transformer新纪元!

ECCV2024|GalLoP:多模态提示学习——视觉-语言模型的全局和局部提示

多模态机器学习与大模型
多模态机器学习与大模型 致力于推荐、分享、解读多模态机器学习相关的前沿论文成果,讨论大语言模型先进技术,助力AI研究者进步。 合作交流请+V:Multimodal2024,谢谢❤️
 最新文章