AAAI 2024｜重磅发布！多模态跟踪新范式：条件生成对抗网络与扩散模型的融合引爆技术革命！

文摘 2024-10-09 16:16 英国

点击上方蓝字关注我们

论文链接：

https://arxiv.org/pdf/2309.01728

代码链接：

https://github.com/Zhangyong-Tang/GMMT-AAAI2024

简介

生成模型 (GM) 因其实现全面理解的卓越能力而受到越来越多的研究兴趣。然而，它们在多模式跟踪领域的潜在应用尚未得到探索。在这种背景下，我们寻求揭示利用生成技术来解决多模式跟踪中的关键挑战（信息融合）的潜力。本文深入研究了两种著名的 GM 技术，即条件生成对抗网络（CGAN）和扩散模型（DM）。与标准融合过程不同，标准融合过程中每个模态的特征直接输入融合块，我们在 GM 框架中将这些多模态特征与随机噪声结合起来，有效地将原始训练样本转化为更难的实例。这种设计擅长从特征中提取判别线索，增强最终的跟踪性能。实验结果表明，所提出的基于生成的融合机制通过在 GTOT、LasHeR 和 RGBD1K 上创下新记录，实现了最先进的性能。

研究动机及贡献

生成模型凭借全面理解的优势在许多下游任务都取得了可喜的性能，例如图像到图像翻译和多模态图像融合等。然而，将其在其他多模态任务上的成功扩展到多模态跟踪尚未得到充分讨论。

如图 1 所示。为了学习输入和输出之间的外部投影以及内部数据分布，GM 需要更长的训练时间和更大的训练数据。本文讨论了应用 GM 解决多模态信息融合的潜力，并提出了一种用于多模态跟踪的新颖的基于生成的融合机制（GMMT）。论文的贡献如下：

1）探索了以生成方法解决多模式跟踪的信息融合部分的潜力。为了实现这一目标，提出了一种新的基于生成的融合机制，该机制使融合的特征更具辨别力。

2）提出了一种通用的融合机制，并在多个基线方法、基准测试和两个多模态跟踪任务上证明了其泛化能力。

3）大量实验结果表明，所提出的方法在 RGB-T 和 RGB-D 跟踪任务上都是最先进的方法。

方法

多模态跟踪旨在通过多种模态之间的协作来获得预测，要求模型融合来自多模态输入的相关线索。预处理后，图像被发送到特征提取器和融合块。然而，这两个块有时会交叠，因此组合起来称为 F。然后将使用的融合特征 f 转发到任务头 H 以提取特定于任务的信息。之后，经过后处理可以维持最终的预测P。数学描述如下：

其中θ和分别表示F和H的可学习参数。输入是预处理后的多模态图像对。

基于生成的融合机制(GMMT)

鉴于融合过程通常应用于特征级别，GMMT 也在嵌入特征空间中进行了精心设计和讨论。按照 GMS 的典型设计，应事先获得所使用的原始融合特征 f（GMMT 的输入），这与多阶段训练方案一致。除了使用f之外，还应该保留每个模态的特征，从而为指导特定帧对的融合提供了强有力的条件。因此，本文采用了两个流行的 GM，即条件生成对抗网络（CGAN）和扩散模型（DM）。

基于 DM 的 GMMT 如图 2（a）所示。遵循DDIM（Song，Meng，and Ermon 2020），在训练阶段，使用原始融合特征f作为。在前向扩散过程中，通过随机高斯噪声进行扩散，其定义如下：

其中下标 t 是从区间 [1, T] 中选择的随机因子，它定义了执行多少步。是的阶乘，即的余数。是预定义的扩散速率，决定了第 t 步前进的距离。一旦计算出噪声表示，反向扩散过程就开始，旨在恢复干净的。它以作为输入，以作为条件，并将 t、的张量化嵌入作为标志。这些元素被连接并馈送到 U 形网络 U 中。然后通过最小化输出和噪声之间的 L2 损失来优化 U，基于此可以根据公式3 导出分布的均值和方差 .

因此，在测试阶段，迭代执行反向扩散过程，最终可以从学习到的分布中采样结果。但一开始用随机噪声代替，然后将时间标志t从T反向遍历到1。

一般来说，对于基于 DM 的 GMMT，典型的跟踪过程如式（1）所示。公式1 展开为式 4：

其中Sam是sampler的缩写，意思是从生成的分布中采样数据。受全概率公式的启发，用P作为分布的符号。基于CGAN的GMMT如图2(b)所示。

判别器 D 和生成器 G 被迭代训练。为了训练 D，合成的和原始的被one-hot标记，将 1 分配给，将 0 分配给。之后，分别计算和的损失，分别表示为和。为了区分真假数据，对D进行优化，最小化。训练完D后，其参数被冻结，开始G的学习过程。送入D，标签变为1，得到对应的损失并最小化。由于G是为了欺骗和误导D而设计的，因此相当于。值得注意的是，这部分的损失是通过均方误差计算的。为了确保公平比较，G 的架构反映了基于 DM 的 GMMT 中采用的 U 的架构。另外，由于推理时只使用了G，所以补充材料中保留了D的引入。

总之，基于 CGAN 的 GMMT 的输出由假特征组成，这意味着分布没有被明确学习。因此，整体跟踪过程与式1相同。

多模态跟踪器

所提出的 GMMT 在三个 RGB-T 跟踪器上实现，即自行设计的 Siamese 跟踪器、ViPT 和 TBSI，这意味着 m = 2。在讨论 GMMT 时，假设使用的融合特征 f 是预先定义的，这表明基线跟踪器应该事先进行预训练。这需要两个训练阶段：一个训练基线方法，另一个训练提出的 GMMT。

GMMT 在第二阶段被训练。为了向 GMMT 提供稳定的输入，在训练 GMMT 时，特征提取器和原始融合块被冻结。此外，为了协调融合方法和跟踪任务，附加了一个可学习的跟踪头，这意味着该阶段的损失结合了生成损失和从基线方法继承的跟踪损失：

其中 λ 是一个超参数，用于平衡生成损失的贡献。

在测试阶段，整体跟踪流程几乎是一样的。唯一的变化是原始融合块被丢弃，GMMT生成的融合特征作为后续任务头H的输入。

致谢作者，关于论文的详细实施过程和具体解释请阅读论文原文哦～❤️❤️

喜欢的话，请别忘记点赞👍➕关注哦

一文彻底搞懂多模态 - 多模态推理

大模型经典著作《大语言模型基础与前沿》

NeurIPS 2024|耦合Mamba：通过耦合状态空间模型增强多模态融合

腾讯&南大最新联合发布｜VITA：首个开源交互式全能多模态大模型！

一文彻底搞懂多模态 - 多模态学习

ICCV 2023｜CleanCLIP重磅登场！消除多模态对比学习中的数据中毒攻击

导师一个idea都没给，但也发了顶会AAAI，我摸索的这个方法绝了！

重磅3D多模态MSF框架发布！2D/3D语义分割双模态解析，重塑3D物体检测多语义融合框架

最新进展！全新特征学习框架，深度解析单模态与多模态对比学习泛化差异

揭秘时间魔法！段类型特征驱动的时间序列聚类算法

EMNLP 2024 多模态学习最新论文合集出炉！快速关注热点研究！

文末赠书｜深度揭秘！多模态大模型如何运作？一文读懂其核心原理！

NeurIPS 2024震撼发布：上交大&清华领衔创新，Diff-eRank大模型评估新指标，精准衡量LLM去噪实力！

CVPR投稿倒计时15天！Transformer还能卷出哪些新花样？

I 2025｜快手科技发布突破性EVLM！高效视觉语言模型，极大降低计算成本，实现全面视觉感知！

EMNLP 2024｜南京大学重磅推出EFUF：高效细粒度unlearning框架，全面破解多模态大语言模型“幻觉”难题！

NeurIPS 2024 | G3: 一种基于多模态大模型的高效自适应地理定位框架

港中文、UCL、武大联手攻关！NeurIPS 2024 全新多模态情绪分析模型，精准应对不完整数据挑战！

刷新多模态医学图像报告生成新高度｜AAAI 2023 山东大学&齐鲁医院推出多模态记忆Transformer！

NeurIPS 2024｜多模态学习重磅论文全览！最新研究集锦，不容错过！（下）

NeurIPS 2024｜多模态学习重磅论文全览！最新研究集锦，不容错过！（上）

突破了LLM极限，GPT-o1深度揭秘

港中文、上海AI Lab与浙大重磅推出PointLLM：大语言模型再升级，强势赋能点云理解！-ECCV 2024

NeurIPS 2024 | 像素级MLLM: Vitron, 实现图像视频的理解、生成、分割、编辑大一统

TPAMI 2024 | 基于时空结构对齐的视频-语言表示学习

ECCV 2024｜解锁多模态自监督学习！深度解耦常见与独特表示的创新突破

CVPR2023-基于交互式提示学习的多模态融合方法

CVPR 2024｜多模态大模型引爆！“因果推理”加持, 解锁链接上下文学习的无限潜能

CVPR 2023｜TransFusion震撼登场！突破性语义分割多模态融合网络，点云与图像直接融合！

TPAMI | SegNet:语义分割领域超经典轻量化模型

ECCV 2024｜多模态学习不鲁棒？表示解耦打造稳健多模态学习新纪元

NeurIPS 2021-如何利用知识图谱构建世界模型？！一种新的文本世界建模技术！

文末赠书｜《AI系统：原理与架构》于华为HC大会2024正式发布

又一本开源免费的大模型书来了，449页pdf！

CVPR 2024｜突破模态瓶颈！交替单模态适应引领多模态表示学习，攻克模态惰性与遗忘难题！

速来围观！多模态大型语言模型(MLLM)最新进展与实战应用全揭秘！

学术最前沿！2024最新深度多模态数据融合综述来袭！

AI大模型掀起效率革命！掌握ChatGPT等前沿技术，赋能企事业办公、科研与项目研发实战

ICML 2024｜浙大，NUS等高校联手推出多模态LLM革命性自动编码技术—Morph-Tokens

AAAI 2024｜重磅发布！多模态跟踪新范式：条件生成对抗网络与扩散模型的融合引爆技术革命！

ECCV 2024 | 破解多模态学习：单模态模型联合嵌入助力缺失模态预测新突破！

NeurIPS 2023｜浙大&上海AI Lab&华为联合发表--跨模态泛化的多模态统一表示

TPAMI 2024|打破边界！双向LiDAR相机语义分割中的单到多模态知识蒸馏革命

顶会NeurIPS‘24放榜！接收数量突破4千！8865高分被拒？

NeurIPS 2024|颠覆性发现！大型视觉-语言模型真的会“看”吗？MMStar基准揭示多模态评估误区与数据泄漏隐患

ECCV 2024 ｜中国人民大学、清华大学等提出平衡多模态学习的诊断和再学习方法

TPAMI 2024｜颠覆跨模态相似性学习的“游戏规则”！因果不变交互挖掘CIIM强势来袭：打破模态壁垒，精准捕捉跨模态信息！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉