别人还在迷茫,目标追踪已凭借精准定位 “笑傲江湖”!

2024-11-17 11:00   安徽  

目标追踪在计算机视觉领域占据重要地位,其主要任务是在视频序列里定位并跟踪一个或多个目标对象。该领域对自动驾驶、机器人系统、视频监控以及增强现实等诸多实际应用极为关键。目标追踪技术可助力这些系统理解与预测动态环境中的目标行为,进而提升系统的交互水平和决策的精准性。技术发展进程中,目标追踪正不断向更精准、实时和具备开放词汇能力的方向迈进,以便能适配更多样的应用场景,增强对未知目标的应对能力。

为了帮助大家全面掌握【目标追踪】的方法并寻找创新点,本文总结了最近两年【目标追踪】相关的22篇顶会论文研究成果,这些论文、来源、论文的代码都整理好了,希望能给各位的学术研究提供新的思路。

需要的同学扫码添加我

回复“目标追踪”即可全部领取

一、SeqTrack: Sequence to Sequence Learning for Visual Object Tracking

1

1.方法

1.1整体框架

SeqTrack 采用简单的编码器 - 解码器 Transformer 架构,将视觉跟踪转化为序列生成问题。编码器用双向 Transformer 提取输入视频帧的视觉特征,解码器通过因果 Transformer 自回归生成边界框值序列,使用交叉熵作为损失函数。

1.2图像和序列表示

图像表示:编码器输入相同尺寸的模板图像和搜索图像,将其划分为小块并进行线性投影得到视觉嵌入,添加可学习位置嵌入后输入编码器。模板图像添加更多背景有助于提升跟踪性能。

序列表示:把目标边界框由中心点和尺度表示,将连续坐标均匀离散化为整数,使用共享词汇表。输入序列包含起始标记,目标序列包含结束标记,对应的嵌入输入解码器,解码器输出经多层感知机和 softmax 采样得到最终结果。

1.3模型架构

编码器:基于标准视觉 Transformer(ViT),去除用于图像分类的 CLASS 标记,在最后一层添加线性投影以对齐编码器和解码器特征维度,接收模板和搜索图像的块嵌入,输出搜索图像特征。

解码器:为因果 Transformer,每个块包含掩码多头注意力、多头注意力和前馈网络。掩码多头注意力确保输出仅依赖先前序列元素,多头注意力整合视觉特征,前馈网络生成下一块嵌入。

1.4训练和推理

训练:类似于语言建模,采用交叉熵损失,训练目标是最大化目标标记的对数似然,输入序列为目标序列偏移一位(不含起始和结束标记),结合因果掩码保证自回归性。

推理:编码器感知模板图像和后续视频帧搜索区域,解码器初始输入起始标记,逐一生成目标序列标记,通过最大似然采样。推理过程中引入在线模板更新和窗口惩罚以整合先验知识。

1.5先验知识整合

在线更新:引入动态模板,根据生成标记的可能性自动选择可靠模板进行更新,当平均 softmax 分数大于阈值且达到更新间隔时,用当前帧跟踪结果更新动态模板,无需额外得分头进行第二阶段训练。

窗口惩罚:在推理时,根据目标对象在前一帧的位置对当前帧生成标记的可能性进行惩罚,抑制大位移。通过将词汇表中单词的 softmax 分数与汉宁窗相乘实现,无需额外调参。

2.创新点

2.1建模方式创新

将视觉跟踪建模为序列生成问题,有别于以往依赖复杂头网络(如分类和回归头、角点预测头)的跟踪方法,仅采用简单的编码器 - 解码器 Transformer 架构,摆脱了复杂头网络和冗余损失函数,简化跟踪框架。

2.2序列学习应用创新

受自然语言处理中序列学习的启发,应用于视觉跟踪领域,将边界框坐标离散化为序列标记,实现对目标位置的逐一生成预测,为跟踪建模提供新视角,且能无缝整合在线模板更新等跟踪设计。

2.3高效性与性能平衡

提出的 SeqTrack 模型在多个跟踪基准上实现速度和准确性的良好平衡,如 SeqTrack - B256 在 GOT - 10k 上取得 74.7% 的 AO 分数,超过同类方法且速度更快;SeqTrack - L384 在 LaSOT 上达到 72.5% 的 AUC,建立新的最优性能。

2.4先验知识整合改进

在序列到序列学习框架中有效整合在线模板更新和窗口惩罚等先验知识,进一步提高跟踪性能,且在线模板更新方法简单有效,无需额外复杂训练。

论文链接:SeqTrack: Sequence to Sequence Learning for Visual Object Tracking

论文代码:https://github.com/microsoft/VideoX.

二、Referring Multi-Object Tracking

1

1.方法

1.1构建新任务与基准数据集

提出一种新的视频理解任务 —— 指代多目标跟踪(RMOT),旨在根据语言表达在视频中定位所有语义匹配的对象,解决了现有指代理解任务中表达对应单目标及时间状态不准确的问题。

基于 KITTI 构建了新基准数据集 Refer-KITTI,它具有高灵活性(每个表达式对应对象数量 0 - 105 个,平均 10.7 个)、高时间动态性(目标时间状态覆盖 0 - 400 帧以上)和低标注成本(使用特定工具仅需两次点击标注目标轨迹)的特点。

1.2网络架构设计

特征提取器:使用 CNN 骨干模型提取视频帧的金字塔特征图,同时采用预训练语言模型将文本嵌入为 2D 向量。

跨模态编码器:提出早期融合模块,先将视觉特征通道降维并展平,语言特征通过全连接层变换,然后通过计算注意力权重融合两种特征,最后经堆叠的可变形编码器层促进跨模态交互。

解码器:利用上一帧的解码器嵌入更新为当前帧的跟踪查询来关联相邻帧对象,同时使用随机初始化的检测查询检测新出现对象,将两种查询连接后输入解码器学习目标表示。

指代头:包含分类、框和指代分支,分别预测输出嵌入是否为真实对象、框位置和与表达式的匹配程度。

1.3损失计算与训练测试

损失计算:将最终损失解耦为跟踪损失和检测损失。跟踪损失通过跟踪预测集和真实集直接计算,检测损失则需先找到预测对象与真实新出现对象的最佳匹配排列,再计算与真实集的损失,最终损失为两者之和。

训练与测试:模型参数初始化后,采用 AdamW 优化器训练,训练过程中使用随机裁剪、对象擦除和插入等数据增强方法,学习率按计划衰减。测试时,根据类别分数和指代阈值确定最终指代对象。

2.创新点

2.1提出新任务

RMOT 任务突破了现有指代理解任务中每个表达仅对应一个目标的限制,允许一个表达指代多个对象,并考虑了目标的时间状态变化,使任务更贴合真实环境。

2.2构建新基准数据集

Refer-KITTI 是首个专注于任意数量对象预测的数据集,其在对象灵活性、时间动态性和标注成本方面具有显著优势,为 RMOT 任务的研究提供了有力支持。

2.3创新网络架构与方法

基于 Transformer 提出的 TransRMOT 框架,通过设计早期融合模块有效融合视觉和语言特征,利用解耦的查询实现多目标跟踪,在 Refer-KITTI 数据集上取得了领先的性能表现,优于传统的基于 CNN 和其他基于 Transformer 的方法。

论文链接:Referring Multi-Object Tracking

代码链接:https://referringmot.github.io./

需要的同学扫码添加我

回复“目标追踪”即可全部领取

三、OVTrack: Open-Vocabulary Multiple Object Tracking

1

方法

1.1任务定义与基准设定

提出开放词汇多目标跟踪(open-vocabulary MOT)任务,旨在跟踪超出预定义训练类别的多个对象。利用大规模、大词汇量的 MOT 数据集 TAO,将其中的罕见类作为新类别,并采用 TETA 作为评估指标,以全面评估跟踪器在定位、关联和分类方面的性能。

1.2模型设计

定位:以类别无关的方式训练 Faster R-CNN,仅使用 RPN 和回归损失,在训练时利用 RPN 提议作为对象候选,推理时使用精修后的 RCNN 输出作为对象候选。

分类:将 Faster R-CNN 与预训练的视觉语言模型 CLIP 连接,通过提取 RoI 特征嵌入,替换原分类器为文本头和图像头,利用 CLIP 的文本和图像编码器监督生成的嵌入,计算预测嵌入与 CLIP 对应嵌入的亲和力,并最小化图像嵌入间的距离。

关联:采用对比学习方法,从图像对中提取 RoIs 并根据 IoU 与注释匹配,对匹配的 RoIs 进行聚类和划分,计算外观嵌入的相似度,在推理时利用外观特征相似性关联现有轨迹与候选对象。

1.3数据利用与生成

使用大规模多样的图像数据集 LVIS 训练,为解决视频数据缺乏多样性问题,结合经典数据增强与基于 DDPM 的数据生成策略。从静态图像生成参考图像,通过随机几何变换、利用实例掩码注释定义正负样本集、基于 DDPM 的条件机制引导反向过程,在迭代中保持正样本区域稳定并生成干扰对象,最终实现背景随机扰动、正实例与新背景融合及干扰对象生成,以模拟视频数据中的各种外观变化。

2.创新点

2.1提出新任务与基准

定义了开放词汇 MOT 任务,突破传统 MOT 基准的封闭集限制,为跟踪器在真实世界复杂场景下的评估提供了新的思路和标准,使跟踪任务更贴合实际应用需求。

2.2创新模型设计

设计了首个开放词汇跟踪器 OVTrack,通过将分类器替换为嵌入头,利用 CLIP 进行知识蒸馏,实现了对任意类别对象的跟踪,超越了传统封闭集跟踪器的类别限制。

强调了外观线索在开放词汇跟踪中的重要性,通过对比学习进行关联,有效应对复杂场景下的对象跟踪挑战。

2.3数据生成策略创新

提出基于 DDPM 的数据生成策略,结合经典数据增强方法,从静态图像中生成模拟正负实例及随机背景扰动,解决了开放词汇设置下的数据可用性问题,提高了模型对不同外观对象的跟踪能力,同时为训练提供了更多样化的数据。

论文链接:OVTrack: Open-Vocabulary Multiple Object Tracking

需要的同学扫码添加我

回复“目标追踪”即可全部领取



AI学术工坊
分享最新AI资源
 最新文章