别人还在迷茫，目标追踪已凭借精准定位 “笑傲江湖”！

2024-11-17 11:00 安徽

【目标追踪】在计算机视觉领域占据重要地位，其主要任务是在视频序列里定位并跟踪一个或多个目标对象。该领域对自动驾驶、机器人系统、视频监控以及增强现实等诸多实际应用极为关键。目标追踪技术可助力这些系统理解与预测动态环境中的目标行为，进而提升系统的交互水平和决策的精准性。技术发展进程中，目标追踪正不断向更精准、实时和具备开放词汇能力的方向迈进，以便能适配更多样的应用场景，增强对未知目标的应对能力。

为了帮助大家全面掌握【目标追踪】的方法并寻找创新点，本文总结了最近两年【目标追踪】相关的22篇顶会论文研究成果，这些论文、来源、论文的代码都整理好了，希望能给各位的学术研究提供新的思路。

需要的同学扫码添加我

回复“目标追踪”即可全部领取

一、SeqTrack: Sequence to Sequence Learning for Visual Object Tracking

1.方法

1.1整体框架

SeqTrack 采用简单的编码器 - 解码器 Transformer 架构，将视觉跟踪转化为序列生成问题。编码器用双向 Transformer 提取输入视频帧的视觉特征，解码器通过因果 Transformer 自回归生成边界框值序列，使用交叉熵作为损失函数。

1.2图像和序列表示

图像表示：编码器输入相同尺寸的模板图像和搜索图像，将其划分为小块并进行线性投影得到视觉嵌入，添加可学习位置嵌入后输入编码器。模板图像添加更多背景有助于提升跟踪性能。

序列表示：把目标边界框由中心点和尺度表示，将连续坐标均匀离散化为整数，使用共享词汇表。输入序列包含起始标记，目标序列包含结束标记，对应的嵌入输入解码器，解码器输出经多层感知机和 softmax 采样得到最终结果。

1.3模型架构

编码器：基于标准视觉 Transformer（ViT），去除用于图像分类的 CLASS 标记，在最后一层添加线性投影以对齐编码器和解码器特征维度，接收模板和搜索图像的块嵌入，输出搜索图像特征。

解码器：为因果 Transformer，每个块包含掩码多头注意力、多头注意力和前馈网络。掩码多头注意力确保输出仅依赖先前序列元素，多头注意力整合视觉特征，前馈网络生成下一块嵌入。

1.4训练和推理

训练：类似于语言建模，采用交叉熵损失，训练目标是最大化目标标记的对数似然，输入序列为目标序列偏移一位（不含起始和结束标记），结合因果掩码保证自回归性。

推理：编码器感知模板图像和后续视频帧搜索区域，解码器初始输入起始标记，逐一生成目标序列标记，通过最大似然采样。推理过程中引入在线模板更新和窗口惩罚以整合先验知识。

1.5先验知识整合

在线更新：引入动态模板，根据生成标记的可能性自动选择可靠模板进行更新，当平均 softmax 分数大于阈值且达到更新间隔时，用当前帧跟踪结果更新动态模板，无需额外得分头进行第二阶段训练。

窗口惩罚：在推理时，根据目标对象在前一帧的位置对当前帧生成标记的可能性进行惩罚，抑制大位移。通过将词汇表中单词的 softmax 分数与汉宁窗相乘实现，无需额外调参。

2.创新点

2.1建模方式创新

将视觉跟踪建模为序列生成问题，有别于以往依赖复杂头网络（如分类和回归头、角点预测头）的跟踪方法，仅采用简单的编码器 - 解码器 Transformer 架构，摆脱了复杂头网络和冗余损失函数，简化跟踪框架。

2.2序列学习应用创新

受自然语言处理中序列学习的启发，应用于视觉跟踪领域，将边界框坐标离散化为序列标记，实现对目标位置的逐一生成预测，为跟踪建模提供新视角，且能无缝整合在线模板更新等跟踪设计。

2.3高效性与性能平衡

提出的 SeqTrack 模型在多个跟踪基准上实现速度和准确性的良好平衡，如 SeqTrack - B256 在 GOT - 10k 上取得 74.7% 的 AO 分数，超过同类方法且速度更快；SeqTrack - L384 在 LaSOT 上达到 72.5% 的 AUC，建立新的最优性能。

2.4先验知识整合改进

在序列到序列学习框架中有效整合在线模板更新和窗口惩罚等先验知识，进一步提高跟踪性能，且在线模板更新方法简单有效，无需额外复杂训练。

论文链接：SeqTrack: Sequence to Sequence Learning for Visual Object Tracking

论文代码：https://github.com/microsoft/VideoX.

二、Referring Multi-Object Tracking

1.方法

1.1构建新任务与基准数据集

提出一种新的视频理解任务 —— 指代多目标跟踪（RMOT），旨在根据语言表达在视频中定位所有语义匹配的对象，解决了现有指代理解任务中表达对应单目标及时间状态不准确的问题。

基于 KITTI 构建了新基准数据集 Refer-KITTI，它具有高灵活性（每个表达式对应对象数量 0 - 105 个，平均 10.7 个）、高时间动态性（目标时间状态覆盖 0 - 400 帧以上）和低标注成本（使用特定工具仅需两次点击标注目标轨迹）的特点。

1.2网络架构设计

特征提取器：使用 CNN 骨干模型提取视频帧的金字塔特征图，同时采用预训练语言模型将文本嵌入为 2D 向量。

跨模态编码器：提出早期融合模块，先将视觉特征通道降维并展平，语言特征通过全连接层变换，然后通过计算注意力权重融合两种特征，最后经堆叠的可变形编码器层促进跨模态交互。

解码器：利用上一帧的解码器嵌入更新为当前帧的跟踪查询来关联相邻帧对象，同时使用随机初始化的检测查询检测新出现对象，将两种查询连接后输入解码器学习目标表示。

指代头：包含分类、框和指代分支，分别预测输出嵌入是否为真实对象、框位置和与表达式的匹配程度。

1.3损失计算与训练测试

损失计算：将最终损失解耦为跟踪损失和检测损失。跟踪损失通过跟踪预测集和真实集直接计算，检测损失则需先找到预测对象与真实新出现对象的最佳匹配排列，再计算与真实集的损失，最终损失为两者之和。

训练与测试：模型参数初始化后，采用 AdamW 优化器训练，训练过程中使用随机裁剪、对象擦除和插入等数据增强方法，学习率按计划衰减。测试时，根据类别分数和指代阈值确定最终指代对象。

2.创新点

2.1提出新任务

RMOT 任务突破了现有指代理解任务中每个表达仅对应一个目标的限制，允许一个表达指代多个对象，并考虑了目标的时间状态变化，使任务更贴合真实环境。

2.2构建新基准数据集

Refer-KITTI 是首个专注于任意数量对象预测的数据集，其在对象灵活性、时间动态性和标注成本方面具有显著优势，为 RMOT 任务的研究提供了有力支持。

2.3创新网络架构与方法

基于 Transformer 提出的 TransRMOT 框架，通过设计早期融合模块有效融合视觉和语言特征，利用解耦的查询实现多目标跟踪，在 Refer-KITTI 数据集上取得了领先的性能表现，优于传统的基于 CNN 和其他基于 Transformer 的方法。

论文链接：Referring Multi-Object Tracking

代码链接：https://referringmot.github.io./

需要的同学扫码添加我

回复“目标追踪”即可全部领取

三、OVTrack: Open-Vocabulary Multiple Object Tracking

方法

1.1任务定义与基准设定

提出开放词汇多目标跟踪（open-vocabulary MOT）任务，旨在跟踪超出预定义训练类别的多个对象。利用大规模、大词汇量的 MOT 数据集 TAO，将其中的罕见类作为新类别，并采用 TETA 作为评估指标，以全面评估跟踪器在定位、关联和分类方面的性能。

1.2模型设计

定位：以类别无关的方式训练 Faster R-CNN，仅使用 RPN 和回归损失，在训练时利用 RPN 提议作为对象候选，推理时使用精修后的 RCNN 输出作为对象候选。

分类：将 Faster R-CNN 与预训练的视觉语言模型 CLIP 连接，通过提取 RoI 特征嵌入，替换原分类器为文本头和图像头，利用 CLIP 的文本和图像编码器监督生成的嵌入，计算预测嵌入与 CLIP 对应嵌入的亲和力，并最小化图像嵌入间的距离。

关联：采用对比学习方法，从图像对中提取 RoIs 并根据 IoU 与注释匹配，对匹配的 RoIs 进行聚类和划分，计算外观嵌入的相似度，在推理时利用外观特征相似性关联现有轨迹与候选对象。

1.3数据利用与生成

使用大规模多样的图像数据集 LVIS 训练，为解决视频数据缺乏多样性问题，结合经典数据增强与基于 DDPM 的数据生成策略。从静态图像生成参考图像，通过随机几何变换、利用实例掩码注释定义正负样本集、基于 DDPM 的条件机制引导反向过程，在迭代中保持正样本区域稳定并生成干扰对象，最终实现背景随机扰动、正实例与新背景融合及干扰对象生成，以模拟视频数据中的各种外观变化。

2.创新点

2.1提出新任务与基准

定义了开放词汇 MOT 任务，突破传统 MOT 基准的封闭集限制，为跟踪器在真实世界复杂场景下的评估提供了新的思路和标准，使跟踪任务更贴合实际应用需求。

2.2创新模型设计

设计了首个开放词汇跟踪器 OVTrack，通过将分类器替换为嵌入头，利用 CLIP 进行知识蒸馏，实现了对任意类别对象的跟踪，超越了传统封闭集跟踪器的类别限制。

强调了外观线索在开放词汇跟踪中的重要性，通过对比学习进行关联，有效应对复杂场景下的对象跟踪挑战。

2.3数据生成策略创新

提出基于 DDPM 的数据生成策略，结合经典数据增强方法，从静态图像中生成模拟正负实例及随机背景扰动，解决了开放词汇设置下的数据可用性问题，提高了模型对不同外观对象的跟踪能力，同时为训练提供了更多样化的数据。

论文链接：OVTrack: Open-Vocabulary Multiple Object Tracking

需要的同学扫码添加我

回复“目标追踪”即可全部领取

http://mp.weixin.qq.com/s?__biz=Mzk0NzcyNDQ3Nw==&mid=2247487829&idx=1&sn=2935422dce4f21b6a4261f4e06e38242

AI学术工坊

分享最新AI资源

最新文章

别再 “单打独斗”！特征融合技术带领深度学习模型 “组团出道”！

博士招生 | 智能交通、智能网联驾驶方向博士研究生招生(西交利物浦大学)

别让夜间眩光 “闪瞎” 视觉算法！Flare7K++ 带着解决方案闪亮登场

揭秘 LSTM与CNN的完美联姻，论文从此不再愁！

真实到离谱！1000 个如同人类 “克隆” 的个体进入西部世界，AI 相似度达到 85%，细节令人震撼！

CMAE横空出世，在视觉任务中取得惊人成果

多模态生成发文量飙升，最新成果统一两大技术，含金量爆表！

博士招生 | 澳门理工大学人工智能药物发现中心招收全奖博士生 (2025年入学)

重大突破！新型自适应程序助力多模态学习，弥补缺失模态性能短板！

从城市到高速，自动驾驶如何重塑交通版图？

Nature发声：“人类亲吻难题” 让LLM原形毕露！各大模型全军覆没，所谓强大的它们，根本不懂推理，仅仅是被高估的工具罢了。

超越传统：新型变换器框架在 WSSS 中展现卓越性能！

别人还在迷茫，目标追踪已凭借精准定位 “笑傲江湖”！

博士招生 | 深圳理工大学人工智能学院客座研究生招聘

绝绝子！VST++ 助力显著性检测，“实力圈粉” 没商量！

别人苦苦训练，HPT 模型0起步却让通用机器人性能 “一骑绝尘”！

3D人体姿势数据为何缺乏语言描述？PoseScript 数据集如何填补这一空白？

仅有少量样本，“小样本学习 + 多模态” 凭啥在 AI 领域风生水起？

博士招生 | 悉尼科技大学(QS世界排名88)招收2025年入学的数据科学/AI方向的博士生和访问学生学者

VSR 模型的 “逆天改命” 术 —— 提示调整，C 位出道！

被秀到了！图神经网络与强化学习的梦幻联动，开启了智能决策新纪元

哈佛突破：新一代AI精准诊断癌症，准确率惊人！

深度全卷积新贵 SegNet 登场，能否打破语义分割现有格局？

高光谱图像恢复大作战，看 Transformer 如何显神通！

大模型微调背后的神秘力量：你了解多少？

博士招生 | 香港科技大学广州-陈煌栒老师招收网络信息物理系统与人工智能的交叉方向的博士/RA

深度揭秘：计算机视觉 + 注意力机制融合，为何成为学术研究新宠

清华团队重磅突破！具身智能 Scaling Law 被破解，GPT 时刻或将来临，宁德时代联创助力

只训练一个GNN已过时？解耦图神经网络：多管齐下的神秘训练策略

时序 + CNN：顶会的 “奇葩” 但超有效的方向！

不可思议！RGBE-Gaze 数据集，让凝视追踪更上一层楼

博士招生 | 中科院物理所李迪组招聘【光学/图像/自动化/人工智能/细胞生物学】博/硕/科研助理

万能涨点&出创新点神器：对比学习！15种创新方法全面汇总

国务院：博士学位论文，不再非写不可

博士招生 | 香港理工大学2025博士生招生，每月近1.9万津贴

EfficientTrain++：一种高效视觉骨干训练的新突破

博士招生 | 福建医科大学健康数据科学博士招生研究方向：医疗大数据与人工智能

kaggle新赛 | 只要你有扎实得金融基础，刚刚好又会一点编程就能参加这个比赛！

图像超分辨：清华甩出Inf-DiT：Diffusion Transformer 任意分辨率上采样，可节省超过5倍显存！

招生 | 浙江大学吴超老师课题组招收偏计算机方向博士后和科研助理

kaggle新赛 | 只要你有扎实得金融基础，刚刚好又会一点编程就能参加这个比赛！

视觉跟踪新范式：MixFormer 的混合注意力机制与预训练策略

博士招生 | 英国顶尖大学卡迪夫大学招人工智能、机器学习算法及应用全奖博士或联培博士、教师

kaggle新赛 | 只要你有扎实得金融基础，刚刚好又会一点编程就能参加这个比赛！

博士招生 | 香港理工大学2025博士生招生，每月近1.9万津贴

kaggle新赛 | 只要你有扎实得金融基础，刚刚好又会一点编程就能参加这个比赛！

真实世界图像超分辨率：交互式调制如何应对复杂退化挑战？

kaggle新赛 | 只要你有扎实得金融基础，刚刚好又会一点编程就能参加这个比赛！

博士招生 | 南京大学智能科学与技术学院，范琦老师招收2025年入学的博士生，以及实习生、科研助理

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉