Arxiv:https://arxiv.org/pdf/2406.02147
Projection:https://liautoad.github.io/ua-track-website/
本期概述
哈咯大家早上好~新的一周又要开始啦!
今天介绍一篇理想汽车最新的研究成果:UA-Track,一个3D多目标跟踪(MOT)框架。UA-Track主要解决的难题在于:现有的端到端基于查询的方法在同时检测和跟踪物体方面,尤其在遮挡和目标物体体积较小的情况下,通常忽略了不确定性问题。其创新点如下,一起来学习一下吧!
引入了不确定性感知的概率解码器,该解码器使用概率注意力机制来捕捉物体预测中的不确定性。
提出了不确定性引导的查询去噪策略,以增强训练的稳健性和在面对不确定性时的收敛性。
利用了不确定性减少的查询初始化模块,结合预测的2D物体位置和深度信息,降低查询初始化阶段的不确定性。
PipeLine
UA-Track框架的整体结构。pipeline分为3个部分:不确定性(感知)概率解码器(UPD)(蓝色模块)利用概率注意力机制生成并更新对物体状态和位置的不确定性感知预测。不确定性引导查询去噪(UQD)(绿色模块)通过对噪声查询进行筛选和处理,减少噪声对跟踪精度的影响。不确定性简化查询初始化(UQI)(黄色模块)使用2D检测器和深度信息来减少初始查询阶段的不确定性。
(3)不确定性引导的查询去噪(Uncertainty-guided Query Denoising, UQD):针对3D多目标跟踪中的复杂场景(如遮挡和目标物体尺寸变化)带来的不确定性问题,提出的训练策略。
低不确定性样本(正样本, Pos):当噪声查询与其对应的地面真实边界框的3D loU值超过上限阈值 。 高不确定性样本(负样本,Neg):当3DIoU值低于下限阈值( )。 忽略样本(Ign):当loU值介于两个阈值之间时,由于这些样本不能提供明确的确定性或不确定性指示,因此在训练过程中被忽略,以避免干扰正常查询的学习。
(4)不确定性减少的查询初始化(Uncertainty-reduced Query Initialization, UQI):利用从网络训练中获得的确定性先验(2D物体位置和深度信息)来增强查询初始化的质量。UQI通过共享的图像骨干网络和特征金字塔网络(FPN)提取多视图图像的特征,然后引入了两个2D目标检测和深度预测辅助任务:
: 这是目标对象的分类损失和边界框损失。 和 分别对应不确定性(感知)概率解码器(UPD)、不确定性引导的查询去噪 (UQD)以及不确定性减少的查询初始化(UQI)模块的损失项。