理想汽车:UA-Track,3D多目标跟踪(MOT)框架​

文摘   2024-08-26 08:26   中国  

Arxiv:https://arxiv.org/pdf/2406.02147

Projection:https://liautoad.github.io/ua-track-website/

本期概述

哈咯大家早上好~新的一周又要开始啦!

今天介绍一篇理想汽车最新的研究成果:UA-Track,一个3D多目标跟踪(MOT)框架。UA-Track主要解决的难题在于:现有的端到端基于查询的方法在同时检测和跟踪物体方面,尤其在遮挡和目标物体体积较小的情况下,通常忽略了不确定性问题。其创新点如下,一起来学习一下吧!

  • 引入了不确定性感知的概率解码器,该解码器使用概率注意力机制来捕捉物体预测中的不确定性。

  • 提出了不确定性引导的查询去噪策略,以增强训练的稳健性和在面对不确定性时的收敛性。

  • 利用了不确定性减少的查询初始化模块,结合预测的2D物体位置和深度信息,降低查询初始化阶段的不确定性。

PipeLine

UA-Track框架的整体结构。pipeline分为3个部分:不确定性(感知)概率解码器(UPD)(蓝色模块)利用概率注意力机制生成并更新对物体状态和位置的不确定性感知预测。不确定性引导查询去噪(UQD)(绿色模块)通过对噪声查询进行筛选和处理,减少噪声对跟踪精度的影响。不确定性简化查询初始化(UQI)(黄色模块)使用2D检测器和深度信息来减少初始查询阶段的不确定性。

(1)主干网络和特征金字塔网络(Backbone + FPN):这部分常规操作啦,我们不再详细介绍,将问题聚焦~
(2)不确定性感知概率解码器(Uncertainty-aware Probabilistic Decoder, UPD):用来生成和更新跟踪查询(Track Queries),即关于当前帧中物体状态的预测。

UPD的架构。该架构在传统的交叉注意力机制上进行了升级,引入了概率注意力层来量化不确定性。概率注意力通过一个多层感知器(MLP)来处理查询(q)和键(k)的输入,以生成均值(μ)和标准差(σ),从而构建一个高斯分布。
UPD模块采用概率性注意力计算,将注意力分数 建模为高斯分布 。通过再参数化技巧,将注意力分数表示为均值和标准差的组合,从而量化预测中的不确定性。
为了约束概率性注意力机制,UPD使用缩放点积注意力机制,并通过负对数似然损失 来监督解码器:
UPD在3D多目标跟踪中的应用为
该公式表示,给定多视图图像的特征 和查询 ,通过UPD解码器可以生成当前帧的3D边界框 以及更新后的查询

(3)不确定性引导的查询去噪(Uncertainty-guided Query Denoising, UQD):针对3D多目标跟踪中的复杂场景(如遮挡和目标物体尺寸变化)带来的不确定性问题,提出的训练策略。

UQD通过对地面真实边界框添加噪声来生成噪声查询(noised queries),并根据不确定性水平对这些查询进行分类处理。论文中定义了两个阈值:下限阈值( )和上限阈值( )。根据这些阈值,噪声查询被分为三类:
  • 低不确定性样本(正样本, Pos):当噪声查询与其对应的地面真实边界框的3D loU值超过上限阈值
  • 高不确定性样本(负样本,Neg):当3DIoU值低于下限阈值( )。
  • 忽略样本(Ign):当loU值介于两个阈值之间时,由于这些样本不能提供明确的确定性或不确定性指示,因此在训练过程中被忽略,以避免干扰正常查询的学习。
生成的符合要求的噪声查询集合被标记为 ,并在解码器中处理:
在优化过程中,正样本和负样本的损失计算如下公式(6)所示:
其中,正样本的分类损失和边界框损失分别为 ,负样本的分类损失为 。此外,UQD还借鉴了DN-DETR中的注意力掩码机制,用于分离匹配部分和去噪部分,以保证信息安全。

(4)不确定性减少的查询初始化(Uncertainty-reduced Query Initialization, UQI):利用从网络训练中获得的确定性先验(2D物体位置和深度信息)来增强查询初始化的质量。UQI通过共享的图像骨干网络和特征金字塔网络(FPN)提取多视图图像的特征,然后引入了两个2D目标检测和深度预测辅助任务:

其中 表示 2D 边界框, 表示深度信息。 检测模块基于YOLOX架构;深度网络则使用多个残差块来进行预测,训练目标由 检测损失和深度损失组成:
接下来将 2D 检测结果与深度预测结合,估计出 3D 位置 。初始查询 输入后续的跟踪初始化。结合三维位置,初始化和传播过程改进为:
(5)整体优化 (Overall Optimization) :优化目标结合了多个损失项,通过加权组合的方式进行最终的损失计算:
其中各个损失的含义:
  • : 这是目标对象的分类损失和边界框损失。
  • 分别对应不确定性(感知)概率解码器(UPD)、不确定性引导的查询去噪 (UQD)以及不确定性减少的查询初始化(UQI)模块的损失项。
  表示相应损失项的权重系数。
Experiments
和PF-Track的感知结果对比。
多个摄像头视角下检测和跟踪场景中的多种目标(如行人、车辆等),右侧为雷达点云数据中的目标跟踪情况。
本期结语
李小毛理解,本项研究工作是挺“硬”的!首先是不确定度的编码,然后Transformer的改进(加了一个不确定注意力层),最后是使用目标三维框作为先验,每一个研究点都值得详细斟酌!我们会持续分享类似的优秀研究成果!
往期回顾
CVPR 2024 | 理想汽车方案:场景数据检索方法处理长尾问题
Co-Driver:使用Qwen-VL(通义千问)实现辅助驾驶
ECCV 2024 | 弃用低精地图?EP-BEV:跨视角地图定位方案
ECCV 2024 | GeMap:矢量化高精地图在线构建
百度智驾 | 跨模态匹配算法实现厘米级高精定位!
如果对你的开发、科研有帮助,拜托拜托关注我们,我们将持续奉上优秀的端到端自动驾驶领域研究的分享干货!

温馨提示:点赞=学会,收藏=精通
点击在看,我们一起充电!

端到端自动驾驶
关注AD(Autonomous Driving)行业最前沿的人工智能解决方案,致力于打造为一个自动驾驶从业者及相关科研学者们的课外充电,技术分享,以及社区交流的服务平台!
 最新文章