TPAMI 2024 | EPro-PnP:面向单目物体姿态估计的广义端到端概率透视n点

文摘   2024-11-17 19:00   辽宁  

点击下方PaperEveryday”,每天获得顶刊论文解读

点击加入论文投稿、写作、阅读分享交流群

论文信息

题目:EPro-PnP: Generalized End-to-End Probabilistic Perspective-N-Points for Monocular Object Pose Estimation

EPro-PnP:面向单目物体姿态估计的广义端到端概率透视n点

作者:Hansheng Chen; Wei Tian; Pichao Wang; Fan Wang; Lu Xiong; Hao Li

源码链接:https://github.com/tjiiv-cprg/EPro-PnP-v2

论文创新点

  • 1 概率PnP层的提出:本文提出了EPro-PnP,这是一个用于通用端到端姿态估计的概率PnP层。该层能够在SE(3)流形上输出具有可微分概率密度的姿态分布,从而克服了传统PnP问题在姿态歧义情况下的非可微分性。
  • 2 端到端学习2D-3D对应关系:EPro-PnP通过将2D-3D坐标和相应的权重视为中间变量,通过最小化预测和目标姿态分布之间的KL散度来学习,实现了从零开始学习整个2D-3D点对应关系集,包括点的权重。
  • 3 半监督训练策略和新数据集FFText-HQ:为了提高模型训练的效果并解决细粒度文本到人脸合成数据不足的问题,本文提出了一种半监督训练策略,并构建了一个新的数据集FFText-HQ,该数据集包含了精细的文本描述和对应的人脸图像。
  • 4 可变形对应网络的设计:本文展示了EPro-PnP的灵活性,通过提出一种新型的可变形对应网络,该网络能够从头开始学习2D-3D对应关系,并在nuScenes 3D物体检测基准测试中实现了最先进的姿态精度。

摘要

通过单个RGB图像定位3D物体的问题是计算机视觉中的一个长期问题。受端到端深度学习的推动,最近的研究建议将透视n点(PnP)问题解释为一个可微分层,允许通过反向传播姿态损失的梯度来部分学习2D-3D点对应关系。然而,从头开始学习全部对应关系极具挑战性,特别是在存在姿态解的歧义时,全局最优姿态在理论上对于点是非可微分的。在本文中,我们提出了EPro-PnP,这是一个用于通用端到端姿态估计的概率PnP层,它在SE(3)流形上输出具有可微分概率密度的姿态分布。2D-3D坐标和相应的权重被视为中间变量,通过最小化预测和目标姿态分布之间的KL散度来学习。基本原理概括了先前的方法,并类似于注意力机制。EPro-PnP可以增强现有的对应网络,在LineMOD 6DoF姿态估计基准测试中缩小了基于PnP的方法和特定任务领导者之间的差距。此外,EPro-PnP有助于探索新的网络设计可能性,我们展示了一个具有最先进姿态精度的新型可变形对应网络,在nuScenes 3D物体检测基准测试中。

关键字

  • 姿态估计
  • 成像几何
  • 概率深度学习
  • 3D视觉
  • 自动驾驶

I. 引言

从单个RGB图像估计3D物体的姿态(即位置和方向)是计算机视觉中的一个重要问题。这个领域通常被细分为特定任务,例如机器人操纵的6DoF姿态估计和自动驾驶的3D物体检测。尽管它们共享姿态估计的相同基础,但数据的不同性质导致了方法选择的偏见。在3D物体检测基准测试[4]、[5]上表现最好的[1]、[2]、[3]属于直接4DoF姿态预测类别,利用了端到端深度学习的进步。另一方面,6DoF姿态估计基准测试[6]主要由基于几何的方法[7]、[8]主导,这些方法利用提供的3D物体模型并实现了稳定的泛化性能。然而,将两者的优势结合起来,即训练一个几何模型以端到端的方式学习物体姿态,是非常具有挑战性的。最近提出了一种基于透视n点(PnP)方法的端到端框架。
PnP算法本身解决了从物体空间中的一组3D点及其在图像空间中的相应2D投影中的姿态问题,留下了构建这些对应关系的问题。传统的对应学习[8]、[13]、[14]、[15]、[16]、[17]、[17]、[18]、[19]、[20]利用几何先验构建了替代损失函数,迫使网络学习一组预定义的对应关系。端到端对应学习[9]、[10]、[11]、[12]将PnP求解器解释为一个可微分层,并使用姿态驱动的损失函数,以便可以将姿态误差的梯度反向传播到2D-3D对应关系。然而,现有的可微分PnP工作只学习了部分对应关系(无论是2D坐标[12]、3D坐标[9]、[10]还是相应权重[11]),假设其他组件是先验给定的。这引出了一个重要问题:为什么不以端到端的方式一起学习整个点集和权重呢?我们的直觉是:在这种放宽的设置下,PnP问题可以更好地描述姿态歧义[21]、[22],在对称物体[17]或不确定观测的情况下。然而,存在歧义时,PnP问题具有多个局部最小值。现有方法试图对姿态的点估计(一个局部最小值)进行微分,这通常是不稳定的,而全局最优解既不容易被找到也不是可微分的。为了克服上述限制,我们提出了一个广义的端到端概率PnP(EPro-PnP)模块,它使我们能够完全从头开始学习加权2D-3D点对应关系。主要思想是直接的:姿态的点估计是非可微分的,但姿态的概率密度显然是可微分的,就像分类分类分数一样。如图1所示,我们将PnP的输出解释为由可学习的2D-3D对应关系参数化的概率分布。在训练期间,预测和目标姿态分布之间的Kullback-Leibler (KL)散度被最小化作为损失函数,这可以使用自适应多重重要性采样[23]算法有效计算。作为一种通用方法,EPro-PnP本质上统一了现有的对应学习技术(第3.1节)。此外,就像注意力机制[24]一样,相应的权重可以被训练以自动关注重要的点对,允许网络从注意力相关工作[25]、[26]、[27]中获得灵感进行设计。总之,我们的主要贡献如下:
  • 我们提出了EPro-PnP,这是一个具有可学习2D-3D对应关系的概率PnP层,用于通用端到端姿态估计,能够应对姿态歧义。
  • 我们展示了通过简单地将EPro-PnP插入CDPN[18]框架,它能够轻松达到6DoF姿态估计的顶级性能。
  • 我们通过提出用于准确3D物体检测的可变形对应学习,展示了EPro-PnP的灵活性,其中整个2D-3D对应关系完全从头开始学习。
这篇扩展论文展示了改进结果的新实验和严格的消融研究。对于LineMOD上的6DoF姿态估计,向模型提供2D框大小时,通过改善不确定性处理,将姿态精度提高到超越RePOSE[7]。新的消融研究揭示了每个损失的贡献,并表明即使没有3D模型,EPro-PnP也能实现竞争性能(表2中的B2)。对于nuScenes上的3D物体检测,带有增强网络的EProPnP现在引领了单帧图像基检测器领域,消融研究强调了处理歧义姿态时蒙特卡洛姿态损失的重要性。此外,我们还扩展了对导数正则化损失的讨论。

3 广义端到端概率PnP

3.1 概述

给定一个物体提议,我们的目标是预测一组的N个对应点集,其中是3D物体坐标,是2D图像坐标,是2D权重,从中可以制定一个加权PnP问题,以估计物体相对于相机的姿态。PnP层的本质是寻找一个最优姿态(展开为旋转矩阵和平移向量),它最小化累积的加权重投影误差:
其中是包含相机内参的投影函数,表示逐元素乘积,紧凑地表示加权重投影误差。方程(1)制定了一个非线性最小二乘问题,可能存在非唯一解,即姿态歧义[21]、[22]。先前的工作[10]、[11]、[12]仅通过局部解进行反向传播,这在一般情况下是不稳定的,也不是可微分的。为了构建端到端学习的可微分替代方案,我们将PnP输出建模为姿态分布,保证可微分的概率密度。累积误差被视为似然函数的负对数:
通过额外的先验姿态分布,我们可以通过贝叶斯定理推导出后验姿态。使用在域上的均匀先验,后验密度简化为归一化似然:
方程(3)可以被解释为分类Softmax的连续对应物。

3.1.1 KL损失函数

在训练期间,给定具有概率密度的目标姿态分布,最小化训练损失的KL散度。直观地说,姿态歧义可以通过的多个模式被捕获,并且通过损失函数确保错误的模式被抑制。将方程(3)代入,KL散度损失可以重写如下:
在实践中,我们丢弃了与目标分布相关的常数,以便它实际上是一个交叉熵损失。此外,我们经验性地发现,将目标分布在以真实姿态为中心的狭窄(狄拉克式)分布上设置,会产生简化的损失(在代入方程(2)后):
唯一的剩余问题是第二个项中的积分,这在第3.2节中进行了详细说明。

3.1.2 与基于重投影的方法比较

方程(5)中的两个项分别涉及目标姿态和预测姿态的重投影误差。前者通常用作以前工作的替代损失[10]、[12]、[28]。然而,如果没有严格的正则化,仅第一项无法学习所有2D-3D点,因为最小化可能会简单地使所有2D-3D点坍塌。第二个项源自方程(3)中的归一化因子,对于一个判别性损失函数至关重要,如图2所示。

3.1.3 与隐式微分方法比较

现有的端到端PnP工作[11]、[12]通过隐式函数定理[38]推导出特定求解器的单一解,假设。在概率框架下,这本质上是拉普拉斯方法,用近似后验,其中都可以通过具有解析导数的PnP求解器估计[28]。如果被简化为各向同性,则近似的KL散度可以简化为BPnP[11]中使用的损失。然而,拉普拉斯近似对于具有歧义的非正态后验是不准确的,因此不能保证全局收敛。此外,隐式微分本身可能容易受到数值不稳定性的影响[10]。

3.2 蒙特卡洛姿态损失

在本节中,我们基于自适应多重重要性采样(AMIS)算法[23],介绍了一种适用于GPU的高效蒙特卡洛方法来处理所提出的损失函数中的积分。考虑是近似积分函数形状的建议分布的概率密度函数,是从中抽取的K个样本之一,方程(5)中的第二项的估计因此为:
其中紧凑地表示在处的重要性权重。方程(6)给出了原始重要性采样,其中建议的选择强烈影响数值稳定性。AMIS算法是更好的替代方案,因为它迭代地适应提议以适应被积函数。简而言之,AMIS利用过去迭代中的重要性权重来估计新的提议。然后,所有以前的样本都被重新加权,好像是从整体提议的总和中均匀抽取的。[23]初始提议可以通过预测姿态分布的模式和协方差来确定(见补充材料了解更多细节)。下面提供了一个伪代码。

在本文中,我们经验性地将AMIS迭代次数设置为4,每迭代的样本数设置为6DoF姿态128个,4DoF姿态(仅1D偏航方向)32个。这些超参数可以调整以平衡计算和准确性。

3.2.1 建议分布的选择

我们对位置和方向使用不同的建议分布,因为方向空间是非欧几里得的。对于位置,我们采用3DoF多元t分布。对于仅1D偏航方向,我们使用von Mises和均匀分布的混合。对于由单位四元数表示的3D方向,我们采用角中心高斯分布[39]。

3.3 反向传播

尽管反向传播可以简单地使用自动微分包实现,但这里我们分析损失函数的梯度,以便直观理解学习过程。一般来说,定义在方程(5)中的损失函数的梯度是:
第一项是目标姿态的重投影误差的梯度,第二项是预测姿态分布上重投影误差的期望梯度,这可以通过在蒙特卡洛姿态损失中反向传播重要性权重来近似。

3.3.1 平衡不确定性和判别力

考虑对应权重的负梯度:
其中(未加权重投影误差),表示逐元素平方。第一项带负号的表明具有大重投影误差(因此不确定性高)的对应关系应被赋予较小的权重。第二项与预测姿态上重投影误差的方差相关。正号表明对姿态变化敏感的对应关系应被赋予更大的权重,因为它们提供了更强的姿态判别力。最终的梯度是在不确定性和判别力之间取得平衡,如图3所示。现有的工作[13]、[28]在学习不确定性感知对应关系时只考虑了前者,因此缺乏判别能力。

3.4 局限性和导数正则化损失

在实践中,我们观察到KL散度损失有两个局限性:
  • 虽然KL散度是概率分布的良好度量,但现有的评估协议都是基于姿态的点估计。因此,对于推理,仍然需要通过求解方程(1)中的PnP问题来定位后验的模式,如果仅用KL损失训练,这可能是次优的。
  • 如果仅在训练网络时施加KL损失,2D-3D对应关系是欠定的。如果网络架构没有经过仔细设计,具有偏好的归纳偏置,学习这些纠缠元素可能会很困难。
上述局限性可以通过额外的正则化损失来缓解,该损失通过高斯-牛顿(GN)最小二乘求解器或其变体[7]进行反向传播。我们称它为导数正则化损失,因为GN是基于导数的优化器,损失因此作用于对数密度的导数,以指导GN增量朝向真实姿态。为了在训练期间使用正则化,首先获得分离的解。然后,在处评估最终的GN增量(如果已经收敛到局部最优,则理想情况下等于0):
其中是所有点的加权重投影误差的平坦化,是雅可比矩阵,等于负对数似然(NLL)相对于物体姿态的梯度,即是对数似然的Hessian矩阵的近似。我们因此设计正则化损失如下:
其中是姿态的距离度量。我们采用位置的平滑L1和方向的余弦相似度(见补充材料了解更多细节)。注意,梯度仅通过反向传播,这在相对于2D-3D对应关系是解析可微分的。这个损失不仅通过将移向来解决第一个局限性,而且还部分地解开了2D-3D对应关系。为了分析损失对对应关系的影响,我们考虑方程(10)的局部近似,假设位置和方向的权重相等:
注意也是矩阵的伪逆,可以简写为。然后,取第一阶近似,损失可以近似为:
这表明导数正则化损失类似于基于重投影的替代损失(第3.1.2节)。尽管额外的加权矩阵使重投影向量中的各个元素欠定,但在多个样本和小批量中,仍然存在独立最小化每个元素的倾向,即最小化每个对应关系的重投影误差。因此,它有助于克服与KL损失相关的潜在训练困难。
正则化损失也可以作为训练姿态估计器的独立目标,类似于RePOSE[7]。然而,由于我们观察到仅此目标在解决姿态歧义方面效果不佳,因此在本研究中被视为次要正则化。

4 实现细节

4.1 动态KL损失权重

遵循[28],我们计算LKL的动态损失权重,以便其梯度幅度与分布的熵无关。这是通过计算权重之和的1-范数的指数移动平均(EMA)来实现的,使用EMA值的倒数作为LKL的动态损失权重。直观地说,这抵消了w2D i对x2D i和x3D i损失梯度的影响。

4.2 自适应Huber核

对于方程(1)中的PnP公式,纯L2重投影误差∥fi(y)∥2对异常值敏感,这限制了模型在表示特征歧义时的多模态分布的能力。因此,我们使用Huber核ρ(·)来增强重投影误差,得到替代公式:
阈值为δ的Huber核定义为:
为了增强各种尺度的加权重投影误差的鲁棒性,我们采用自适应阈值δ,其定义为权重w2D i和2D坐标x2D i的函数:
其中相对阈值δrel作为超参数,均值向量。相应地,方程(9)中的重投影误差F(y)和雅可比矩阵J必须重新缩放(见补充材料)。

4.3 初始化

由于LM求解器仅找到局部解,初始化在处理歧义时起着决定性作用。我们实现了一个类似于RANSAC的随机采样算法,以高效地搜索全局最优解。给定N点对应集X = ,我们通过重复从多项式分布中无放回地抽取n个索引来生成M个子集,每个子集包含n个对应点(3 ≤ n < N),其概率质量函数p(i)定义为对应权重:
每个子集可以通过LM算法在很少的迭代次数内(例如3次迭代)解决姿态假设。这是作为GPU上的批量操作实现的,并且对于小子集相当高效。我们选择具有最大对数似然的假设作为初始点,从该初始点开始在完整集X上计算后续的LM迭代。

4.3.1 训练模式初始化

在训练期间,LM PnP求解器用于估计AMIS算法中初始提议分布的位置和集中度。位置对于蒙特卡洛训练的稳定性至关重要。如果LM求解器未能找到全局最优解,并且局部最优的位置远离真实姿态,则方程(5)中两个相反符号项之间的平衡可能会被打破,在最坏情况下可能导致梯度爆炸。为了避免这种问题,我们采用了一个简单的初始化技巧:我们比较了真实姿态和选定假设的对数似然,并保留了具有更高似然的作为LM求解器的初始状态。

5 基于CDPN的6DoF姿态估计

为了证明EPro-PnP可以应用于现成的2D-3D对应网络,我们在CDPN[18]上进行了实验,这是一个用于6DoF姿态估计的密集对应网络。

5.1 网络架构

原始的CDPN将裁剪的图像区域输入到姿态估计网络中,该网络附加了两个分离的头,分别用于旋转和平移。旋转头基于PnP,而平移头使用显式中心和深度回归。本文丢弃了平移头,专注于PnP,并仅修改了旋转头的最后一层,以便与基线进行严格比较。如图4所示,除了标准的3D坐标图,网络还预测了一个双通道权重图(原本是单通道分割掩码)。我们发现有必要单独预测全局尺度,并将其应用于归一化的权重,满足。直观地说,全局尺度控制了姿态分布的熵,因为它缩放了整个对数似然,而归一化权重决定了每个对应关系的重要性。这有助于克服第3.4节中提到的KL损失的纠缠效应。受注意力机制[24]的启发,通过空间Softmax激活归一化权重,关注图像中的重要区域。全局尺度通常与对象的2D尺寸成反比,由于重投影中的不确定性,在此网络中被硬编码。原始的CDPN使用掩码坐标回归损失[18]来学习密集对应关系,使用真实的对象3D模型渲染目标掩码和3D坐标图。然而,有了EPro-PnP,额外的几何监督是可选的,因为我们证明了整个网络可以仅通过KL损失和/或导数正则化损失进行训练。为了减少蒙特卡洛开销,从64×64密集点中随机抽取512个点来计算

5.2 数据集和指标

与CDPN一样,我们使用LineMOD[6] 6DoF姿态估计数据集进行实验。该数据集包含13个序列,每个序列包含大约1.2K张图像,这些图像用单个对象的6DoF姿态进行了注释。按照[36]的设置,图像被分割为训练和测试集,每个对象大约有200张图像用于训练。对于数据增强,我们使用了与CDPN[18]相同的合成数据。我们使用两个常见指标进行评估:ADD(S)和n°, n cm。ADD衡量变换后的模型点的平均偏差是否小于对象直径的某个分数(例如,ADD-0.1d)。对于对称对象,ADD-S计算与最近模型点的平均距离。n°, n cm基于角度/位置误差阈值衡量姿态的准确性。所有指标以百分比呈现。尽管数据集中的一些对象几乎具有旋转对称性,我们观察到模型能够识别它们的确切方向。因此,所呈现的结果应更接近没有姿态歧义的场景。

5.3 基线

为了进行严格比较,我们保持与CDPN[18]相同的一般设置(使用ResNet-34[40]作为主干)。如表1所示,原始的CDPN-Full (A0)使用RMSprop在3个阶段共480个周期内训练网络。去掉平移头后,我们仅在单阶段160个周期内训练旋转头(A1),这严重影响了姿态精度(45.75对63.21)。此外,我们通过在测试时使用带有Huber核的LM求解器,并增加批量大小到32来减少训练时间(A2)。我们没有使用第4.3节中的高级初始化技术,而是采用了简单的EPnP[41]初始化,没有RANSAC。

5.4 主要结果和讨论

如表2所示,我们进行了消融研究,以揭示蒙特卡洛KL损失、导数正则化损失、原始坐标回归损失在CDPN[18]中的贡献,以及使用A1中的预训练权重初始化模型。

5.4.1 KL损失与坐标回归训练

仅用KL损失从头开始训练模型(B0)显著优于使用坐标回归损失训练的基线模型(A2)(61.87对52.04),尽管缺乏来自真实对象3D模型的几何监督。

5.4.2 KL损失和导数正则化

KL损失(B0)和导数正则化损失(B1)独立表现都很好。由于LineMOD数据集中的姿态歧义并不明显,基于求解器的导数正则化损失比KL损失表现更好(63.15对61.87)。然而,结合两种损失函数(B2)可以在不知道对象几何形状的情况下实现最佳的姿态精度。

5.4.3 利用对象3D模型的知识

在B2的基础上,可以进一步施加坐标回归损失Lcrd(B4),目标3D坐标由对象3D模型渲染而成,进一步提高了姿态精度。然而,利用3D模型的更好方法是先以传统方式预训练网络(A1),然后使用EPro-PnP进行微调(B5),取得了显著更好的结果(73.87)。这种训练方案部分受益于更多的训练周期(总共2×160)。此外,在微调期间保留坐标回归损失(B6)略微提高了分数(73.95对73.87)。我们还观察到,导数正则化损失(B2)和坐标回归损失(B3)都比单纯的KL损失设置(B0)提高了结果,程度相似(67.36对67.74),因为它们都是解开的目标。

5.5 与隐式微分和基于重投影损失的比较

如表3所示,当去掉坐标回归损失时,即没有对象3D模型,隐式微分和基于重投影的损失都无法正确学习姿态。然而,EPro-PnP能够从头开始学习3D坐标和权重。这验证了EPro-PnP可以作为通用姿态估计器使用,而不依赖于几何先验。

5.6 与最新技术的比较

如表4所示,尽管我们将EPro-PnP基于较旧的基线CDPN[18],结果却比一些更先进的方法更好,例如增加了额外开销的姿态细化网络RePOSE[7]的PVNet[13]。在所有这些条目中,EPro-PnP是最直接解决问题的,因为它只解决了PnP问题本身,而不需要细化网络[7]、[8]、[43]、显式深度预测[18]或多种表示[14]。此外,从原始CDPN-Full中去掉平移头(深度预测)导致我们模型的参数数量大大减少(从113M到27M),整体推理速度是CDPNFull的两倍多(包括数据加载,以批量大小32测量),即使我们引入了迭代LM求解器。此外,如果将点数N=64×64减少到最佳水平,推理速度可能会更快。

5.7 可视化

图5展示了在LineMOD测试集上推断的方位分布、权重图和坐标图的可视化。用KL损失训练的模型(B0)预测的权重图倾向于更集中在对象的重要部分(例如洒水壶的头部和手柄),而用导数正则化损失(B1)的模型预测的权重图更均匀分布。结合两种损失函数(B2)会导致更合理的加权,以及对象几何形状的更多细节(由x3D表示)。通过额外的几何预训练和监督(B6),模型输出更清晰的对应图,这有助于提高姿态精度并降低概率姿态的熵。

6 基于可变形对应网络的3D物体检测

为了证明EPro-PnP可以从零开始学习整个2D-3D对应集,并展示设计能够处理姿态歧义的新型对应网络的可能性,我们提出了一个新颖的可变形对应网络,用于3D物体检测。该网络的名字来源于Deformable DETR[27],这是启发我们模型架构的工作。

6.1 网络架构

如图6所示,可变形对应网络是FCOS3D[44]框架的扩展。原始的FCOS3D是一个一阶段检测器,直接回归多个对象的中心偏移、深度和偏航方向,用于4DoF姿态估计。在我们的改编中,多层FCOS头[45]的输出被修改为生成对象查询,而不是直接预测姿态。受Deformable DETR[27]的启发,查询的外观和位置被分离成对象嵌入向量和参考点。此外,为了更好地区分不同类别的对象,我们学习了一组类别嵌入向量,其中一个将根据对象标签被选中,通过加法聚合到对象嵌入向量中(为了简洁起见,图6中未显示)。
有了对象查询,采用多头可变形注意力层[27]从插值密集特征图中采样关键值对,其中值被投影到点级特征(点特征),同时被聚合到对象级特征(对象特征)。点特征被传递到一个子网络中,该子网络预测3D点和相应的权重(通过Softmax归一化)。遵循MonoRUn[28],3D点被设置在归一化对象坐标(NOC)空间中,以处理各种大小的类别对象。对象特征负责预测对象级属性:(a) 3D得分(即,3D定位置信度),(b) 全局权重尺度,(c) 3D框大小,用于恢复3D点的绝对尺度,以及(d) 根据nuScenes基准测试[4]所需的其他可选属性(速度、属性)。

6.1.1 实现细节

我们采用了与FCOS3D[44]相同的检测器架构,使用ResNet-101-DCN[46]作为主干。可变形对应头预测N=128对2D-3D点。网络在nuScenes数据集[4]上用AdamW[47]优化器训练12个周期,批量大小为12张图像跨2个GPU。

6.2 损失函数

6.2.1 对应损失

可变形的2D-3D对应关系可以仅用KL散度损失学习,或与正则化损失结合使用。

6.2.2 辅助对应损失(可选)

受MonoRUn[28]的启发,我们通过附加一个小网络来预测密集采样的2D点对应的多头密集3D坐标和权重,该网络将GT中的LiDAR扫描转换为稀疏的3D对象坐标图,以便在辅助分支上施加经典的坐标回归损失损失函数都实现为高斯混合的负对数似然(NLL),以处理歧义(见补充材料了解更多细节)。

6.2.3 其他损失函数

FCOS头上的损失函数包括:
  • 基本检测器损失,包括分类的焦点损失[49]和中心度的交叉熵损失。
  • 用于回归2D参考点的平滑L1损失,目标定义为对象可见区域的中心。
  • 用于辅助2D框回归的GIoU损失[50],遵循M2BEV[51]中的2D辅助监督。
对象级预测的损失函数包括:
  • 3D得分的交叉熵损失。
  • 用于回归3D框大小的平滑L1损失。
  • 用于速度回归的平滑L1损失和属性分类的交叉熵损失。
此外,受DD3D[2]的启发,我们进一步利用可用的LiDAR数据构建辅助深度监督。通过将LiDAR点投影到相机帧中,我们从插值的密集特征图中提取点特征,然后输入到一个小型2层MLP中以预测场景深度。与第6.2.2节中的辅助对应损失函数类似,深度损失实现为高斯混合的NLL,允许对锐利边缘周围的不连续性进行建模[52]。

6.3 数据集和指标

我们在nuScenes 3D物体检测基准测试[4]上评估可变形对应网络,该基准测试提供了在1000个场景中收集的大规模数据。每个场景包含40个关键帧,注释了总共1.4M个3D边界框,涵盖10个类别。每个关键帧包括6个来自周围相机的RGB图像。数据被分割为700/150/150个场景,用于训练/验证/测试。官方基准测试通过在地面平面上的2D中心误差判断真正例,并计算平均精度(mAP)度量。mAP指标是通过在0.5、1、2、4米阈值上平均来计算的。此外,还有5个真正例指标:平均平移误差(ATE)、平均尺度误差(ASE)、平均方向误差(AOE)、平均速度误差(AVE)和平均属性误差(AAE)。最后,还有一个nuScenes检测分数(NDS),作为上述指标的加权平均值。

6.4 主要结果和讨论

6.4.1 对应损失函数的比较

如表5所示,仅用KL损失训练的模型(C0)在所有相关指标上都显著优于仅用导数正则化损失训练的模型(C1),尤其是在方向误差方面(0.332对0.607)。这归因于nuScenes数据集中存在方向歧义。即使应用了所有辅助损失函数(C2),导数正则化损失仍然无法达到蒙特卡洛KL损失的性能。将所有损失函数加起来(C3),结果可以进一步提升。

6.4.2 与最新技术的比较

在nuScenes测试集上的结果[4]如表6所示。在提交手稿时(2023年1月),根据官方nuScenes检测排行榜,EPro-PnP是无需额外数据的单帧单目3D物体检测器中的第一名。在所有使用ResNet-101作为主干的模型中,EPro-PnP以明显的优势超越了PolarFormer[55](NDS 0.481对0.470),尽管可变形对应网络基于较旧的FCOS检测器。使用测试时翻转增强(遵循FCOS3D[44]),我们的模型甚至超越了使用庞大Swin-B[56]主干的PGD[1]。由于EPro-PnP旨在提高姿态精度,因此我们的模型在mATE和mAOE指标上取得了卓越的结果,这并不奇怪,与PolarFormer相比有较大优势(mATE 0.559对0.657,mAOE 0.325对0.405)。

6.5 可视化

图7展示了在nuScenes验证集上的单目检测结果。我们观察到,红色2D点(表示X轴上更大的x3D)通常分布在对象的右侧,这主要决定了方向,而绿色2D点(表示Y轴上更大的x3D)位于对象的顶部和底部,这决定了位置(主要是深度)。看来网络学会了将对象深度与对象投影的高度相关联,因为高度在地面平面上对1D方向是不变的。图8显示了EPro-PnP的灵活性,可以预测具有强大表达力的多峰分布,成功地捕捉了方向歧义,而无需离散的多峰分类[44]、[57]或复杂的混合模型[37]。

6.6 推理时间

在RTX 3090 GPU和Core i9-10920X CPU上,每帧的平均推理时间(包括批量6个周围1600×672图像,不包括TTA)如表7所示。平均而言,批量PnP求解器在处理每帧655.3个对象之前需要26毫秒/46毫秒,才能进行非极大值抑制(NMS)。

7 局限性

使用蒙特卡洛姿态损失训练网络不可避免地比基线慢。在GTX 1080 Ti GPU上,批量大小为32的CDPN(不带平移头)使用原始坐标回归损失每个周期需要143秒,而使用蒙特卡洛姿态损失每个周期需要241秒,大约长70%。然而,可以通过调整蒙特卡洛样本数量或2D-3D对应点的数量来控制训练时间。尽管理论上可以推广到其他具有嵌套优化层的学习模型,即声明式网络[38],但随着维度的增长,蒙特卡洛姿态损失将变得不切实际。尽管EPro-PnP似乎是端到端几何姿态估计的通用方法,但应注意2D-3D对应网络的设计在模型中仍起着主要作用。例如,从图4中仅移除2D框大小就会导致姿态精度的显著下降。未来的工作可能会探索[7]、[43]、[58]中的特征度量对应关系,作为普通欧几里得重投影误差的更具表现力的替代方案。

8 结论

本文提出了EPro-PnP,它将不可微分的PnP操作转化为可微分的概率层,使端到端2D-3D对应学习具有前所未有的灵活性。与先前的工作[7]、[10]、[11]、[12]、[28]的联系已经通过理论和实验证明,揭示了蒙特卡洛KL损失和导数正则化损失的贡献。在应用方面,EPro-PnP可以简单地集成到现有的基于PnP的网络中,或激发新型解决方案,如可变形对应网络。

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。

#论  文  推  广#

 让你的论文工作被更多人看到 


你是否有这样的苦恼:自己辛苦的论文工作,几乎没有任何的引用。为什么会这样?主要是自己的工作没有被更多的人了解。


计算机书童为各位推广自己的论文搭建一个平台,让更多的人了解自己的工作,同时促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人,在我们的平台上分享自己论文的介绍、解读等。


稿件基本要求:

• 文章确系个人论文的解读,未曾在公众号平台标记原创发表, 

• 稿件建议以 markdown 格式撰写,文中配图要求图片清晰,无版权问题


投稿通道:

• 添加小编微信协商投稿事宜,备注:姓名-投稿

△长按添加 PaperEveryday 小编


PaperEveryday
为大家分享计算机和机器人领域顶级期刊
 最新文章