顶刊 IJCV | S2P3：基于偏振光的自监督姿态预测

科技 2024-10-18 10:06 中国香港

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

S2P3: Self-Supervised Polarimetric Pose Prediction

S2P3：基于偏振光的自监督姿态预测

Patrick RuhkampDaoyi GaoBenjamin Busam

摘要

本文提出了一种新颖的自我监督6D物体姿态预测方法，该方法基于多模态RGB+极化图像。该训练范式包括：(1) 一个物理模型来提取极化光的几何信息，(2) 一种师生知识蒸馏方案，以及(3) 通过可微渲染和可逆物理约束形成的自我监督损失公式。两个网络都利用极化光的物理特性来学习鲁棒的几何表示，通过编码从我们的物理模型派生的形状先验和极化特性。来自教师网络的几何伪标签支持学生网络，无需标注的真实数据。通过可微渲染器获取对象的密集外观和几何信息，与预测的姿态直接耦合进行自我监督。学生网络还具有我们提出的物理形状先验的可逆公式，这使得通过与极化输入图像比较得出的极化特性的物理约束，能够实现端到端的自我监督训练。我们特别关注光度学上具有挑战性的对象，包括无纹理或反射表面和透明材料，这些对象的性能提升最为显著。

1 引言

"要有光，就有了光"。光一直是历史上许多重大科学发现的基础。早期的日晷利用从太阳投射下来的不断变化的影子来测量时间，跨越了几个世纪和全球不同的文明。基于电磁波（EM）恒定速度的原理，通过测量光脉冲发射后反射回来的时间，可以确定物体的距离。然而，由于反射材料、环境光或通过玻璃等透明物体时的内在错误估计等因素，测量会受到多径干扰（MPI）等伪影的影响。这导致对光度学上具有挑战性的对象的深度估计不准确。尽管如此，许多从图像中学习几何任务的方法还是使用这些深度数据中的几何信息。

6D物体姿态估计就是这样一种几何任务，在许多计算机视觉和AR应用中至关重要，范围从机器人技术到安全关键的自动驾驶和医疗应用。最近的方法将几何信息直接作为输入，或者利用它进行自我监督。可靠的几何线索可以提高姿态估计的性能，而不可靠和嘈杂的深度信息会干扰神经网络已经学会提取的信息。

最近的方法通过学习极化光的几何信息，以监督的方式进行6D物体姿态估计任务。在光度学复杂的对象的情况下，研究表明，测量深度的恶化甚至不如使用这种模态，最终使直接的几何测量变得过时。作者报告了对于无纹理、反射和半透明对象的印象深刻的结果，超过了现有的仅RGB和RGB-D方法。然而，需要大量的带有真实注释的训练数据集，这在实践中可能很难获得，尤其是高精度的。在中，我们研究了神经网络如何从多模态极化相机捕获的极化光中编码几何形状先验，以完成6D物体姿态估计任务，而无需标注的真实数据。我们利用上述监督极化6D物体姿态估计方法作为教师网络，并仅在合成渲染的极化图像数据上进行预训练。然后，我们利用其在真实数据上的嘈杂预测，以支持学生网络以弱标签为指导。采用可微渲染器实现自我监督，提供密集的几何线索。此外，我们提出了物理极化模型的可逆公式，通过可微渲染的学生和预测的6D姿态的不同，分析地计算像素级图像特征。这种分析性反转关闭了自我监督循环，并允许与输入极化直接比较，如图1所示。

虽然我们采用了PPP-Net的架构作为教师网络，并增加了一个可微渲染器，但与Gao等人不同，我们仅使用这个网络来训练合成数据。然后，这个预训练模型在真实数据上产生对象的6D姿态预测，这些预测在我们提出的师生方案中被用作弱标签。基于PPP-Net的教师网络因此只是这里介绍的整体方法的一个要素。受到自我监督学习和不同渲染器在端到端学习流程中的使用的进步的启发，例如在Self6D++中，我们将这些知识转移到极化的多模态成像领域。与Self6D++不同，后者的渲染器产生几何信息以深度图的形式，然后与来自主动深度传感器的假定嘈杂深度图进行比较，我们仔细研究了光的物理特性，并将编码的形状先验整合到自我监督方案中。这是通过从表面法线信息中物理属性的可微分析派生出来的。因此，的完整流程包括(a) 新的架构设计，用于编码从PPP-Net扩展到学生-教师方案的物理形状先验；(b) 将RGB不可知的形状信息作为表面法线图从可微渲染器中整合，为光度学复杂的对象提供了一种更坚韧的替代方案，以应对主动深度传感器提出的问题；(c) 包含来自教师网络的几何和姿态信息形式的弱伪标签，用于自我监督；最值得注意的是，(d) 提出了一个反转的物理模型，利用形状先验。轻量级学生网络预测并编码这些信息到表面法线表示中，通过可微渲染器。然后，这个编码的表示被用来派生对象的分析极化表示。通过将这种表示整合到新的物理损失中，我们使用原始极化图像实现了完全的端到端自我监督。总之，我们的贡献是：

作为一种混合神经物理方法，通过自我监督学习，使用来自多模态数据的几何形状先验的神经编码，学习具有光度学挑战的6D物体姿态预测。
通过在不同光度复杂性的对象上进行广泛的实验，洞察可微渲染与可逆物理模型的相互作用。
一个实例级合成极化图像数据集，用于6D姿态估计，包括PPP-Net和PhoCal中存在的对象。

2 相关工作

我们回顾了极化成像和6D物体姿态估计领域的相关工作，包括相关数据集和最近的自我监督方法，以在研究领域提供坚实的概述。

2.1 极化成像

早期关于从极化中提取形状（SfP）的工作研究了极化与物体表面之间的关系如何用于估计表面法线和深度信息，但侧重于实验室场景，环境条件受到控制。这些方法仅依赖单目极化图像，但也可以用于SfP的多视图，也扩展到从自由移动相机的深度估计。在Verdie等人中，目标是以（部分）监督的方式，使用主动结构光传感器的深度测量，同时利用多模态输入来考虑影响深度预测的其他伪影，为户外场景中光度学简单的对象预测密集深度。极化图像也与立体或单目RGB的光度信息相结合，以补充彼此的深度预测。极化光也可以改善其他传感器的初始嘈杂深度图。Ba等人使用神经网络计算一组可能的线索，从极化图像中预测表面法线，该网络可以为SfP消除这些线索的歧义。Lei等人提出了一种从单个极化图像进行场景级表面法线估计的新方法。通过引入一个独特的真实世界数据集，并采用具有多头自注意模块和视图编码的先进神经架构，该研究在复杂场景中取得了卓越的性能。我们的方法受到这些发现的启发，以补充从极化光中提取的物理属性的形状先验，用于姿态估计。

2.2 6D物体姿态估计

基于密集对应关系的方法近年来在6D物体姿态估计中变得流行。关键思想是训练一个神经网络来预测图像中每个对象像素与对象表面相应点的3D位置之间的2D-3D对应关系。这些对应关系随后被用来通过PnP+RANSAC、Umeyama算法或直接回归来计算6D物体姿态。ZebraPose提出了分层特征表示，并且还在研究6D姿态估计任务的零样本方法。许多基于对应关系的方法受到基于RANSAC的姿态求解器的计算成本高昂的后处理的限制。GDRNet及其后续的SO-Pose使用基于学习的MLP网络直接从预测的密集对应关系预测目标姿态，以提高计算效率。在中，我们基于这些发现直接回归对象姿态。

2.3 几何深度信息

FFB6D（He et al., 2021）引入了一种紧密耦合策略，通过关键点提取利用深度的几何信息进行跨模态信息交换。其他方法，如Uni6D、ESA6D、FS6D和DGECN也将深度信息纳入其预测流程。然而，这些方法都严重依赖于深度质量，这对于光度学上具有挑战性的对象来说是不利的。极化的几何线索可以缓解这些问题。

2.4 自我监督

自我监督学习避免了缺乏适当标记数据的问题。在6D姿态估计领域，可微渲染被用来渲染具有预测姿态的合成图像以与输入图像进行比较。Self6D（Wang et al., 2020）提出了这样的一种方法，其中一个网络首先在合成RGB数据上训练，然后在没有姿态注释的真实RGB-D数据上进行自我监督的微调。他们使用深度数据对齐视觉和几何线索，这是自我监督阶段的核心部分。在Self6D的基础上，Self6D++将单阶段姿态回归主干替换为两阶段GDR-net主干，并在教师网络之上引入了一个姿态细化器，以提高准确性和对遮挡的鲁棒性。

2.5 极化6D姿态预测

随着最近发布的针对真实世界极化类别级和实例级6D姿态估计的注释数据集，现在可以研究这种大部分未探索的成像方式的方法。PPP-Net研究了使用极化进行监督对象姿态估计的优势，并设计了一个混合流程，通过结合物理模型线索和学习，为光度学上具有挑战性的对象提供了令人印象深刻的性能，与RGB和RGB-D基线相比。然而，获取具有准确注释的真实训练数据仍然困难，对于没有复杂和昂贵硬件的其他学者来说不容易复制。受到监督学习中极化信息优势的启发，我们研究了将这种有趣的模态整合到自我监督方案中的逻辑上，但非平凡的下一步，以减少对注释数据的需求。与Self6D和Self6D++不同，我们利用极化图像，并扩展了可微渲染器，以产生除了外观信息之外的几何表示，以对象感兴趣区域的法线图形式。我们进一步利用这种表示来计算用于我们提出的可逆物理模型的附加自我监督的极化属性。据我们所知，我们提出了第一种利用极化中的几何信息进行自我监督学习方案的方法。

3 极化物理模型

计算机视觉中常用的传感器通过发送或接收光来测量特定光谱内的波长和能量。此外，电磁波的相对振荡定义了其极化。发射的非极化自然光在从表面反射后变为极化的，因此它携带了关于物体表面特征的信息。由于成本效益和易于集成到各种设备中，RGB-D传感器在姿态估计中的使用变得流行。这些传感器利用主动照明进行深度测量，无论是通过投影图案还是通过飞行时间测量。然而，它们容易受到透明性和反射等光度学挑战的影响，这可能导致光子往返时间人为延长或投影图案恶化。本文通过使用RGB-P传感器的极化表面法线来解决这些挑战。

3.1 RGB-D的光度学挑战

商业深度传感器依赖光度学测量来估计深度，通过投影图案（例如，Intel RealSense D系列）或使用飞行时间（ToF）测量（例如，Kinect v2/Azure Kinect，Intel RealSense L系列）的主动照明。这使它们容易受到反射和透明性等挑战的影响，这些挑战可能会人为延长光子的往返时间或恶化投影图案。结果，在这些场景中实现准确的深度估计变得不可行。

3.2 从极化中获取表面法线

大多数人造和自然光是非极化的，这意味着电磁波在所有垂直于光传播方向的平面上振荡。当非极化光通过线性偏振器或从表面以布鲁斯特角反射时，它变得完全极化。材料的折射率决定了光在其中传播的速度，它被反射的程度以及该介质的布鲁斯特角。当光以与入射光线相同的表面法线角度反射时，我们称之为镜面反射。剩余的部分作为折射光穿透物体，当它穿过介质时变得部分极化。这种光波从物体中逸出并产生漫反射。

3.3 图像形成模型

我们提出了基本的极化图像形成模型和我们的可逆物理模型，该模型将极化和几何表示联系起来。当具有特定强度和波长的光到达传感器时，它通过将光分离成RGB波段的彩色滤光片阵列（CFA）。入射光还具有极化度（DoP）和极化方向（角度）。当光通过具有四种不同极化角度

的像素单元上方的偏振器阵列时，光的振荡状态与其波长和能量一起被记录。极化图像形成模型定义了对捕获的极化强度有贡献的基本参数为：

其中非极化强度可以通过在不同的极化滤光片角度

下平均极化强度来计算。极化度（DoP）和极化角（AoP）可以从一组在不同极化滤光片角度下捕获的极化图像的线性最小二乘系统中求解。

在线性系统中的未知数表示，和。我们使用线性最小二乘法从过度确定的线性方程组中找到和。

根据表面属性，AoP被计算为：

其中表示歧义，是表面法线的方位角。我们可以通过考虑弗雷斯内尔系数进一步将观察角与极化度联系起来，因此DoP同样由：

其中是观察物体材料的折射率。求解，我们可以检索到三种解，一个用于漫反射情况，两个用于镜面反射情况。对于每种情况，我们现在可以通过计算表面法线来找到表面的三维方向：

3.4 可逆物理模型

反转模型，并假设给定了物体的法线图，我们定义了一个可逆解，以解析方式求解偏振表示。这有助于通过将网络的预测通过可微渲染器转换为几何形式，并进一步转换为编码的光反射物理属性，从而在自监督方案中与原始输入信息进行比较，实现闭环。可逆物理模型旨在通过考虑不同反射属性的渲染对象表面法线图，从另一端实现闭环，以解析偏振参数。我们从中获取观察角，其中是渲染的对象表面法线图，观察向量定义为，作为像素的反投影操作，相机内参为。然后通过漫反射和镜面反射情况的公式推导出分析的 DoP ：

其中是由物体材料的折射率定义的常数。可逆物理模型提供了通过物体形状线索优化模型的可能性，与主动深度传感器相比，在光度学挑战性场景中更为稳健。

4 方法论

的目标是在不依赖于标注的真实数据的情况下实现 6D 物体姿态预测。为了实现这一点，提出了一种师生训练方法，该方法利用在合成数据上的预训练以及在自监督期间来自教师的伪标签，如图 1 所示。通过额外结合我们提出的可逆物理模型进行自监督，充分利用了编码在偏振图像中的几何数据。本节概述了基于偏振的学习对象姿态的混合管道，并详细解释了物理诱导的自监督方法。

4.1 网络架构

由一个容量较大的教师网络和一个轻量级的学生网络组成，如图 7 所示为示意图概览。两个网络都预先在合成数据上训练，而教师后来在真实数据上提供伪标签以自监督方式指导学生网络。详细的架构展示了与 6D 物体姿态估计社区中已建立的师生训练方案相比的重要扩展、修改和重要设计选择。

4.1.1 教师网络

受 PPP-Net 架构的启发，我们提出了我们的偏振网络，扩展了可微渲染器，作为的教师。在这里，偏振强度和几何形状先验通过单独的输入头进行编码，然后通过明确的解码器预测物体掩模、物体法线图和密集对应关系作为归一化的物体坐标图。这些表示的空间和形状相关性作为输入提供给物体姿态估计模块，在该模块中预测的旋转向量以 allocentric 连续 6D 表示的形式参数化，预测的平移作为比例不变向量。我们进一步将它们转换为标准旋转矩阵和平移向量，并表示最终姿态为。在这里，我们扩展了 PPP-Net 的神经网络。为了从预测的姿态计算像素级几何伪标签，可微渲染器采用物体的 CAD 模型和作为输入来渲染物体掩模和物体法线图。所有预测和渲染的数量都作为学生网络的弱伪标签。

4.1.2 学生网络

我们提出了一个轻量级的学生网络，没有显式的几何解码器，与 Self6D++ 不同，网络直接为学生预测姿态。这也有利于快速推理，同时保持高准确性。教师网络大约有 550 万个权重，而我们的轻量级教师不需要显式的解码器，从而将网络减少到大约 500 万个权重。虽然参数数量没有显著减少，但通过不预测中间几何表示，推理时间和姿态预测准确性都得到了极大的提高。

4.2 物理诱导的自监督训练方案

如前所述，偏振图像包含丰富的信息，我们向网络提供这些信息作为显式表示，以学习神经几何编码。本节定义了如何进一步利用这些表示，并将其整合到我们的物理诱导自监督方案中，首先是通过教师网络的隐式和显式弱伪标签，其次是通过直接耦合，将循环闭合到管道的输入信息。

4.3 损失公式

我们提出的优化方案包括两种互补的范式。第一种是将预训练教师的知识以姿态和相关物体形状知识的弱标签形式传递给学生，我们将其定义为伪标签损失。第二种是利用反转物理模型通过原始偏振数据优化学生预测，我们详细说明了下面的物理损失项。

为了解决解码形状知识和姿态知识之间的潜在不对齐问题，我们比较预测的掩模和渲染的掩模，并将差异归一化为标量值，这作为选择几何正则化项的伪真实标签的标准和整体学习目标中的动态权重项。最终公式为：

其中：

我们定义为均方误差和余弦相似性损失。如果在预定义阈值内，则选择渲染的表示作为几何的伪真实标签，否则选择预测的表示，这也导致对直接伪姿态损失的权重因子减少。

4.3.1 物理约束

为了通过可逆物理模型实现自监督，渲染的几何法线图作为输入，用于根据等式 6 解析漫反射和镜面反射的 DoP。为了从偏振成像的基本物理过程中受益，我们部署了一个像素级最小选择机制，灵感来自：

为了避免分析求解的强度图和真实偏振图像之间的域间隙，我们直接基于偏振属性而不是偏振强度制定损失函数。因此，学生的输出被优化以与真实偏振图像中的原始 DoP 对齐。整体损失结合了教师的知识和原始数据：

5 实验结果

我们对实例级偏振6D姿态数据集进行了广泛的评估和消融研究，PPPNet为此提供了一个强有力的基线，与RGB-only和RGB-D的最先进监督方法相对比。本节首先说明训练的实现参数，概述合成数据集的生成，并描述了真实的偏振数据集。详细讨论了真实数据上的定量结果，并分析了不同损失项和模态的广泛消融。我们的实验特别研究了在自监督方案中，偏振物理线索对不同光度复杂性的对象进行实例级6D物体姿态预测的影响。偏振图像和自监督方案都是6D姿态估计中大部分未探索的领域。因此，我们将监督学习的PPP-Net和在RGB和RGB-D数据上训练的自监督Self6D++作为比较的强基线。

5.1 合成数据生成

给定一个物体的CAD模型，我们随机采样其上半球面的相机位置进行渲染。为了进一步强化现实感的渲染并减少域间隙，我们在Mitsuba2渲染器中设置具有不同纹理和照明位置的背景，以获取每个对象200-800组偏振图像。合成数据集用于预训练教师和学生网络。我们根据实际设置中使用的相机，渲染了一组四个具有不同偏振滤波器角度的偏振图像。

5.2 训练

我们详细说明了训练的两个阶段："合成预训练"和"真实数据上的自监督训练"。前者使用合成数据上的6D姿态注释进行教师和学生网络的单独监督预训练。在后一阶段，我们利用真实数据通过我们提出的新训练方案和损失函数以自监督的方式训练学生网络。

5.2.1 合成预训练

教师和学生模型都经历了一个预训练阶段，在这个阶段，他们仅基于合成数据的6D姿态信息接受监督。

5.2.2 自监督训练在真实数据上

在真实数据上进行自监督训练的阶段，我们利用了由 Gao 等人 (2022) 引入的实例级 6D 姿态估计数据集的一个特定分割，该数据集包含了不同光照特性的对象，并且这些对象的注释是通过机器人正向运动学得到的，具有高度的准确性。

5.2.2.1 训练细节

我们实现了两个阶段的训练流程：首先是在合成数据上进行的有监督预训练，其次是在真实数据上进行的自监督训练。在自监督训练阶段，我们采用了由教师网络生成的预测作为学生网络的弱标签。这种策略允许学生网络在没有真实标注数据的情况下进行训练，并且能够从教师网络学习到姿态估计的相关特征。

5.2.2.2 损失函数的作用

我们提出的损失函数结合了教师网络提供的伪标签损失（pseudo label loss）和物理损失（physical loss）。伪标签损失通过比较学生网络的预测和教师网络的预测来计算，而物理损失则利用了我们提出的可逆物理模型，通过比较预测的几何法线图和从偏振图像中直接计算得到的 DoP 来优化学生网络的预测。

5.3 实施细节

我们的模型实现基于 PyTorch，并在配备了 NVIDIA 2080 GPU 的桌面 PC 上进行训练，使用了 Intel i7 CPU 处理器和 32GB RAM。教师和学生网络在合成数据和真实数据上分别训练了 100 个 epoch，每个对象单独训练。

5.4 折射率

折射率是与材料相关的系数，对于每个对象都是特定的，并且列在了表 1 中。这个系数作为输入，同时用于我们的正向和反转物理模型中。

5.5 评估指标

我们使用平均可区分模型点距离（ADD）指标来评估结果，这个指标对于非对称物体是常用的。在本研究中，我们将物体直径的 10% 设为阈值，以判断模型点经过变换后的平均偏差。

5.6 定量结果：基线比较

提出了一种新颖的方法，利用偏振图像进行自监督的 6D 物体姿态估计，特别关注那些在光度学上具有挑战性的对象。这些对象由于表面特性，如无纹理或反射性表面，以及透明材料，常常使得传统的基于 RGB 或 RGB-D 的方法在深度估计上出现困难，从而影响到姿态估计的性能。在这些情况下，由于传感器数据的固有伪影，自监督的 RGB-D 方法可能会失败。

本研究中，我们选择监督学习的 PPP-Net 和自监督的 Self6D++ 作为对比基线。PPP-Net 是一个利用偏振光的监督学习网络，它通过物理模型线索与学习相结合的混合管道，在光度学上具有挑战性的对象上取得了令人印象深刻的性能，与 RGB 和 RGB-D 基线相比具有显著优势。然而，获取带有准确标注的真实训练数据在实践中可能具有挑战性，且对于其他学者而言，如果没有复杂和昂贵的硬件，可能难以复现。

Self6D++ 是一个自监督学习方法，它通过使用可微分渲染器生成的合成图像来训练网络，无需真实数据上的姿态标注。它首先在合成 RGB 数据上训练网络，然后在真实的 RGB-D 数据上进行微调，以一种自监督的方式进一步提升网络性能。Self6D++ 通过引入一个姿势细化器来提高对遮挡的鲁棒性，并改善准确性。

我们的方法在真实数据集上的表现超越了这些基线方法，特别是在处理光度学上具有挑战性的对象时。我们通过精心设计的师生架构和提出的可逆物理模型，利用偏振图像的属性，而不是原始的偏振数据，减少了域间差异，从而在自监督学习方案中实现了这一成果。通过广泛的消融研究，我们验证了我们方法的贡献，并展示了在 6D 姿态估计任务中，通过几何和物理线索进行自监督的重要性。

5.7 消融研究

我们的评估包括几个消融研究，以分析我们模型组件的细微差别。我们特别关注了合成数据和真实数据域之间的性能变化，尤其是在缺乏自监督的情况下，以回答以下问题：当分别在合成或真实数据上以监督方式训练时，学生和教师网络在真实数据上的表现如何，以及在仅在合成数据上进行监督并在真实数据上执行自监督时获得多少性能增益。

5.7.1 域偏移消融：的自监督

本消融研究的目的是评估自监督方法对于域偏移的敏感性。为此，我们分别独立训练了学生和教师网络，不采用训练方案中的联合训练策略。具体来说，这些网络没有使用可微渲染器生成的几何伪标签，而是仅依赖于合成数据上的姿态估计标注进行有监督预训练。通过这种方式，我们可以分析在缺乏真实数据自监督信号的情况下，网络在真实数据上的表现。

在表 3 中，我们总结了这些消融实验的结果。我们观察到，当学生和教师网络仅在合成数据上进行训练时，它们在真实数据上的表现存在一定的局限性。这表明，尽管合成数据可以提供丰富的训练样本，但真实数据的特定属性和噪声模式仍然需要通过网络学习以实现最佳性能。

此外，我们还发现，当学生网络使用来自教师网络的弱标签进行自监督训练时，其在真实数据上的表现有显著提升。这验证了训练方案中自监督机制的有效性，尤其是在处理光度学上具有挑战性的对象时。

通过这些消融实验，我们进一步理解了方法在不同训练设置下的行为，以及自监督学习在提高模型泛化能力方面的重要性。

5.7.2 网络架构消融：交换学生

在本消融研究中，我们探讨了网络架构对于性能的影响。特别是，我们分析了轻量级学生网络与通常用作教师网络的更复杂网络架构之间的差异。这一研究的动机是理解在快速推理需求下，网络大小和复杂性如何影响模型性能。

为了进行这项消融研究，我们将中的学生网络架构更换为与教师网络相同的架构。这种改变涉及到引入了一个显式的几何解码器和中间几何表示，这与轻量级学生网络的设计不同。我们的目标是评估这种架构变化对于模型在真实数据上性能的影响。

通过这种架构的交换，我们发现了几个关键的观察结果。首先，使用更大网络架构的学生网络在几何任务上的表现有所提高，这可能是由于其增强的容量来编码和处理更复杂的几何信息。然而，这种性能的提升伴随着推理时间的增加，这可能对需要实时或近实时反馈的应用场景构成挑战。

其次，我们观察到，尽管大网络的学生在某些方面表现更好，但在快速推理方面，轻量级学生网络仍然具有优势。这强调了在设计自监督学习模型时，需要在模型复杂性、推理时间和最终性能之间做出权衡。

最后，这项消融研究还揭示了方法的灵活性，即能够根据特定应用的需求调整网络架构。通过精心选择网络的大小和复杂性，我们可以为不同的应用场景定制，以满足它们对性能、速度和准确性的不同要求。

通过这些发现，我们更深入地理解了在不同网络配置下的行为，并为未来在不同应用中优化提供了有价值的见解。

5.7.3 消融在损失项

为了深入理解各个损失项对性能的具体影响，我们进行了一系列的消融实验。这些实验通过在自监督训练阶段逐一排除特定的损失项，来评估每项对最终结果的贡献。

在我们的方法中，总损失是伪标签损失（）和物理损失（）的结合。伪标签损失进一步细分为姿态损失（）和几何损失（），其中几何损失包括掩模损失（）和法线损失（）。通过逐一移除这些损失项，我们能够观察到网络性能的变化，从而评估它们各自的重要性。

当我们从总损失中移除姿态损失（）时，网络将不会受到姿态预测准确性的直接监督。这可能导致姿态估计的退化，因为网络不再有明确的信号来优化姿态预测。

几何损失，包括掩模和法线损失，为网络提供了关于物体形状和表面结构的直接信息。移除这些损失项可能会削弱网络对物体几何特性的理解能力。

物理损失（）通过可逆物理模型将预测的几何法线图与原始偏振图像的物理特性进行比较。如果这一损失项被移除，网络将失去根据物理特性进行自我监督的能力，这可能会影响其对偏振图像特性的准确捕捉。

通过这些消融实验，我们发现所有损失项都对网络的性能有显著贡献。特别是，物理损失在我们的自监督框架中起着至关重要的作用，它确保了网络能够根据偏振图像的物理特性进行学习。这些发现帮助我们理解了不同损失项在中的作用，并为进一步优化模型提供了有价值的见解。

5.7.4 模态消融

本部分消融研究旨在探讨不同模态对性能的影响，尤其是在处理特定类型物体时每种模态的重要性。对于无纹理和透明物体，渲染的物体纹理仅为白色，因为在这些情况下物体不提供足够的视觉线索。这导致 RGB-纹理损失在我们的流程中主要转化为掩模损失。消融实验中，我们移除了 RGB-纹理损失，以评估其对模型性能的影响。深度信息为物体的姿态估计提供了有力的几何线索。为了分析深度监督的重要性，我们使用直接飞行时间（D-ToF）传感器捕获的深度图来训练网络，并将其与基于偏振图像的物理诱导自监督损失方法进行了比较。这种消融实验帮助我们理解深度信息在不同光照和表面条件下对姿态估计准确性的贡献。通过这些模态消融实验，我们观察到每种模态都对模型性能有其独特的贡献。RGB-纹理监督虽然在无纹理物体上受限，但仍然为模型提供了有用的物体形状信息。深度监督为模型提供了准确的几何信息，有助于提高姿态估计的精度。然而，当深度信息不可靠或存在噪声时，依赖深度监督可能会带来性能上的不稳定。相比之下，方法通过利用偏振图像的物理特性，即使在光度学上具有挑战性的情况下，也能够实现稳健的姿态估计。

这些发现强调了在设计自监督学习框架时，考虑不同模态的互补性的重要性。通过综合利用多种模态信息，我们可以提高模型对各种物体和环境条件的泛化能力。

5.7.5 运行时间分析

在对网络的效率进行评估时，我们考虑了实际的运行时间，这对于实时应用尤为重要。实验在一个配备 Intel i7 4.20GHz CPU 和 NVIDIA 2080 GPU 的桌面 PC 上进行。对于给定的 512 × 612 像素图像，我们的学生网络能够以大约 7.3 毫秒的速度推断出单个物体的 6D 姿态。这一速度比教师模型快约 30%，表明我们的学生网络在保持高准确度的同时，还能实现快速的推理时间。

这种速度的提升对于需要快速物体姿态估计的应用场景非常有价值，例如在增强现实（AR）、机器人导航或自动驾驶汽车中。通过使用轻量级的学生网络，能够满足这些应用对实时处理的需求，同时仍然提供可靠的性能。

我们的运行时间分析进一步证实了方法在实际应用中的潜力，特别是在对延迟敏感的环境中。轻量级网络的设计选择，如去除显式的几何解码器，有助于减少计算负担并加快推理过程，这对于许多实际应用来说是至关重要的。

6 结论

6.1 局限性

在本研究中，尽管展示了在自监督 6D 物体姿态估计方面的潜力，特别是在处理光度学上具有挑战性的对象时，但我们也认识到该方法存在一些局限性。当深度图的质量可靠且准确时，基于深度图的空间损失项可能会比仅通过偏振进行物体形状优化带来更好的性能。这表明在某些情况下，传统的基于几何的方法可能仍然具有优势。

6.2 自监督偏振姿态预测

本文提出了，这是一个结合了可逆物理模型和数据中的神经形状提取的混合模型，用于偏振姿态估计。能够在没有真实数据标注的情况下解决实例级对象姿态估计问题。在我们的方法中，教师网络在少量合成渲染数据上预训练，通过提供弱伪标签，确保了轻量级学生网络的收敛。此外，我们使用的可微渲染器不仅提供了外观和几何输出，还实现了自监督。

在光度学上具有挑战性的对象上超越了使用主动传感器进行深度测量的方法。这是通过在师生架构中精心整合不同的设计选择，并提出利用 XoP 属性而不是原始偏振数据的可逆物理模型实现的，从而减少了域间差异。通过广泛的消融研究，我们验证了我们的贡献，并展示了在 6D 姿态估计任务中通过几何和物理线索进行自监督的重要性。这些观察结果对于无纹理、反射性或半透明物体尤为明显，这些对象的光度特性使得传统的基于 RGB 或 RGB-D 的方法面临挑战。

声明

本文内容为论文学习收获分享，受限于知识能力，本文对原文的理解可能存在偏差，最终内容以原论文为准。本文信息旨在传播和学术交流，其内容由作者负责，不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题，请及时与我们联系，我们将在第一时间回复并处理。

下载1：OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2：Python视觉实战项目52讲

在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。

下载3：OpenCV实战项目20讲

在「小白学视觉」公众号后台回复：OpenCV实战项目20讲，即可下载含有20个基于OpenCV实现20个实战项目，实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~

http://mp.weixin.qq.com/s?__biz=MzU0NjgzMDIxMQ==&mid=2247625340&idx=3&sn=e90b073cbe2766bd5e7347f658589bce

小白学视觉

哈工大在读博士的公众号，《OpenCV 4快速入门》的作者，面向初学者介绍计算机视觉基础知识、OpenCV使用、SLAM技术，深度学习等内容。