TPAMI 2024 | 边缘感知自监督全景深度估计Transformer与球面几何

科技 2024-10-22 14:37 广东

题目：SPDET: Edge-Aware Self-Supervised Panoramic Depth Estimation Transformer With Spherical Geometry

边缘感知自监督全景深度估计Transformer与球面几何

作者：Chuanqing Zhuang; Zhengda Lu; Yiqun Wang; Jun Xiao; Ying Wang

源码链接： https://github.com/zcq15/SPDET

摘要

全景深度估计已成为3D重建技术中的一个热点话题，因为它提供了全方位的空间视场。然而，由于缺乏全景RGB-D相机，全景RGB-D数据集难以获得，这限制了监督全景深度估计的实用性。基于RGB立体图像对的自监督学习有潜力克服这一限制，因为它对数据集的依赖性较低。在这项工作中，我们提出了SPDET，这是一个结合了变换器和球面几何特征的边缘感知自监督全景深度估计网络。具体来说，我们首先引入全景几何特征来构建我们的全景变换器，并重建高质量的深度图。此外，我们引入了预过滤的深度图像基础渲染方法来合成新视角图像进行自监督。同时，我们设计了一个边缘感知损失函数来改进全景图像的自监督深度估计。最后，我们通过一系列比较和消融实验展示了我们SPDET的有效性，同时实现了最先进的自监督单目全景深度估计。我们的代码和模型可在GitHub上找到。

关键词

边缘感知，单目深度估计，全景相机，预过滤深度图像基础渲染，自监督，球面几何。

Ⅰ. 引言

全景相机是一种能够捕获具有全方位视场的全景图像的相机。全景图像感知场景的全局上下文和完整的空间结构，因此全景深度估计已成为3D重建技术中的一个热点话题。

单目深度估计有潜力在大规模RGB-D数据集上实现高精度重建和良好的泛化能力。然而，构建大规模全景RGB-D数据集既耗时又费力，并且需要昂贵的全景RGB-D相机。因此，基于RGB图像序列的自监督学习方法已成为一种重要的发展趋势，它提供了一种低成本的解决方案。

目前，一些工作已经涉及到全景深度估计中的自监督应用。NonLocal-DPT引入自监督作为监督学习的数据增强方法，但这项工作并没有研究如何通过完全自监督学习来提高性能。SvSyn渲染了一个立体全景数据集，并且它也验证了在一般自监督框架上使用轻量级CNN模型进行自监督全景深度估计的可行性。然而，SvSyn仍然没有利用自监督方法在全景深度估计中的潜力以实现精确的性能。因此，有必要进一步研究自监督流程在全景深度估计中的应用。

我们首先尝试将最先进的监督模型引入自监督框架。我们观察到，在监督任务中显示的特点和优势在自监督框架中没有得到很好的利用，导致深度估计结果较弱。例如，卷积模型HoHoNet和UniFuse由于其对全景场景的丰富空间结构的拟合能力较弱，无法有效建模。与此同时，基于变换器的模型NonLocal-DPT和OmniFusion能够捕获全景图像的全空间上下文和长距离依赖性。然而，这些复杂的变换器模型在自监督框架中难以优化，因为它们没有很好地将变换器与全景成像模型结合起来。因此，我们引入了球面几何特征到变换器中以克服这一缺点，并通过自监督框架获得准确的深度估计。

总的来说，自监督方法合成可微的新视角图像以优化深度估计。然而，合成图像在视图转换中由于遮挡和解遮挡在物体边缘产生了不匹配的监督信号。尽管深度图像基础渲染（DIBR）通过生成与合成图像相对应的可见性掩码来过滤这些信号，但一些被遮挡的背景纹理仍然与合成的新视角图像中的前景对象混合在一起。因此，它们预测的深度图在边界处有出血伪影。此外，以前的全景自监督流程通常使用光度一致性损失和深度平滑损失来训练网络。然而，光度一致性损失的局部窗口使其更容易陷入无纹理区域的局部最优，特别是在室内环境中。同时，深度平滑损失导致预测的深度图过于平滑。因此，我们通过改进自监督的渲染方法和损失函数来解决这些问题。

在这项工作中，我们提出了SPDET，这是一个利用变换器和球面几何特征的边缘感知自监督全景深度估计网络。一方面，我们构建了具有球面几何特征的全景变换器。具体来说，我们首先将全景几何特征引入到补丁嵌入阶段并生成不重叠的标记。然后，我们设计了一个全景空间池化模块，以进一步聚合全空间上下文并重建空间中标记的位置关系。此外，我们提出了一个偏移场重采样模块，以重采样特征并生成具有清晰边缘的细粒度全景深度图。

另一方面，我们为自监督架构提出了预过滤的DIBR和边缘感知损失函数。具体来说，我们首先通过反向DIBR计算源视图图像的遮挡掩码。然后我们在前向预过滤DIBR期间过滤掉被遮挡的背景纹理，渲染出未混合的目标视图图像，以减轻由于纹理混合导致的边缘出血伪影。此外，我们设计了边缘感知损失函数，以减轻局部最优问题并加强深度边缘，同时保持深度图的局部平滑性。

总结来说，我们工作的贡献包括四部分：

我们为自监督架构中的全景深度估计构建了具有球面几何特征的全景变换器。
我们提出了预过滤的DIBR来合成未混合的新视角图像进行自监督，这减轻了自监督单目深度估计中的边缘出血伪影。
我们设计了边缘感知损失函数来减轻局部最优问题并保留更好的深度结构。
我们的自监督流程SPDET，如图1所示，实现了最先进的自监督单目全景深度估计。

Ⅲ. 方法

对于自监督单目全景深度估计，我们提出了SPDET，它由全景变换器、预过滤的深度图像基础渲染（DIBR）和边缘感知损失函数组成。在本节中，我们首先描述全景相机的球面成像模型。然后，我们引入了一个全景深度估计网络，该网络结合了变换器和球形全景几何特征来模拟全景图像的全方位上下文。之后，我们提出了一种预过滤的DIBR方法来过滤掉纹理混叠并合成新视角图像作为监督信号。最后，我们提出了一个边缘感知损失函数来减轻先前自监督损失函数中的局部最优解和过平滑问题。

A. 全景成像模型

在全景成像模型中，3D空间中的物体被投影到位于相机中心的单位球面上。如图2(a)所示，设点P的笛卡尔坐标为P = (x, y, z) ∈ R^3，则其在球面上的方位角u ∈ [-π, π]和极角v ∈ [-π/2, π/2]投影为：

其中，是反正切函数。

当我们根据(u, v)坐标对球面进行采样，如图2(b)所示，球面上的成像结果被展开成全景图像，定义为平面投影（ERP）。

相反，给定全景图像的平面投影坐标(u, v)的点p及其深度值d ∈ [0, ∞)，对应的3D点P = (x, y, z)计算如下：

B. 具有球面几何的全景变换器

我们全景变换器的架构如图3(a)所示，包括几何感知嵌入、变换器编码器、全景空间池化和卷积解码器。给定一个输入全景图像，我们首先使用ResNet50v2编码器和几何嵌入模块将其转换为标记。接下来，我们利用变换器层来模拟全局上下文。之后，我们提出了一个全景空间池化模块来进一步聚合各向异性的全局空间信息。最后，我们使用卷积解码器和融合块来生成预测深度图和偏移场重采样。

几何嵌入（GeoEmbed）：为了指导变换器来模拟全景的全方位全空间上下文，我们设计了几何嵌入（GeoEmbed）模块来用标记嵌入全景几何特征。
给定一个输入全景图I，我们首先使用ResNet50v2作为主干网络来为变换器层生成标记。注意，主干网络在1/4、1/8和1/16的下采样级别提取特征图，分别表示为R1、R2和R3。前两个特征通过重组装层并传递到解码器，而最后一个大小为1024 × H/16 × W/16的特征被转换为标记。
此外，我们附加了一个球面坐标分支来在提取特征时提供全景几何信息，如图3(a)所示。为了将ERP坐标(u, v)表示为连续的球面特征图，u和v各自需要两个三角函数sin(·)和cos(·)来表示其原始的相位信息。此外，u和v的联合表示代表球面上的一个点，而单独的一个不能表示。因此，我们引入几何信息和球面坐标的表示如下：
为了将几何表示嵌入到特征空间中，我们将G(u, v)输入到VGG19网络并提取大小为256 × H/16 × W/16的几何特征。为了适应5D输入G(u, v)，我们用一个新的卷积层替换了VGG19网络的第一个卷积层，该层的输入通道为5，并随机初始化参数。其他层用在ImageNet上预训练的参数初始化。之后，VGG19网络与完整模型一起训练。
之后，我们融合图像特征R3和几何特征FG，得到融合特征FMLP，使用一个简单的MLP如下：
其中⊗表示连接操作符，输出通道为768。
接下来，特征图FMLP被展平为标记集{t1, t2, ..., tN}，其中N = HW/256是标记的数量。最后，一个读出标记t0和一个可学习的位置编码集{p0, p1, ..., pN}被附加到标记集。因此，最终的标记集T表示为：
变换器编码器：为了提取全景图像的全局信息，我们使用变换器编码器来模拟标记之间的长距离依赖性。首先，标记T通过连续的12个变换器层来模拟长距离依赖并聚合全局信息，其中第9层和第12层之后的标记被选为变换器输出，分别标记为T9和T12。为了利用全局信息并重建类似图像的特征图，我们将t0合并到{t1, t2, ..., tN}中，使用读出操作符如下：
输出的N个标记被展平为大小为768 × H/16 × W/16的2D特征。在将2D特征图{R1, R2, T9, T12}传递到解码器之前，重组装层将其通道变换为256，并且一个步幅为2的卷积将T12下采样到256 × H/32 × W/32。
全景空间池化（PanoSP）：尽管变换器有效地模拟了全局上下文并引入了位置编码来保持标记之间的位置信息，但它们不能像卷积网络那样显式地引入标记之间的邻接关系。此外，变换器和卷积层都没有关注ERP坐标中经度和纬度的方向差异。为此，我们提出了一个全景空间池化（PanoSP）模块来进一步聚合全空间信息，并在保持各向异性的同时重建空间中标记的位置关系，如图3(b)所示。
具体来说，以T12作为输入，我们使用四个不同尺度的池化模块来聚合空间信息，每个池化模块后面都跟着一个1×1的卷积。这些池化模块包括像素级池化（即，不处理）、经度平均池化、纬度平均池化和全局平均池化，其输出特征分别表示为Fp、Flon、Flat和Fg。之后，SE层被引入以通道注意力增强特征如下：
最后，输出通道被压缩为256，以供后续的卷积解码器使用。
卷积解码器：卷积解码器使用输入特征{T'{12}, T9, R2, R1}来预测深度图。首先，在最低分辨率的融合块中，T'{12}在两个残差单元后被上采样作为下一个融合块的输入，如图3(c)所示。然后，在下一个分辨率的融合块中，T9通过一个残差单元传递并添加到上采样的T'_{12}。之后，结果特征通过另一个残差单元和上采样操作符作为下一个融合块的输入。这个过程在接下来的两个融合块中重复进行。
融合块中的双线性插值上采样在ERP坐标(u, v)上的球面上对特征图进行采样。然而，其采样点(u', v')并不反映球面特征空间(c, u, v)中的最佳采样位置，其中c是通道索引。因此，我们提出了一个偏移场重采样（OFRS）模块，以球面几何特征的指导来重采样特征图，它专注于基本特征点，如图3(d)所示。具体来说，给定输入特征Fi，我们首先引入几何图G(u, v)来提供球面几何信息。然后附加两个卷积层来预测重采样偏移场如下

重采样的特征图通过插值计算如下：

其中，(u0, v0)是全景图像坐标的标准网格。

经过四阶段的卷积解码器后，特征图被上采样到大小为256 × H/2 × W/2，最终解码器头部将特征上采样到H × W并估计输入图像I的深度图D。此外，我们在网络的所有卷积层中使用CircPad进行边界填充，并在卷积解码器中使用GELU激活。

C. 预过滤的深度图像基础渲染（Pre-Filtered DIBR）

给定源视图S中的输入源图像Is和目标视图T中的目标图像It，深度预测网络为Is生成深度图D。首先，我们将Is散射到视图T以获得新视图图像并建立DIBR的监督信号。首先，对于Is中的每个像素pi，通过(2)计算对应的3D点Pi。然后，Pi被投影到视图T中作为，其中Rs、ts、Rt和tt分别是视图S和T的旋转矩阵和翻译向量。因此，中像素位置被表述为(1)。

如图4所示，DIBR利用散射权重Wij将pi的颜色分布到I'_t周围的四个相邻像素。权重Wij表示为：

其中wij是从p'i到p'ij的双线性散射系数（与双线性插值系数相同），dmax在所有实验中设置为10米。

散射Is中的所有像素到后，我们为图像中的任何像素pj获得一组颜色和一组权重。像素pj的合成图像为：

其中ρ是用于判断像素是否被渲染的概率阈值。同样，我们计算图像I'_t中有效像素掩码M为：

然而，DIBR的合成结果存在缺陷，我们用一个简单的示意图如图5所示来说明这个问题。首先，AB被Is中的物体遮挡但在It中可见。然后，中的AB没有被渲染，当我们将Is投影到时，DIBR在合成的中生成掩码M（见红色框）其中 = 0。同时，投影的CD和EF在中混合（见混合的绿色和蓝色），因为它们在Is中可见并被散射到中的同一位置。因此，中CD的合成信号不明确，并在自监督学习中导致深度边缘附近的出血伪影。

如图6所示，图6(a)中的墙壁和门在将Is投影到I'_t时与书柜混合，使用DIBR时产生了图6(c)中显示的模糊结果。

为了解决这个问题，我们提出了预过滤的DIBR来消除合成信号CD的歧义。通过输入Is和It，投影S → T和T → S具有相反的特征，AB在视图S中被遮挡但在视图T中可见，而EF在视图S中可见但在视图T中被遮挡。我们首先为图像It预测深度图D'并执行投影T → S以获得掩码M'的T → S，其中M'_EF = 0。然后我们将M'与S → T的投影结合，(12)和(13)被更改为：

最终，引入的掩码M'过滤掉了由Is中的区域EF渲染的I'_t中的组成部分，并为CD产生了清晰可靠的纹理，过滤后的可见性掩码产生了清晰可靠的纹理。

D. 边缘感知损失函数

为了有效地约束获得的D和，以前的自监督框架使用光度损失Lphoto和深度平滑损失Lsmooth来训练网络，如下所示：

其中α设置为0.85，SSIM的窗口大小在实验中为7。

然而，Lphoto主要集中在小局部窗口中的信息。因此，在基于深度的双线性插值系数的优化过程中速度较慢。同时，SSIM和L1损失在无纹理区域的局部窗口中总是产生相似的值，并且无法在这些区域中监督网络，使其更容易陷入局部最优。此外，由Lsmooth引导的深度图倾向于在任何地方都被过度平滑，无论是在边缘附近还是不在边缘附近。为了克服这些问题，我们提出了包括内容项Lc和结构项Ls的边缘感知损失函数来训练我们的网络。

首先，我们利用Lphoto在内容项中优化和It之间的相似性。此外，为了引导网络更快地跳出局部最优，我们应用具有大接受场和高层特征的VGG特征来构建感知损失，如下所示：

其中VGG_i(·)指的是VGG19网络第i层之后的特征图，我们在所有实验中选择i ∈ {3, 8, 13, 22, 31}，相应的权重alphai为{1/26, 1/48, 1/37, 1/56, 1/1.5}。因此，内容损失Lc被表述为：

另一方面，仅依赖I'_t和It之间的相似性无法准确反映场景的空间结构。因此，我们设计了结构损失Ls，它由梯度平滑项Lgrad和边缘感知项Ledge组成，它们在深度图的平滑性和结构丰富性之间取得平衡。这两者都是使用Is在视图T中的散射坐标网格(u, v)计算的。

特别地，我们首先将Is → It的投影Is的坐标网格p' = (u', v')转换为球面上的连续表示，如下所示：

然后我们提取梯度∇S(p)和∇I_s。根据三角函数的导则，S(p')保留了三角函数的组成部分。相应地，我们使用三角函数加权Is的梯度为：

此外，Lgrad和Ledge被表述为：

之后，结构损失Ls被计算为：

最后，我们网络中的完整边缘感知损失函数为：

其中我们在实验中设置ω1 = 1.0和ω2 = ω3 = ω4 = 0.1。

Ⅳ. 实验

在本节中，我们首先介绍我们实验的实现细节。然后，我们提供与最先进方法的定量和视觉比较。最后，我们执行消融实验以验证我们网络结构和自监督策略的有效性。

A. 实现细节

我们在PyTorch平台上实现了我们的网络。网络在每次实验中用Adam优化器以lr = 0.0001和(α, β) = (0.9, 0.999)训练30个周期。除了与自监督工作进行比较外，我们还在自监督框架中训练最先进的监督模型以进行比较。这些比较实验在3D60、PNVS和PanoSUNCG数据集上进行，图像尺寸为256 × 512，批量大小为64，在8个NVIDIA TITAN RTX GPU设备上进行。最后，我们使用[12]中的球形加权度量来定量评估结果，我们的方法以19.8fps的速度推断深度图，参数为141.9 M，GPU内存为1,892 M。为了公平比较，我们调整了一些比较工作的培训策略。特别是，我们不使用CNN预测的相机姿态，而是使用数据集中的先验相机姿态来重现这些方法。此外，我们将监督模型迁移到我们的自监督框架中，并使用第三节中的损失函数和第四节中的超参数进行训练。

3D60: 3D60是一个大规模合成数据集，由包括Matterport3D、Stanford2D3D和SunCG的真实和合成数据集渲染而成。它包含超过20,000个视点的三目立体对，虚拟相机放置在中心、右侧和上方视点，固定基线距离为0.26米。在我们的实验中，我们使用包括Matterport3D和Stanford2D3D场景的真实子集，并且训练策略遵循其官方拆分。此外，我们分别提供Matterport3D和Stanford2D3D测试场景的结果。
PNVS: PNVS由Structured3D数据集中的模型合成。每个源视图对应一个房间，并可渲染到多达三个目标视图。同时，该数据集被分为两个子集，包括一个容易的子集，其中平移向量t ∈ (0.2米, 0.3米)沿随机方向，以及一个困难的子集，其中t ∈ (1.0米, 2.0米)。我们分别在两个子集上进行训练和测试，并使用官方数据拆分。
PanoSUNCG: PanoSUNCG是一个从SunCG收集的全景室内视频数据集。它包含80个训练场景和23个测试场景，每个场景由5个相机轨迹组成。整个数据集包括约25,000张图像，相应的深度图和相机姿态。

B. 比较实验

在本节中，我们首先在几个数据集上比较不同模型的定量和可视化结果，然后我们进行跨数据集的泛化测试。

定量比较：本小节比较了3D60、PNVS和PanoSUNCG数据集上的量化结果，如表I所示。在3D60数据集上，相机通过固定步骤垂直或水平移动，大多数模型表现良好。我们的SPDET在完整数据集和子集上均取得了最佳性能，其在完整数据集上AbsRel指标上超过第二名13.5%，在MAE指标上超过15.6%。与其他基于变换器的方法相比，我们将全景几何特征嵌入到模型中，以适应全景视图中的深度结构。因此，我们的SPDET网络可以更好地模拟全景图像的场景结构，并实现更准确的深度估计。在PNVS和PanoSUNCG数据集上，基于变换器的模型NonLocal-DPT和OmniFusion的表现不如卷积模型UniFuse，而我们的网络仍然保持最佳性能。因此，我们通过将全景成像模型与变换器网络结合起来，实现了更准确的深度预测，而不是依赖于大规模的模型参数。
视觉比较：在本小节中，我们可视化估计的深度图来比较不同模型的性能。如图7所示，我们的方法有效地提取了全景图像的全局上下文和场景结构，产生了结构化的墙面和完整的家具对象，如图7第2行的梁、第5行的冰箱和橱柜。同时，偏移场重采样模块产生了更好的全景上采样结果，以区分相邻空间位置的混乱特征，这允许深度图分离相邻对象并获得清晰的对象边缘，如图7第3行和第4行的沙发和桌子。

此外，我们注意到复杂的变换器模型NonLocal-DPT和OmniFusion在自监督中比其他卷积模型UniFuse更难优化，因此它们无法在第5行和第6行重建规则的场景结构和平墙面。相比之下，我们全景变换器中的球面全景几何特征指导网络有效地感知场景的空间结构，因此更容易训练出不错的自监督结果。最后，OmniFusion将全景图重投影到重叠的图像块中，这使得不同块的深度预测结果在重叠区域不一致。我们的模型在构建标记时不重叠，避免了深度补丁之间的不一致性，并获得更平滑的对象。

模型泛化：自监督深度估计的重要性在于将模型泛化到真实场景中，通过大规模训练数据。我们在3D60和PNVS数据集上进行定量泛化测试，然后将在PNVS上训练的模型迁移到真实视频序列的360Video上进行视觉比较。如表II所示，当跨数据集评估时，所有模型的性能都比表I中报告的指标差。这是因为当单目深度估计模型接受新场景中的未知对象作为输入时，很难确定图像中的纹理是位于对象表面还是具有空间结构。尽管如此，我们模型的准确性和泛化性超过了其他模型。提出的SPDET具有优越的能力来感知场景的几何结构，而不仅仅是使用复杂模型来记录训练数据的分布。

图8中的可视化进一步证明了我们SPDET的优势，它重建了更完整和清晰的家具深度，例如图8第2行和第3行中的椅子。此外，我们观察到位于相机下方的固定装置在不同模型和场景中被重建为不同的深度。在前两行中，相机固定装置倾向于被识别为房间中的家具，而在最后一行中，它被识别为地板上的纹理。

C. 消融研究

在本小节中，我们在3D60数据集上对网络结构、球面几何表示和嵌入、损失函数、预过滤的深度图像基础渲染和模型复杂性进行了消融实验。这些实验全面调查了我们SPDET网络中每个单独模块和组件的作用，比较分析证明了我们方法的有效性。

网络结构：我们首先研究了我们网络中不同模块的功能，如表III和图9所示。我们使用DPTHybrid作为基线模型，然后依次添加第三节中的GeoEmbed、PanoSP和OFRS来构建我们的全景变换器。
由于GeoEmbed和PanoSP模块专注于全景图像的全局上下文，我们可以与DPTHybrid相比重建更完整的结构（见图9(d)-(f)）。然后，OFRS模块通过优化上采样的特征图来重建细粒度的深度图，其边界更清晰，如图9(g)所示。然而，OFRS容易受到局部窗口中无结构纹理的影响，并产生多余的几何结构，如图9第一行壁画外不必要的平面。此外，这个问题通过结合GeoEmbed和PanoSP模块有效地缓解了，它们可以提取全局信息（见图9(i)和(j)）。最后，我们的全景变换器结合了上述三个模块，产生了最佳结果，如图9(k)所示。

此外，我们还研究了PanoSP模块中每个池化的作用。如表IV所示，全局特征Fg和方向特征Flon和Flat加强了PanoSP中空间结构的感知，对深度估计有显著影响。而局部特征Fp的贡献很小，因为由于池化而丢失的细粒度特征可以在跳跃连接后恢复。有趣的是，保留Flon和Flat中的一个并不能改善而是降低了准确性。这也表明，只关注单一方向的全局特征不能有效地处理全空间结构。类似的情况是，HoHoNet在压缩的水平特征中聚合全局信息，导致其深度图中出现许多带状结构。

深度监督下的性能：为了进一步证明模型设计的有效性，我们在Stanford2D3D上测试了模型的性能，并讨论了不同提出的网络结构的效果。我们采用了与UniFuse相同的损失函数、优化器和超参数。注意，为了公平比较，这里我们遵循先前监督工作中的深度评估指标，即没有球形加权的指标。如表V所示，我们的完整模型在几乎所有评估指标上都优于其他模型。它将AbsRel指标提高了2.5%，RMSE指标提高了2.4%。此外，我们观察到随着不同结构设计的引入，结果的准确性逐渐提高，这与我们在自监督中观察到的特性一致，进一步证明了模型设计的有效性。
球面几何表示：为了证明G(u, v)表示GeoEmbed和OFRS模块中球面几何信息的有效性，我们在表VI中比较了不同几何表示的影响。这些表示包括：

带有连续极点的球面几何表示
带有不连续极点的球面几何表示
正弦函数
余弦函数
球面法向量网格
UV坐标网格

其中，Guv、Gsin和G'在球面极点的表示是不连续的，这破坏了全景特征图的空间完整性和连续性，影响了深度图的场景结构。然后，Gcos和Gsin的三角函数失去了图像坐标(u, v)的部分相位信息，削弱了球面几何特征在GeoEmbed和OFRS中的指导作用。此外，球面法向量网格Gxyz，即单位球上的3D点，引入了错误的3D空间信息，因此无法很好地工作。相比之下，我们的表示只关注ERP平面上的2D位置信息，并保持了球面几何特征的连续性，取得了最佳结果。

我们还用不同的轻量级嵌入模块替换了GeoEmbed中的VGG网络，包括直接连接、MLP、卷积层和360SD-Net中的极角嵌入。首先，直接连接，即不经过可学习模块的输入，只提供了一个点的位置信息，没有空间结构的上下文，这与位置编码的作用一致。因此，它无法提供几何指导，并为模型引入了干扰信息。类似地，使用MLP和直接学习几何特征FG作为张量提供单点位置信息，也表现不佳。然后，使用卷积层提取上下文特征，或按照360SD-Net的方式输入极角几何信息，性能得到了进一步的提升。但由于参数是随机初始化的，它们无法与预训练的VGG相比提取足够丰富的特征。同时，极角不能表示图像中的二维位置信息，因此模型无法有效地从中获得不同像素之间的空间位置关系。

最后，我们讨论了使用VGG的几何嵌入和变换器中的可学习位置编码之间的差异。根据表VI中的第7行和最后一行，几何嵌入和位置编码（PE）都很重要，它们提供了非常不同的位置信息。几何嵌入包含上下文，位置编码表示标记的单个元素位置信息。同时，它们在特征空间中的分布和优化方向不一致。几何嵌入是VGG19模型从G(u, v)提取的上下文特征，受到VGG19模型参数空间的限制，而位置编码有可能优化到特征空间的任何点。

边缘感知损失函数：在本小节中，我们研究了边缘感知损失函数的不同组成，并将其与现有工作中的常见损失函数进行比较，以证明其有效性，如表VII所示。

首先，基本的光度一致性损失Lphoto受到无纹理区域的影响，无法在这些区域估计出准确的深度图。然后，深度平滑函数Lsmooth和感知损失Lperc都缓解了这一问题，参见表VII中的前三个行。不同之处在于，Lsmooth将深度值从Lphoto具有强烈置信度的纹理区域传播到具有较弱置信度的无纹理区域，而Lperc在无纹理区域实现了更高的特征区分度。此外，Lsmooth不能进一步改善Lperc的性能，因为它倾向于被过度平滑，如表VII中第3行和第4行所示。

我们还观察到，单独使用Lgrad和Ledge并不奏效，甚至会导致更糟的结果，因为它们的优化方向与全局优化方向不一致。梯度平滑项Lgrad约束了深度图的平滑性，也倾向于被过度平滑。相比之下，边缘感知项Ledge保留了深度边缘结构，但使深度图在纹理平面上不均匀，导致过度锐化并产生错误的深度边缘。它们分别在平滑区域和边缘区域起作用，因此需要适当权重的组合来弥补彼此的缺失（见表VII中的第5、6和7行）。这一特性也反映在传统的平滑损失Lsmooth中，其过度平滑的倾向也导致了在引入感知损失的前提下更糟的结果（表VII中第4行与第3行比较）。

我们进一步讨论了不同损失函数权重的影响，Lgrad的较大平滑系数或Ledge的较大锐化系数会影响结构边缘的提取。本质上，梯度平滑损失Lgrad和边缘损失Ledge可以加速无纹理区域的收敛并在训练期间保持锐利的边缘，但这两者并未针对最优解进行优化，因此会产生较大系数的过度平滑或过度锐化结果。相比之下，感知损失Lperc具有更好的优化方向，权重系数的变化对结果影响很小。

预过滤的DIBR：训练图像对的适当渲染过程对自监督深度估计的准确性有显著影响，尤其是在对象边缘。这里我们比较了不同的渲染方法。如表VII中的第7-9行所示。使用双线性插值的反向变形报告了最差的结果，因为它无法识别两个视图中的不匹配像素。在SvSyn中使用DIBR进行渲染时，深度加权遮挡过滤减少了合成图像中被遮挡纹理的干扰。然而，被遮挡的纹理仍然以较少的权重保留在合成图像中。我们的预过滤DIBR消除了渲染目标视图中由于遮挡导致的纹理混合，并生成了清晰可靠的监督图像对。这大大减轻了自监督深度估计中的边缘出血伪影，使边缘更清晰，并提高了表VII中的指标。我们还在图10中可视化了这一结果，当在训练期间逐渐通过DIBR和预过滤消除纹理混叠时，墙面的深度边缘更清晰、更锐利，而不是扩散到背景中。
模型复杂性和计算效率：这里我们比较了不同方法的模型复杂性和计算效率，如表VIII所示。提出的GeoEmbed、PanoSP和OFRS模块与基线模型相比分别引入了13.0%、4.5%和0.2%的参数。与此同时，它们在推理期间分别增加了0.2%、1.6%和3.3%的MACs。根据表VIII，GeoEmbed中的VGG提取网络为模型引入了更多的参数。但在推理过程中，只需要记录VGG的输出特征，因为输入G(u, v)是固定的，几乎没有引入额外的复杂性。尽管总体模型复杂性较高，但主要复杂性来自基线模型。最后，我们的SPDET与NonLocal-DPT具有相似的计算复杂性，但在定量和可视化方面都有较大的改进。

Ⅴ. 限制

在前面的部分中，我们展示了所提出的自监督全景深度估计算法的成功案例。然而，根据实验观察，所提出的SPDET在户外场景中的表现不佳。此外，由于缺乏深度监督，深度预测效果仍无法与监督方法相媲美。

A. 户外场景

室内场景捕获了具有规则几何布局的上下文空间结构，这指导了室内全景图像的深度估计。户外深度估计通常集中在驾驶场景上，其中全景相机倾向于捕获天空区域和用于携带相机的车辆，导致大部分内容为自监督深度估计的无效区域。在这里，我们使用来自360VO的户外视频序列进行训练和测试，以进行演示。

如图11所示，天空和无纹理的地面占据了全景的大部分内容，无法为模型提供足够的全空间结构信息。此外，场景的广泛深度分布范围使模型难以重建精细的深度。尽管如此，我们的SPDET仍然比其他模型重建了更完整、边缘更清晰的深度图。同时，我们观察到OmniFusion的预测结果中有明显的拼接痕迹，这也表明其深度一致性优化过程需要足够的深度约束，并且在某些自监督情况下失败了。

B. 深度监督

在这项工作中，我们提出的SPDET方法优化了多个自监督单目全景深度估计流程的组成部分，并实现了最先进的自监督性能。然而，由于缺乏精确的几何监督，自监督单目深度估计的性能仍然远远落后于监督模型。我们在表IX中比较了最先进的自监督和监督算法在3D60数据集上的结果，我们遵循先前监督工作中的深度评估指标，没有球形加权。

如表IX所示，我们的SPDET大大提高了自监督深度估计的准确性，超过第二名33.1%的AbsRel指标和27.6%的MAE指标。然而，SPDET仍然不如最先进的监督工作，它在AbsRel指标上落后48.4%，在MAE指标上落后54.0%。进一步缩小监督和自监督单目全景深度估计之间的差距仍然是一个关键问题。

Ⅵ. 结论

在这项工作中，我们构建了SPDET，在多个方面为自监督全景深度估计做出了贡献。首先，我们提出了具有球面几何特征的全景变换器来预测全景图的深度图。为了模拟全景图像的全方位全空间上下文，我们将球面几何表示嵌入到变换器中，通过几何嵌入。然后我们设计了一个全景空间池化模块来保留变换器提取的全局上下文，我们引入了一个偏移场重采样模块在卷积解码器中进行更有效的特征上采样。在自监督训练期间，我们提出了预过滤的DIBR来解决在合成新视图时被遮挡的背景与前景对象混合的问题。此外，我们提出了边缘感知损失函数来解决自监督深度估计中的局部最优和过平滑问题。通过上述改进，我们充分挖掘了自监督单目全景深度估计的潜力，并实现了最先进的性能。

值得注意的是，在这项工作中，我们在自监督训练中使用的相机姿态是在数据集中已知的，而不是通过网络预测的。与此同时，这些合成数据集与真实世界数据不同，因为它们不包含违反相机运动和静态场景假设的无效像素。这些真实条件将影响自监督深度估计的性能。我们将在未来的工作中讨论这些问题，并完善所提出的自监督流程，以适应更实际的场景。

声明

本文内容为论文学习收获分享，受限于知识能力，本文对原文的理解可能存在偏差，最终内容以原论文为准。本文信息旨在传播和学术交流，其内容由作者负责，不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题，请及时与我们联系，我们将在第一时间回复并处理。

编辑：PaperEveryDay

http://mp.weixin.qq.com/s?__biz=MzU0MDQ1NjAzNg==&mid=2247586612&idx=2&sn=22791c57cd4dda4392d8edac9a88f819

机器学习算法那些事

号主是大厂人工智能专家，专注于机器学习，深度学习以及计算机视觉等研究方向，每天会更新人工智能最前沿知识和分享自己的论文总结和学习笔记，让你系统化的学习每个知识点，每天进步一点点。