TPAMI 2024 | CAP-UDF:从原始点云中渐进学习无符号距离函数及一致性感知场优化

文摘   2024-11-12 19:02   辽宁  

点击下方PaperEveryday”,每天获得顶刊论文解读

点击加入论文投稿、写作、阅读分享交流群

论文信息

题目:CAP-UDF: Learning Unsigned Distance Functions Progressively from Raw Point Clouds with Consistency-Aware Field Optimization

CAP-UDF:从原始点云中渐进学习无符号距离函数及一致性感知场优化

作者:Junsheng Zhou; Baorui Ma; Shujuan Li; Yu-Shen Liu; Yi Fang; Zhizhong Han

源码链接:https://junshengzhou.github.io/CAP-UDF

论文创新点

  1. 直接从原始点云学习:我们的方法能够直接从未加工的点云中学习连续的无符号距离函数(UDFs),而不需要真实的无符号距离点法线大规模训练集

  2. 一致性感知场优化:通过学习将查询逐步移动到近似表面,并引入一个多边化算法,使用学习到的UDFs的梯度来提取表面,我们的方法能够提供更准确和高效的表面重建

  3. 无监督点法线估计:我们将CAP-UDF扩展到无监督点法线估计任务,并在性能上相较于最先进的方法有了非平凡的提升

  4. 处理开放和复杂表面:与基于学习内部和外部关系的神经隐式函数(NIFs)方法不同,我们的方法能够重建具有开放和多层表面的一般形状。

摘要

三维点云的表面重建在三维计算机视觉中是一项重要任务。大多数最新方法通过从点云学习有符号距离函数来解决这个问题,这些方法仅限于重建封闭表面。其他一些方法尝试使用从真实距离学习的无符号距离函数(UDF)来表示开放表面,但由于点云的不连续特性,学习到的UDF很难提供平滑的距离场。在本文中,我们提出了CAP-UDF,一种新颖的方法,直接从原始点云学习一致性感知的UDF。我们通过学习将查询移动到表面上的场一致性约束来实现这一点,同时我们也能够逐步估计更准确的表面。具体来说,我们训练一个神经网络,通过动态地搜索查询的移动目标来逐渐推断查询与近似表面之间的关系。同时,我们引入了一个多边化算法,使用学习到的UDF的梯度来提取表面。我们在点云表面重建、真实扫描或深度图,以及无监督点法线估计方面进行了全面的实验,结果表明CAP-UDF在性能上相较于最先进的方法有了非平凡的提升。

关键字

表面重建,点云,无符号距离函数,场景重建,法线估计。

1 引言

从3D点云重建表面在三维视觉、机器人学和图形学中至关重要。它弥合了由3D传感器捕获的原始点云与各种下游应用所需的可编辑表面之间的差距。最近,神经隐式函数(NIFs)通过训练深度网络学习有符号距离函数(SDFs)[1]、[2]、[3]、[4]或占据[5]、[6]、[7]、[8],取得了有希望的结果。通过学习到的NIFs,我们可以使用marching cubes算法[9]从学习的隐式函数中提取出连续的等值面作为多边形网格。然而,基于学习内部和外部关系的NIFs方法只能重建封闭表面。这种限制阻止了NIFs表示大多数真实世界对象,例如具有内部结构的汽车、未封闭端的衣物或具有开放墙壁和孔洞的3D场景。

作为补救措施,最先进的方法[10]、[11]、[12]学习无符号距离函数(UDFs)作为更一般的表示,以从点云重建表面。然而,这些方法不能学习到平滑的UDF,即使在训练期间使用真实距离值或大规模网格作为额外的监督,也因为点云的不连续特性而无法在表面附近学习到平滑的距离场。此外,大多数UDF方法未能直接从未签名距离场中提取表面。特别是,它们依赖于后处理,例如从学习到的UDFs生成密集点云以用于Ball-Pivoting-Algorithm(BPA)[13]提取表面,这非常耗时,也会导致表面不连续和质量低下。

为了解决这些问题,我们提出了一种名为CAP-UDF的新方法,逐步从未加工的点云中学习一致性感知UDF。我们通过学习将3D查询逐步移动到近似表面,并引入一个多边化算法,从新的视角使用学习到的UDFs提取表面。我们的方法可以从单个点云中学习UDF,而不需要真实的无符号距离、点法线或大规模训练集。具体来说,给定作为输入在3D空间中采样的查询,我们学习根据预测的无符号距离和查询位置的梯度将它们移动到近似表面。更吸引人的解决方案[14]、[15]、[16]、[17]已经提出,通过推断查询及其在点云中最接近点的相对位置来学习SDFs。然而,由于原始点云是表面的高度离散近似,查询的最接近点总是不准确和模糊的,这使得网络难以收敛到准确的UDF,因为距离场中的不一致或甚至相互冲突的优化方向。

因此,为了鼓励网络学习一致性感知和准确的无符号距离场,我们提出动态搜索优化目标,使用特别设计的损失函数约束场中的一致性。我们还逐步推断查询与近似零等值面之间的映射,通过使用移动良好的查询作为额外的先验来促进进一步的收敛。为了直接提取表面,我们提出使用学习到的UDFs的梯度来确定两个查询是否在点云P近似的表面同侧或对侧。与NDF[10]相比,它也学习UDFs但输出密集点云以供BPA[13]生成网格,我们的方法在效率和准确性方面显示出巨大优势,因为表面提取是直接的。

有了学习一致性感知和准确无符号距离场的能力,我们进一步扩展了我们的方法[18],用于无监督点法线估计,其中我们通过与最先进的无监督和监督法线估计方法的定量和定性结果展示了我们的优越性能。此外,我们评估了我们的方法在深度传感器和点云上的性能,并在与基于NeRF[19]或基于TSDF[20]、[21]的方法使用RGB-D图像的比较中展示了我们的优势,我们只采用深度图作为输入,而不需要彩色图像。

我们的主要贡献可以总结如下:

  • 我们提出了一个名为CAPUDF的新型神经网络,它可以直接从未加工的点云中学习一致性感知UDF,而不需要真实的距离值或点法线。我们的方法逐步推断3D查询位置与近似表面之间的关系,并使用场一致性损失。

  • 我们引入了一种算法,直接使用学习到的UDFs的梯度提取任意拓扑的高保真等值面。

  • 我们在合成点云、真实扫描或深度图的表面重建方面进行了全面的实验,并进一步探索了我们在无监督点法线估计任务中的性能。实验结果表明,我们在广泛使用的基准测试中相较于最先进的方法有了显著的改进。

3 方法

在本节中,我们介绍了CAP-UDF,这是一个新颖的框架,用于逐步从未加工的点云中学习一致性感知UDF。我们在第3.1节中介绍了从原始点云学习UDF的架构,第3.2节展示了一致性感知场优化。我们在第3.3节提出了逐步表面近似策略。用于UDF的基于梯度的表面提取算法在第3.4节中描述。我们进一步在第3.5节将CAP-UDF扩展到无监督点法线估计。CAP-UDF的概述如图1所示。

方法概述。 我们设计了一个神经网络来学习表示3D形状和场景的UDF。给定一个3D查询位置 ,学习到的UDF   预测无符号距离值 。当前的方法依赖于从连续表面生成的真实距离值,并使用神经网络将 作为回归问题来学习。与这些方法不同,我们的目标是从原始点云 中学习 ,而不使用真实的无符号距离。此外,这些方法需要后处理[10]或额外的监督[59]来生成网格。相反,我们引入了一个算法,直接从 使用梯度场 提取表面。

3.1 从原始点云学习UDF

我们引入了一个新颖的神经网络,直接从未加工的点云中学习连续的UDF   。我们使用图1中的2D点云 来演示我们的想法,其中 表示连续表面的一些离散点。具体来说,给定一组查询位置 ,这些查询位置是围绕 随机采样的,网络将 沿着 的梯度 方向移动,步长为预测的无符号距离值 。梯度 是一个向量,表示 处的偏导数,可以表示为 指示3D空间中最大无符号距离变化的方向,指向远离表面的方向,因此将 沿着 的反方向移动将找到通往 表面的道路。移动操作可以表示为:
其中 是移动后的查询 的位置, 是梯度 的归一化形式,指示 的方向。移动操作在无符号距离值和梯度的优化中都是可微的,这允许我们在训练期间同时优化它们。

图2中的四个示例显示了Neural-Pull[17]、SAL[14]、NDF[10]和我们的方法为仅包含13个点的稀疏2D点云 学习到的距离场。学习点云的有符号或无符号距离函数的一个主要分支是直接最小化预测距离值 和其在 中的最近邻 之间的欧几里得距离之间的均方误差,如NDF和SAL中所提出。然而,如图2(c)所示,NDF导致了一个极其离散的距离场。为了学习连续的距离场,NDF引入了从连续表面提取的真实距离值作为额外的监督,这阻止了它从未加工的点云中学习。SAL在学习能力方面表现出了巨大的潜力,使用精心设计的初始化来学习水密形状的SDFs。然而,如图2(b)所示,SAL未能收敛到多部分结构,因为网络被初始化为单层形状先验。NeuralPull使用与我们相似的方式来拉动查询到表面上,因此也学习了一个连续的有符号距离场,如图2(a)所示。然而,SDF的性质阻止了Neural-Pull重建开放表面,如图2(a)左侧的“1”所示。如图2(d)所示,我们的方法可以学习到连续的距离场水平集,并且能够表示开放表面。
直接将NeuralPull扩展到学习UDF的一种方法是为每个查询预测正距离值,并将其拉到 中的最近邻。然而,对于具有复杂拓扑的形状,这种优化通常是模糊的,因为原始点云的不连续特性。因此,我们通过引入一致性感知场学习来解决这个问题。

3.2 一致性感知场学习

Neural-Pull利用均方误差来最小化移动后的查询 中的最近邻 之间的距离:
然而,直接优化方程(2)中的损失将形成一个扭曲的场,并导致一些查询陷入局部区域,由于冲突的优化方向,使得网络难以收敛。我们在图3(b)中展示了使用损失方程(2)学习双甲板墙的UDF的2D演示。假设 是墙的两个不同甲板上的两个离散点, 是两个查询,它们最近的邻居分别是 。使用 通过最小化方程(2)或我们提出的方程(3)来优化网络将导致如图3(a)所示的无符号距离场。假设在下一个训练批次中, 是两个查询,它们最近的邻居分别是 。如果我们使用方程(2)中的损失, 的优化目标是最小化 。注意,目标点 位于下层表面,然而在这一点上梯度的相反方向是向上的。因此,偏导数 导致网络预测的无符号距离值 减小。 的情况类似优化。一个直接的后果是,不一致的优化方向将形成一个扭曲的场,在 处形成无符号距离值的局部最小值,如图3(b)所示。然而,这种情况导致其他查询点在扭曲的场中陷入困境,无法移动到正确的位置,从而使网络难以收敛。

为了解决这个问题,我们提出了一个损失函数,可以保持无符号距离场的一致性,以避免冲突的优化方向。具体来说,而不是像方程(2)那样在前向传播之前严格限制收敛目标,我们首先预测查询位置 的移动路径并使用方程(1)将其移动到 ,然后找到点云 中离 最近的表面点 ,并最小化 之间的距离。如图3(c)所示,将 沿着梯度方向移动 步长到 后, 最近的表面点位于上层甲板,因此距离场保持连续并正确优化。在实践中,我们可以通过使用Chamfer距离作为损失函数来实现这一点,公式如下:
其中 是移动后的查询, 表示原始点云。我们还使用图4中的玩具示例来展示我们提出的场一致性损失的优势。我们为图4(a)所示的双甲板墙的原始点云学习UDF。图4(b)显示了在墙的两个甲板之间随机采样的查询位置,不同的颜色区分了更接近上层或下层甲板的查询。图4(c)和图4(d)分别表示使用方程(2)和方程(3)移动的查询。可以看出,我们提出的损失可以将大多数查询移动到正确的表面位置,而Neural-Pull损失无法在许多地方移动查询或将查询移动到错误的位置,由于优化中的场不一致。图4(e)和图4(f)分别展示了使用方程(2)和我们的损失学习具有内部结构的汽车的距离场。

3.3 逐步表面近似

此外,为了更准确地预测无符号距离值并学习更多的局部细节,我们提出了一种逐步学习策略,将移动查询的中间结果作为额外的先验。给定一个作为表面的离散表示的原始点云,我们做出了一个合理的假设:查询位置越接近给定的点云,搜索给定点云上的目标点的错误就越小。我们在补充材料的第1节中提供了这个假设的证明。基于这个假设,我们设置了两个区域:高信心区域(小错误)和低信心区域(大错误)。我们在高信心区域采样查询点来帮助训练网络,并在低信心区域采样辅助点,通过网络梯度在网络在当前阶段收敛后移动到估计的表面位置,其中移动的辅助点被视为下一阶段的表面先验。值得注意的是,辅助点不参与网络训练,因为这些低信心的点会导致大错误并影响网络训练。由于在训练期间没有显式优化的低信心区域分布在高信心区域之间,根据积分单调收敛定理[62],由低信心区域预测的UDFs和梯度是对训练的高信心区域的平滑表达。我们使用移动的查询和辅助点来更新 。根据更新的点云,我们重新划分高信心和低信心区域,并重新采样查询点和辅助点进行下一阶段的训练。
我们使用图5中的2D案例来展示我们的想法。(a)我们根据给定的原始点云 (黑点)将区域划分为高信心(红区)和低信心(黄区),然后采样查询点 (蓝点)和辅助点(绿点) 。(b)我们训练网络通过使用方程(1)移动查询位置 来学习UDF,并通过对方程(3)进行最小化来优化网络。(c)在网络在当前阶段收敛后,我们通过网络梯度将查询点 和辅助点 移动到估计的表面位置, 。(d)我们使用移动的点 来更新 。根据更新的点云 ,我们重新划分高信心和低信心区域,并重新采样查询点 和辅助点 。(e)我们继续通过移动查询点 到更新的 来训练网络,然后通过将移动的 结合起来更新 。(f)由于更连续的表面,网络可以利用先前信息来学习更准确、具有更多局部细节的形状UDF。

3.4 表面提取算法

与SDF不同,UDF无法使用marching cubes算法提取表面,因为UDF无法对3D网格执行内部/外部测试。为了解决这个问题,我们提出使用梯度场 来确定两个3D网格位置是否在同一侧或对侧的表面近似。我们假设空间可以在微观层面上被划分为两个侧面,其中不同侧面的3D查询位置表示为 。对于两个在表面不同侧的查询 ,梯度方向 之间的夹角大于90度,可以表示为 。相反,对于两个在同一侧的查询 ,公式 成立。因此,我们可以使用梯度的点积来分类两点是否在同一侧或对侧, 。基于此,我们将空间划分为3D网格(例如 ),并根据 对每个单元网格中的8个顶点 进行梯度判别。如图6(a)所示,梯度场将顶点分为两组,我们可以进一步适应marching cubes算法[9]来使用查找表为网格创建三角形。完整的表面是通过将每个网格的三角形组合在一起生成的。为了加速表面提取过程并避免在多层结构中提取意外的三角形,我们设置了一个阈值 ,在 的网格上停止表面提取。

网格细化。由基于梯度的表面提取算法初始提取的表面只是零等值面的离散近似。为了获得更详细的网格,我们提出使用UDF值来细化它。如图6(b)所示,给定网格顶点 的预测UDF值 ,网格顶点 可以移动到更精细的位置,其中 分别表示从 和从 的距离。简而言之,网格细化策略是将网格顶点移动到基于UDF值的零水平集上,使用线性插值。表面重新定向。另一个问题是,由于表面不封闭,无法保证提取的网格的全局一致性。这是大多数现有方法重建点云的开放表面时的常见问题,例如NDF[10]、MeshUDF[61]和GIFS[59]。为了解决这个问题,我们进一步提出了一种新的方法,使用非零水平集从学习到的CAP-UDF重新定向表面方向。我们的洞察来自于观察,尽管从学习到的CAP-UDF的零水平集中提取的开放表面方向不明确,但从非零水平集中提取的表面通常是封闭的,并且具有正确的法线方向。例如,给定一个非零水平集,其中 UDF = 0.01,我们可以使用 marching cubes 算法获得一个厚度为 0.02 的双层封闭网格。基于这一观察,我们提出利用 CAP-UDF 的非零水平集作为指导,重新定向从零水平集中提取的表面法线。我们在图7中概述了表面重新定向过程。

给定一个输入点云   ,我们使用提出的 CAP-UDF 学习一个无符号距离场。开放网格表面    是从零水平集使用我们提出的表面提取算法提取的,如第3.4节和图6所述。该网格可以用于一些下游任务,如 AR、VR、物理模拟等。然而,由于开放结构,表面方向可能不正确,这会对下游的渲染和照明应用产生负面影响。为了解决这个问题,我们同时从学习到的距离场的非零水平集中提取另一个网格   ,使用 marching cubes 算法和一个非零阈值   (例如0.01)。网格    通常是一个具有一致法线方向的封闭表面。然后我们使用 Min-Cut 算法切割双层封闭网格   ,并保留外层网格表面    作为指导,重新定向从零水平集中提取的表面的法线。具体来说,对于    上的每个顶点   ,我们通过首先搜索其在    上的最近顶点   ,然后重新定向    作为:
注意我们不直接采用外层表面作为最终结果,因为它们来自学习到的 UDF 的非零水平集,并不代表实际表面。

3.5 扩展到无监督点法线估计

无结构点云的法线估计是为了预测点云中每个点的法线。以前的方法是通过使用大规模标注的真实法线标签进行监督训练来获得令人鼓舞的结果,这些标签很难收集。我们展示我们的方法也可以扩展到以无监督的方式估计点云的法线。与大多数先前的点法线估计工作[64]、[65]、[67]一样,我们专注于使用神经网络估计无向点云法线。这意味着我们只关心预测的法线是否与真实点法线共线,而不是相同方向。全局一致的法线方向可以通过在估计的法线上应用现成的法线方向方法(例如 ODP[68])作为后处理程序来进一步实现。
一个简单的实现是将原始点云    上的梯度    作为预测的法线。然而,它在 UDF 的零水平集上不可微,导致在表面的梯度不可靠。我们通过融合附近查询的梯度来解决这个问题。具体来说,给定一个从原始点云学习到的连续无符号距离场,我们可以使用一组查询点来估计每个点的法线。要提取点    在    中的法线,我们采样一组查询   ,其在    上的最近点是   。由于我们学习了一个连续的无符号距离场围绕    的法线    可以近似为    中梯度    的融合。一个直接的实现是计算    的平均值,公式如下:
然而,上述简单平均会导致大误差,因为    可能位于表面的不同侧,导致    的符号不确定。为了解决这个问题,我们提出在平均它们之前归一化    的符号。具体来说,我们随机选择一个查询    在    中,并将梯度    作为参考,根据    和    之间的点积重新定向其他梯度如下:
其中    是符号函数,输出为 ({-1, 1})。我们在图8中说明了法线估计算法。为了展示我们提出的查询梯度融合策略的有效性,我们进一步提供了与基线的可视化比较,如图9所示。查询采样策略在第4节的实现细节中描述。有关更多的实验比较和消融研究,请参见第4.5节和第4.8.6节。

4 实验

我们评估了我们的方法在从原始点云或深度图表面重建方面的性能,并扩展了我们的方法到无监督点法线估计。我们首先在第4.1节中展示我们的方法重建具有开放和多层表面一般形状的能力。接下来,我们将我们的方法应用于真实扫描的原始数据,包括第4.2节中的3D对象和第4.3节中的复杂场景。然后我们在第4.4节中从深度图中重建表面,第4.5节中进行点法线估计。消融研究在第4.8节展示。最后,我们在第4.9节和第4.10节中提供了效率分析和更多可视化。实现细节。 为了学习原始点云    的 UDF,我们采用了一个类似于 OccNet[5] 的神经网络来预测给定3D查询的无符号距离。我们的网络包含8层 MLP,每层有256个节点。我们在第四层采用跳跃连接,如 DeepSDF[1] 中所采用的,以及在MLP的最后两层使用 ReLU 激活函数。为了确保网络学习无符号距离,我们进一步在输出前的最后一层采用非线性投影   。 与 Neural-Pull 和 SAL 类似,给定单个点云    作为输入,我们不使用任何条件,并且通过最小化方程(3)的损失来过拟合网络以近似    的表面。因此,我们不需要像以前的方法[2]、[10]、[59]那样在大规模训练数据集上训练我们的网络。此外,我们使用与 Neural-Pull 相同的策略,围绕    上的每个点    采样60个查询作为训练数据。我们采用高斯函数    来计算采样概率,其中    是    和其在    上的第50个最近邻点之间的距离。用于估计法线的查询以相同的方式采样。对于在低信心区域采样辅助点,标准差设置为   。并且在方程5中估计法线的大小    设置为50。
在训练期间,我们采用 Adam 优化器,初始学习率为0.001,并采用余弦学习率计划,预热1k次迭代。我们在前一阶段收敛后开始下一阶段的训练。在实验中,我们发现40k、60k和70k次迭代适合阶段变化。由于第三和第四阶段的变化不大,如表13的消融研究所示,我们在实践中指定两个阶段,因此网络总共训练了60k次迭代。对于真实扫描复杂场景的表面重建,我们增加了300k次迭代以获得更好的收敛。

4.1 合成形状的表面重建

数据集和指标。 对于合成形状的表面重建实验,我们遵循 NDF[10] 选择 ShapeNet 数据集中的“Car”类别,其中包含最多的多层形状和非封闭形状。并且从每个形状的表面采样10k点作为输入。此外,我们采用 MGN 数据集[69]来展示我们的方法在开放表面的优势。为了衡量重建质量,我们遵循 GIFS[59] 从重建表面采样100k点,并采用 Chamfer 距离(×10^4)、法线一致性(NC)[5] 和 F-Score 以0.005/0.01为阈值作为评估指标。
比较。 我们在表1中定量评估了我们的方法与 NDF 和 GIFS 的性能,并报告了从水密真实值(表中的水密真实值)采样的点集的结果作为传统基于 SDF 或基于占据隐式函数的上界。为了展示该数据集的优越极限,我们从真实值网格采样了两组不同的点,并报告了它们的结果(表中的 GT)。为了与 NDF 进行全面比较,我们将我们的基于梯度的重建算法转移到 NDF 学习到的距离场上,并报告了 NDF 和我们的方法的三个指标,包括生成的点云(P C)、使用 BPA 生成的网格(BP A)和使用我们的基于梯度的重建算法生成的网格(gradRA)。如表1所示,我们在所有指标方面都取得了最佳结果。此外,我们的基于梯度的重建算法在转移到其他方法(例如 NDF)学习到的梯度场上时显示出极大的通用性,通过显著提高传统方法(BPA)的性能。我们还在表2中提供了 MGN 数据集上的表面重建结果,我们显著优于其他方法。

我们进一步在图10中与 SAL 和 NDF 进行了视觉比较。以前的方法(例如 SAL)以 SDF 为输出,因此仅限于单层形状,其中内部结构丢失了。NDF 学习 UDF 并且能够表示一般形状,但它输出密集点云并需要 BPA 来生成网格,导致表面不均匀。相反,我们可以直接从学习到的 UDFs 中提取表面,这些表面是连续的表面,具有高保真度。我们还在图11中与 Neural-Pull 在 MGN 数据集上进行了视觉比较,我们准确地重建了开放表面,但 Neural-Pull 未能揭示原始几何形状。

4.2 真实扫描的表面重建

数据集和指标。 对于真实点云扫描的表面重建,我们遵循 SAP 在表面重建基准(SRB)[70]下评估我们的方法。我们使用 Chamfer 距离和以1%为阈值的 F-Score 进行评估。
比较。 我们在 SRB 数据集中与最先进的经典和数据驱动表面重建方法进行了比较,包括 IGR [15]、Point2Mesh [71]、Screened Poisson Surface Reconstruction (SPSR) [24]、Shape As Points (SAP) [56]、Neural-Pull [17] 和 NDF [10]。数值比较如表3所示,我们取得了最好的准确性。图12中的视觉比较表明,我们的方法能够重建具有局部几何一致性的连续表面,而其他方法在揭示几何细节方面遇到困难。例如,IGR、Neural-Pull 和 SAP 在锚的孔洞处错误地修补或未能重建,而我们的方法能够保持正确的几何形状。

4.3 场景的表面重建

数据集和指标。 为了进一步展示我们的方法在真实场景扫描表面重建方面的优势,我们遵循 OnSurf [55] 在 3D Scene 数据集 [72] 下进行实验。注意,3D Scene 数据集是一个具有复杂拓扑和噪声开放表面的挑战性真实世界数据集。我们均匀地在原始尺度的场景中每平方米采样100、500和1000个点作为输入,并遵循 OnSurf 从重建和真实表面采样100万个点进行评估。我们使用 L1 和 L2 Chamfer 距离来评估重建质量。
比较。 我们在表4中显示了在不同点密度下的性能比较,我们的方法显著优于其他方法。图13中的视觉比较进一步表明,我们的重建在复杂的真实场景扫描中呈现出更多的几何细节。注意,所有其他方法都经过了大规模数据集的训练,从中学到了额外的先验信息。相反,我们的方法不利用任何额外的先验或大规模训练数据集,直接从原始点云学习重建表面,但仍然取得了非平凡的性能。

4.4 从深度图的表面重建

数据集和指标。 对于从深度图的表面重建,我们遵循 NeuralRGB-D [20] 在10个合成场景数据集下评估我们的方法。为了衡量重建质量,我们遵循 NeuralRGB-D 和 Go-Surf [21] 以每平方厘米1个点的密度采样点云,并采用 Chamfer 距离、法线一致性(NC)和以5cm为阈值的 F-Score 作为评估指标。
比较。 我们在表5中显示了与其他深度学习方法的性能比较,我们的方法在“噪声”设置下显著优于其他仅使用深度的方法。我们还在“清洁”设置下与最先进的RGBD方法NeuralRGB-D和Go-Surf进行了比较,这两种方法都需要深度图和彩色图像作为输入。我们的方法仅使用深度图作为输入,但仍然取得了可比或更好的性能。我们在图14中提供了在“清洁”设置下与COcc、Neural-Pull和NeuralRGB-D的视觉比较。以前的方法使用占据(COcc)或SDF(Neural-Pull和NeuralRGB-D)作为场景表示,限制在封闭几何形状,而我们的方法可以重建具有任意结构(例如开放窗户和细桌腿)的表面,并且还能揭示几何细节。

4.5 点法线估计

数据集和指标。 对于点云法线估计任务,我们采用广泛使用的基准测试PCPNet [77]数据集来评估我们的方法。PCPNet在每个形状的网格上采样100k点以获得点云。除了均匀采样的“清洁”数据外,还增加了两种不同密度设置(条纹和渐变)的额外数据,以评估不同方法处理不规则数据的能力。我们的目标是学习无监督的点云法线估计,因此仅使用PCPNet数据集的测试集。我们采用预测法线和真实法线之间的角度均方根误差(RMSE)作为评估我们方法性能的指标。按照以前的工作[64]、[65],我们对每个形状的5000点子集计算最终结果。
比较。 我们在表6中与传统的法线估计方法包括PCA [78]、Jets [79]以及最先进的基于学习的法线估计方法PCPNet [77]、HoughCNN [80]、Nesti-Net [67]、Iter-Net [81]和DeepFit [64]进行了比较。注意,所有以前的基于学习的方法都是以监督的方式设计的,需要大规模数据集进行训练。相反,我们从新的角度解决这个问题,直接从学习到的无符号距离场中提取法线,以无监督的方式进行。定量比较在表6中显示,我们的方法显著优于不需要真实法线监督的传统方法。同时,我们的方法也达到了与最先进的监督法线估计方法相当甚至更好的性能,这表明昂贵的标注法线标签对于点法线估计任务并非必要。

我们还在图15中提供了与无监督方法PCA、Jets和监督方法PCPNet、Nesti-Net和DeepFit的视觉比较。形状的颜色表示误差,越接近黄色表示误差越大,越接近蓝色表示误差越小。如图所示,我们的估计结果比其他方法更准确、更详细,特别是在复杂几何形状(如锐利边缘和角落)上。

定向法线比较。 我们进一步在表7中对定向法线进行了实验评估,这些法线是通过在不同方法估计的无定向法线上应用现成的法线方向方法ODP [68]作为后处理程序获得的。定向法线估计的数值比较在表7中显示,CAP-UDF仍然比无监督甚至一些监督方法取得了更好的定向法线估计结果。

定向法线估计的监督方法PCPNet*直接从点云估计定向法线,与其他方法相比产生了更差的结果,这些方法首先估计无定向法线,然后通过后处理程序确定每个点法线的方向一致性。结果表明,将定向法线估计任务分解为两个子任务以估计无定向法线,然后产生全局一致的方向是必要的。虽然我们专注于与大多数先前方法进行公平比较的前者。

4.6 从损坏数据的表面重建

真实世界的点云通常是稀疏的或被噪声和遮挡损坏的。为了进一步应用CAP-UDF重建损坏的点云,我们提出引入最先进的点云处理方法作为先验。我们的想法是首先提高点云的质量,然后在此基础上学习距离场进行重建。为了展示引入现成的点云处理方法作为先验的有效性,我们在不同的数据集上进行了综合实验,评估CAP-UDF重建损坏点云的性能。

4.6.1 遮挡点云表面重建

我们在广泛使用的PCN [82]数据集上进行实验,评估从遮挡点云重建表面的性能。我们引入预训练的AdaPoinTr [83]作为点云完成先验,并从完成的点云中重建表面。
如表8所示的定量比较,最先进的通用方法(例如ConvOcc [6]、POCO [58])未能从损坏的点云中产生完整的重建。原因是尽管它们在大型和多样化的数据集上进行了训练,但它们没有学习完成知识,导致无法泛化到遮挡形状。而我们认为引入专家点云完成方法作为先验是处理损坏点云的更有效方式。如表8下部所示,通过引入AdaPoinTr作为先验来完成损坏的点云,可以获得令人信服的结果。使用相同的完成先验,CAP-UDF在忠实重建完成的点云方面比通用方法ConvOcc和POCO取得了更好的性能。请参考补充材料的第2.1节,以获取有关重建遮挡点云的视觉比较。

4.6.2 噪声点云表面重建

我们在广泛使用的PUNet [84]数据集上进行实验,评估从带噪声的点云重建表面的性能。我们引入预训练的IterativePFN [85]作为点云去噪先验,并从去噪的点云中重建表面。
如表9所示的定量比较,最先进的通用结果也未能从噪声点云中产生稳健的重建,表明在大型数据集上以通用方式训练仍然无法很好地泛化到未见过的点噪声。通过引入专家点云去噪方法作为先验来清洁损坏的点云,可以获得更准确的重建。CAP-UDF在利用相同的去噪先验时,在忠实重建清洁点云方面比通用方法ConvOcc [6]和POCO [58]表现出色。请参考补充材料的第2.1节,以获取有关重建噪声点云的视觉比较。

4.6.3 稀疏点云表面重建

我们评估从稀疏点云重建表面的性能,在广泛使用的PU-GAN [86]数据集上进行实验,这些点云每形状仅包含256或512个点。我们引入预训练的APU-LDI [87]作为点云上采样先验,并从上采样的点云中重建表面。
在表10和表11中,我们分别展示了在256点和512点设置下的稀疏点云重建的定量比较。结果表明,最先进的通用方法ConvOcc和POCO在从极稀疏点云中产生稳健重建方面遇到困难。通过引入专家点云上采样方法作为先验来增加点密度,可以获得更准确的重建。CAP-UDF在利用相同的上采样先验时,在忠实重建增强的点云方面比通用方法ConvOcc和POCO表现出色。请参考补充材料的第2.1节,以获取有关重建稀疏点云的视觉比较。

4.7 大规模场景重建

仅使用单个神经网络表示大型点云的表面可能会因神经网络的灾难性遗忘而难以产生高保真度的重建。为了克服这一挑战,我们引入了滑动窗口策略,通过将场景分割成局部块来重建极大规模的场景,每个局部块由特定的神经网络表示。最终重建是通过融合局部场景完成的。
我们在KITTI [88]数据集上的大规模驾驶场景进行实验。我们使用NGS [89]预处理的KITTI数据集中Squeeze00子集的第3000至4000帧的LiDAR扫描作为完整输入,这些扫描使用提供的相机轨迹转换为世界坐标。直接重建完整场景的结果在图16的“全局级别”中显示,由于神经网络的灾难性遗忘,仅重建了场景的大致轮廓,没有保留几何细节。

为了克服使用单个神经网络进行大规模场景点云重建的限制,我们引入了滑动窗口策略,将极大规模场景分割成不同尺度级别的局部块,并通过对局部几何进行重建来完成最终场景重建。我们在两个局部级别下重建场景,将完整场景分割成8个局部块(局部级别1)和15个局部块(局部级别2)。局部级别2中的局部块大小为51.2立方米,局部级别1中的块是通过合并局部级别2中的两个相邻块获得的。结果在图16的“局部级别1/局部级别2”中显示,更细分的局部块导致更详细的局部几何形状和更高的质量。我们发现局部级别2已经产生了令人信服的重建,可以被认为是在性能下降之前的“最大”大小。将场景分割成更多的局部块可能会导致表示完整场景的空间和时间复杂性。

4.8 消融研究

我们进行消融研究以证明我们方法中每个设计的效力以及一些重要参数的效果。我们在ShapeNet汽车数据集的一个子集上报告L2-CD的性能。除非下面每个消融实验中描述的修改部分,否则所有实验设置都保持与第4.1节中相同。

4.8.1 框架设计

我们首先证明了我们框架中每个设计的有效性。我们直接使用Neural-Pull提出的损失函数,发现性能急剧下降,如“NP loss”所示。我们还使用    替换网络最后一层输出前的   ,但发现没有改进,如“Exponent”所示。我们从零开始训练第二阶段,证明了端到端训练策略更有效,如“Scratch”所示。

4.8.2 阶段数量的影响

阶段数量在渐进式表面近似中也是一个关键因素。我们在表13中报告了不同阶段数量    的性能。我们在一个阶段收敛后开始下一个阶段的训练。我们发现两个阶段的训练比单一阶段带来了很大的改进,而第三和第四阶段的改进是微妙的。因此,我们在实践中使用两个阶段来训练CAP-UDF。

4.8.3 低信心范围的影响

我们进一步探索了信心区域样本的范围。假设    作为高信心区域的范围,我们使用0.9 、1.0 、1.1 和1.2 作为低信心区域的范围。表14的结果表明,太小或太大的范围都会降低性能。

4.8.4 表面提取

我们评估了网格细化的效果以及不同3D网格分辨率的性能。表15显示了不同分辨率的准确性和效率。我们观察到网格细化显著提高了准确性,更高的分辨率可以获得更好的重建效果,但代价是速度。我们还在图4.8.4中提供了不同设置下提取的网格的可视化。它显示了更高的分辨率可以获得更详细的重建。此外,我们设计的网格细化操作由于神经网络预测的准确无符号距离值,显著提高了表面平滑度和局部细节。

4.8.5 训练迭代次数的影响

我们进一步测试了不同阶段的训练迭代次数的效果。由于我们采用了端到端训练策略,我们为第二阶段设置了相对较少的训练迭代次数。在实验中,我们将第一阶段的迭代次数设置为30k、40k和50k,第二阶段设置为15k、20k和25k。为了测试第一阶段迭代次数的效果,我们将第二阶段的迭代次数设置为默认的20k,测试第二阶段时,将第一阶段的迭代次数设置为默认的40k。表17的结果表明,训练迭代次数过少会导致欠拟合问题,而过多的训练迭代次数会导致网络性能下降。

4.8.6 法线估计的设置

我们在表18中评估了我们无监督点法线估计设计的效力。我们首先直接使用原始点云位置的梯度作为估计的法线,发现性能急剧下降,如“Point grad.”所示。原因是在UDFs的零水平集上法线不明确,我们通过估计附近采样的查询的梯度融合来解决这个问题。我们使用K = [1, 5, 10, 20, 50, 100]作为估计法线的查询数量,并发现太小或太大的K都会降低性能。

4.9 效率分析

我们通过比较场学习和网格提取的计算成本与最先进的方法来分析我们提出方法的效率。

4.9.1 场学习的效率比较

我们在表19中与Neural-Pull [17]、IGR [15]、Point2mesh [71]进行了单次点云优化的计算成本比较。结果表明,我们提出的方法比其他基线更快地收敛,并且内存需求更少。

4.9.2 网格提取的效率比较

我们进一步评估了我们方法的效率。我们在表19中提供了NDF [10]的网格生成过程的比较,我们使用了NDF提供的默认1×10^6点和参数来使用球枢轴算法(BPA)[13]生成网格。显然,即使在相对较高的分辨率(例如2563)下,我们的方法也比NDF有巨大的优势。原因是我们的方法允许直接从学习到的UDFs中提取表面,而NDF使用的球枢轴算法需要大量的邻居搜索和法线估计计算。

4.10 更多可视化和分析

我们在第4.10节中提供了更多的可视化和分析。
为了进一步评估我们一致性感知场学习的有效性,我们可视化了使用Neural-Pull [17]损失函数(方程2)和我们场一致性损失函数(方程3)学习到的无符号距离场。图17显示了两个具有复杂内部结构的不同形状的可视化比较。对于双层巴士,使用Neural-Pull [17]提出的损失函数训练未能处理丰富的结构,导致了一个混乱的距离场,其中没有保留细节。相反,我们提出的一致性感知学习可以构建一个一致的距离场,其中详细结构得到了很好的保留。可以清楚地看到,我们的方法学习到了高度连续的无符号距离场,并且有能力保持复杂结构周围的场正确(例如座椅、轮胎和楼梯),这也有助于提取高保真度的表面。

为了进一步探索我们直接表面提取算法的优势,我们使用与NDF [10]相同的设置,采用球枢轴算法(BPA)[13]从我们生成的点云中提取网格,并与使用我们方法提取的网格进行了比较,如图18所示。即使在精心选择的阈值下,BPA生成的网格仍然远非平滑,存在许多孔洞,也无法保留详细的几何信息。相反,我们的方法允许直接从学习到的UDFs中提取表面,因此能够重建一个连续且高保真的网格,其中几何细节得到了很好的保留。

5 结论、局限性和未来工作

我们提出了一种新的方法,直接从原始点云学习连续的UDFs,通过学习逐步将3D查询移动到近似表面。我们引入的重建算法可以直接从学习到的UDFs的梯度场中提取表面。我们的方法不需要真实的距离值或点法线,能够重建任意拓扑的表面。我们进一步扩展了我们的方法,从深度图中重建表面,并且在无监督的情况下估计点法线,其中我们通过定量和定性结果展示了我们相对于最先进方法的优越性能。
最后,我们认识到我们方法的一些潜在局限性。首先,直接利用CAPUDF重建损坏的点云(例如遮挡、噪声和稀疏点云)可能会在产生稳健性能方面遇到困难,因为我们没有利用任何条件或真实监督来训练CAP-UDF。尽管我们在第4.6节中提供了通过引入最先进的点云处理方法作为先验来提高重建质量的有效解决方案,但我们认为仍有改进的空间,例如,通过在多样化的数据集上以数据驱动的方式训练CAP-UDF。其次,我们使用均匀划分的网格来提取表面,这可以通过粗到细的范式来改进。

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。

#论  文  推  广#

 让你的论文工作被更多人看到 


你是否有这样的苦恼:自己辛苦的论文工作,几乎没有任何的引用。为什么会这样?主要是自己的工作没有被更多的人了解。


计算机书童为各位推广自己的论文搭建一个平台,让更多的人了解自己的工作,同时促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 计算机书童 鼓励高校实验室或个人,在我们的平台上分享自己论文的介绍、解读等。


稿件基本要求:

• 文章确系个人论文的解读,未曾在公众号平台标记原创发表, 

• 稿件建议以 markdown 格式撰写,文中配图要求图片清晰,无版权问题


投稿通道:

• 添加小编微信协商投稿事宜,备注:姓名-投稿

△长按添加 PaperEveryday 小编



PaperEveryday
为大家分享计算机和机器人领域顶级期刊
 最新文章