TPAMI 2024 | 局部非刚性运动恢复结构的封闭形式、成对解决方案

科技   2024-10-21 19:37   广东  

编辑:PaperEveryDay



A Closed-Form, Pairwise Solution to Local Non-Rigid Structure-From-Motion

题目:局部非刚性运动恢复结构的封闭形式、成对解决方案

作者:Shaifali Parashar; Yuxuan Long; Mathieu Salzmann; Pascal Fua


摘要

非刚性结构从运动(NRSfM)的最新趋势是表达图像对之间的局部微分约束,通过求解一组多项式方程可以获得任意点的表面法线。虽然这种方法比依赖全局约束的对应方法更成功,但这些方法面临两个主要问题:首先,它们制定的方程系统大都是高阶的,必须使用计算上昂贵的多项式求解器来求解。一些方法使用多项式简化策略来简化系统,但这会引入一些幻影解。无论如何,采用额外的机制来选择最佳解决方案,这增加了计算量,并不能保证解决方案的可靠性。其次,这些方法制定图像对之间的约束。即使它们之间有足够的运动,它们也可能受到局部退化的影响,这使得在没有警告机制的情况下得到的估计不可靠。在本文中,我们为等距/共形NRSfM解决了这些问题。我们展示了,在广泛适用的假设下,我们可以推导出一组新的方程,以表面法线为术语,其两个解可以闭合形式获得,并且可以很容易地局部消歧。我们的形式主义还允许我们评估估计的局部法线的可靠性,并在它们不可用时丢弃它们。我们的实验表明,我们的重建,从两个或更多视图中获得,比现有技术的方法显著更准确,同时也更快。

关键词

  • NRSfM

  • 微分几何

  • 3D重建

  • 可变形对象

I. 引言

从单目图像序列重建变形对象的3D形状被称为非刚性结构从运动(NRSfM),它在从娱乐[35]到医学[26]的各个领域都有应用。早期的方法依赖于表面的低秩表示[4]、[7]、[10]、[12]、[17]、[23]、[25]、[28]、[49],而最近的方法利用局部表面属性来导出约束,并可以处理更大的变形[8]、[9]、[20]、[47]、[50]、[51]。不幸的是,这些约束必须在整个重建点集上共同强制执行。因此,计算成本随着图像数量的增加而呈非线性增长,很快就变得难以承受。此外,通过迭代细化获得全局最优解,这容易陷入局部最小值,并在初始化不接近实际解的情况下增加计算量。最后,这些全局方法大多数不能处理缺失数据。在[13]、[34]中,这是通过迭代更新缺失条目来完成的,这增加了计算复杂性。我们推荐感兴趣的读者阅读[19]中对全局方法的详细回顾。

在我们之前的工作中[37]、[38]、[39],我们已经展示了局部方法构成了一个强大的选择。用微分属性表达等距、共形或等面积约束使得局部变量的数量保持固定。不幸的是,这些计算中出现的方程系统是高阶的二元方程。它们最多可以有五个实数解。从理论上讲,从3幅图像中可以获得一个独特的解决方案,但这需要一个复杂的平方和公式[37]、[38]或增加幻影解的简化方法[36]、[39]。因此,在实践中,需要超过3幅图像来产生可靠的估计。此外,当帧之间的运动太小,系统变得不适定时,估计不可靠,没有任何机制来标记这些情况有问题。

在本文中,我们引入了一种新的方法。我们不是推断深度导数,而是估计表面法线。更具体地说,给定两幅图像之间的2D变形,我们考虑对应点处的切平面。对于每一对点,我们计算连接两个平面的单应性,并将其分解以通过求解局部微分约束[37]、[38]来计算法线。这有两个解,而不是我们早期方法[36]中的五个。对于每个平面,我们通过实施一个易于计算的局部平滑度度量来选择正确的一个。此外,我们的形式主义让我们评估问题的解算条件有多好,因此,可以使用产生的法线。换句话说,我们可以从图像对中导出一组可靠的法线,并丢弃其他的。

我们将在合成和真实数据上证明,我们在计算成本的一小部分上就超越了最先进的局部和全局方法。因此,我们的贡献是一种依赖于闭合形式求解一组关联表面法线的方程的方法。完全是局部的,计算既快速又可靠。虽然我们的解决方案是为等距或共形变形而设计的,但它也对通用变形产生了良好的结果。



III. 形式主义和假设

本节的核心是我们的方法,即给定两幅图像中某点的投影以及它们之间的2D变形,可以在单一假设下计算变形3D表面上该点在两个不同瞬间的法线:局部表面平面性和变形局部线性。在本节中,我们首先介绍在本文其余部分中使用的NRSfM设置,这与[38]中的设置类似。然后,我们解释我们的假设的含义以及为什么它们是广泛适用的。最后,我们制定了我们将用于重建目的的约束。

A. 设置

图1描述了我们仅使用两幅图像I和I',由已校准的相机获取的设置。在每幅图像中,我们将变形表面记为S和S',分别用函数φ, φ: R^2 → R^3表示,将图像点与表面点相关联。假设我们有一个图像配准函数η: R^2 → R^2,将第一幅图像中的点与第二幅图像中的点关联起来。这通常被称为变形。在实践中,可以使用标准的图像匹配技术(如光流[45]、[46]或SIFT[29])计算得出。我们使用B样条[6]对η和φ进行参数化表示,这允许我们准确获得这些函数的一阶和二阶导数。也可以使用有限差分方法。

给定I中的点x = (u, v)及其在S上的对应3D点X = φ(x),我们写φ(x) = [u v 1]^T / β(u,v),其中β代表深度的倒数。φ的雅可比矩阵由下式给出:

其中κ_1 = ∂uβ/β,κ_2 = ∂vβ/β表示表面深度导数。u,v,φ,κ_1和κ_2在I'中定义类似。

B. 局部平面性和线性

在本工作中,我们假设3D表面的局部平面性和变形的局部线性,如[21]、[27]中所述。现在我们描述这两个假设并论证它们通常是适用的弱假设。
表面局部平面性:设x0是一个图像点,在φ(x0)处有表面法线n。所有足够接近x0的点x = (u, v)可以被准确描述为位于切平面上。因此,它们满足n^T φ(x) + d = 0,其中d是一个标量,我们可以重写为β = -n^T / d [u v 1]^T。因此,出现在(1)中的逆深度β是x的线性函数,即使φ不是。尽管如此,φ的所有高阶导数都可以用β及其一阶导数表示。这被广泛视为适用于大多数平滑流形的弱假设。例如,我们的地球是一个可以被视为局部平面的球体。
变形局部线性:根据[21],每个非线性函数都可以用无限多个线性函数来近似。这个假设已成功用于形状匹配[32]。我们假设将局部两个平面联系起来的变形ψ足够平滑,可以用它的一阶近似很好地描述,以至于我们可以忽略它的二阶导数。换句话说,我们对局部变形使用一阶近似,但对表面深度使用二阶近似,以允许全局非平面形状。这比NRSfM中通常使用的假设集更宽松。例如,[10]、[28]和其他低秩方法假设变形空间很小;使用不可伸展性[9]、[51]或分段刚性[47]、[50]的基于物理的方法做出了更强烈的假设。
在局部平面性假设下,我们有X和X位于一个平面上。定义这两个表面之间的一般变换,它定义了变形ψ,可以表示为X = SRX + T,其中R和T是旋转和平移,S是缩放矩阵。如果S碰巧是一个对角矩阵,其条目相等,ψ就是一个平面单应性,得到的变形是纯等距或共形的。尽管如此,ψ是线性的。因此,表面的局部平面性意味着变形的局部线性。然而,反过来并不成立。

C. 图像间的微分约束

为了表达在I和I'中计算的数量之间的约束,我们定义了度量张量和连接,如[27]中所述。
度量张量:度量张量g在I和I'中是一阶微分量,捕获局部距离和角度。它们可以写成
其中J_φ和J_φ'是根据(1)计算的局部表面雅可比矩阵。这些张量可以用来通过强制(1)中的标量k1和k2满足以下三个条件之一来施加等距性、共形性和等面积约束:
其中J_η是变形η的雅可比矩阵。
表面导数之间的线性关系:给定J_φ,可以在表面上用列向量表示局部参考框架的切线,用它们的叉积表示法线。连接是二阶微分量,表示这个局部框架的变化率。使用连接在上述局部线性假设下,可以证明[38]:
其中是变形的二阶导数。因此,等距、共形和等面积NRSfM的解可以通过在(3)的约束下求解度量张量保持方程来获得。

D. 方法概述

本文的其余部分组织如下。在第IV节中,我们重新表述了等距和共形变形的度量张量保持约束(3),以及表面导数之间的线性关系(4),以法线为术语。使用从图像对导出的这两个关系,我们定义等距/共形NRSfM为一组二元二次方程。这些二次方程在每个点上产生两个法线。我们使用一个简单的启发式方法来获得一个唯一的解。此外,对于给定的图像对,我们的形式主义允许我们评估派生的NRSfM约束的解算条件有多好。换句话说,我们可以从图像对中导出一组可靠的法线,并丢弃其他的。
我们将在第V节中展示,我们的方法在合成和真实数据上的表现都优于最先进的局部和全局方法,计算成本只是后者的一小部分。因此,我们的贡献是一种依赖于闭合形式求解一组关联表面法线的方程的方法。完全是局部的,计算既快速又可靠。虽然我们的解决方案是为等距或共形变形而设计的,但它也对通用变形产生了良好的结果。

IV. 从两幅图像计算法线

在早期方法[38]中,NRSfM问题通过求解(3)下的系统,根据(3)中的等距性、共形性和等面积性约束,相对于(1)中的变量 来解决。在这里,我们直接以表面法线为术语解决这个方程系统。我们将展示,不仅可以以闭合形式完成,而且它还允许我们识别导致不可靠估计的退化情况。

变形的微分

让我们考虑I中的一个点 和其在I中对应的点 ,以及对应的点在表面上的 。假设表面是局部平面的意味着存在一个 的单应矩阵 使得 。由于我们假设相机是透视投影的,我们写:
其中 的一阶和二阶导数可以计算为:
其中 的一阶和二阶导数。

图像嵌入和局部法线

处的单位法线 是矩阵 列的叉积。这让我们写出:
给定法线 的(7),我们可以重写矩阵 为:
我们现在可以重写第三部分C中介绍的图像间微分约束以法线为术语。

C. 表面法线之间的线性关系

给定 导数的(6),线性关系(4)变为:
定义 让我们重写上述方程为:
使用(8),我们将上述表达式重新表述为:
这直接关联了两个法线。

度量张量

如图1所示,我们可以写出 。对此表达式进行微分并将其转置相乘得到:
使用(9),我们写出 。给定 导数的(6),我们将 简化为 ,其中 是单应矩阵 的前两列,。通过写出 ,(3)简化为:
NRSfM来自等距/共形约束:到目前为止,我们已经以正在考虑的两个表面的法线为术语表达了度量张量保持条件。系统中唯一的未知数是 。现在我们将展示这个未知数实际上可以用闭合形式计算。
给定法线约束的乘性本质,(12)中的约束意味着:
这让我们重写矩阵 为:
将这个表达式注入等距/共形度量张量保持关系的(14)中得到:
这意味着:
其中 。假设 被归一化,即其第二奇异值为1,两个输入图像中观察到的3D点之间的关系由 给出。使用(5)得到 。通过写出 ,上述约束进一步简化为:
由于 ,我们将上述表达式除以 并用 重写,简化为:

退化情况

系统(19)只有在 是非零矩阵时才成立,这意味着 。因此, 不应该是正交矩阵。如果两个图像之间的相对变换是1)不存在的(零相对运动);2)纯粹是平移的;3)纯粹是旋转的;或4)纯粹是反射的,那么 将是正交的。因此,给定两幅不同的图像,如果其中一个是另一个的旋转、平移或翻转版本,则无法进行重建。在局部框架中,每个点对应必须避开这四个陷阱才能产生法线。因此,与全局方法相比,局部方法遇到退化数据的机会要高得多。例如,考虑图2中的第一二幅图像。虽然这些图像在全局上是不同的,但中心部分(以红色显示)非常接近于通过纯平移关联。其他局部方法[36]、[38]、[39]在该区域计算的法线因此是不可靠的。我们将这个区域归类为退化的,并忽略计算出的法线。然而,当将这些图像中的每一个与第三幅图像配对时,没有遇到退化。因此,可以通过考虑第三幅图像来重建红色区域中的法线。

仿射稳定性

在仿射成像条件下,,且 。在这种情况下, 保持非零,因此系统(19)不会变得退化,我们仍然可以计算法线。

解决方案

矩阵 是一个对称矩阵,用 表示,并可以用 和图像观测值 (, ) 数值计算。具体来说,(12)给出了闭合形式定义 。让我们写出 。由于 ,我们定义 并相应地展开系统(19)。这产生了6个约束,其中只有3个是唯一的。它们由下式给出:
通过求解前两个,我们得到 。我们使用第三个表达式来消除歧义。最终,这给出了两个潜在解的闭合形式表达式,写成:
其中

法线验证

因此获得的法线必须是对相机可见的。给定(7)中的解析法线, 是可见的,如果 ,即它们朝向相机的方向相似。我们丢弃不满足可见性约束的法线。

法线选择

使用(8), 处的局部深度导数 给出。从(21)中的解,我们得到局部深度导数的两个可能解 。我们选择最小化相应深度导数平方和的法线,即:
按照(5), 然后被获得为

退化度量

在退化情况下, 的奇异值 都是一。我们使用比率 来量化退化。因此,我们只在 时从 重建,我们设置

表面重建

我们考虑一个平面表面,并将其弯曲以匹配使用上述单应性分解获得的法线,而不是[36]、[38]、[39],它们在每个表面上集成法线。表面弯曲的优点是它不需要设置平滑参数,该参数需要针对法线积分进行调整。此外,表面弯曲在处理密集数据时比其法线积分对应物要快得多。它也不太受高透视图像区域中法线噪声的影响。

从多幅图像获得法线

像[36]、[38]、[39]这样的方法选择了一个参考图像,并制定了它与其他图像之间的重建约束,然后通过解决整个图像集上的最小二乘问题来解决。我们使用相同的策略,但我们从所有图像对中重建,每幅图像轮流作为其他图像的参考图像。因此,给定 幅图像,对于每个参考图像,我们为参考图像获得 个估计值,并对每个非参考图像获得一个估计值。通过考虑所有图像对,我们为每个图像上的法线获得 个估计值。换句话说,使用多个图像对可以为每个法线获得更多的估计值,这反过来又允许我们获得更可靠的估计,特别是在图2中突出显示的退化区域。
更正式地说,设 幅图像之间的一组 点对应关系。我们的目标是找到每个 对应的3D点 和法线 。使用(12),我们为每对图像 写出局部单应性 ,使用变形 。每个局部单应性 通过除以其第二奇异值来归一化。我们计算 ,由第一和第三奇异值的比率给出,以及每个局部单应性 的法线使用(21)。然后我们使用(22)选择一个唯一的解决方案。参考和非参考图像上的解决方案分别由 给出。
对于非退化情况,其中 ,我们通过取 参考图像上计算的 的中值来计算法线 。我们通过将平面表面弯曲以匹配每个表面上获得的法线来获得3D表面。
我们的方法概述在算法1中。

VI. 实验

我们在具有可用真实值的合成和真实数据集上将我们的方法与最先进的方法进行比较。

A. 数据集

我们的数据集包括我们在先前工作中使用的数据集、[44]中的数据集和NRSfM挑战数据集[19]。注意,Kinect、3D扫描仪和3D重建工具箱提供了嘈杂的深度观测,这些观测即使手动也无法在有限的范围内进行更正。因此,这些数据集上的性能略有近似。NRSfM挑战数据集是使用Blender等3D创建软件合成创建的,因此是准确的。因此,评估在这些数据集上的方法(和[44]中的方法)的相对性能可能与在NRSfM挑战数据集上评估的性能略有不同。
合成数据集:我们创建了3个平滑表面:一个平面、一个圆柱面和一个拉伸表面,跟踪了400个对应点,如图3所示。

真实数据集来自我们之前的工作:包括Paper[43]、Rug[37]和Tshirt[8]数据集。Paper包括191幅图像,来自一张变形纸片的视频,有1500个点对应关系。Rug包括159幅图像,来自一张变形地毯的视频,有3900个点对应关系。Tshirt有10幅宽基线图像和85个点对应关系。Paper数据集中的对应点是使用SIFT获得的,并手动检查了准确性,因此非常准确。相比之下,Rug数据集中的对应点是使用[14]中的密集光流方法计算的,包含由于光流漂移和由于缺乏纹理导致的区域不匹配的误差。Tshirt中的对应点是手动计算的。Paper和Rug的真实值是使用Kinect获得的,因此非常嘈杂、有抖动并且包含大的、不一致的深度变化。我们手动检查了每个框架的不准确性,并使用B样条变形拟合了一个平滑表面到嘈杂的数据上,获得了真实值的表面表示。Tshirt的真实值是使用多个视图的刚性重建计算的。
NRSfM挑战数据集[19]:包括5个图像序列,如图6所示。它们展示了5种非刚性运动:关节连接(分段刚性)有207幅图像和69个点对应关系,气球(共形)有51幅图像和211个点对应关系,纸张弯曲(等距)有40幅图像和153个点对应关系,橡胶(弹性)有40幅图像和481个点对应关系,纸张被撕裂有432幅图像和405个点对应关系。该数据集包括6种不同的相机运动的图像,并提供假设透视和正交投影的图像点。它只为每个序列提供一个真实值表面。对应点是稀疏的并且没有很好地分布在图像上。
[44]中使用的数据集:[44]发布了Paper、Tshirt、Actor和Expressions数据集,这些数据集已被许多基于物理和基于低秩约束的方法广泛使用。Paper图像与我们使用的相同。[44]使用了60 K密集对应点,使用光流[14]计算,并将Kinect原始深度数据视为真实值。Tshirt数据集有300幅图像,有70 K密集对应点,使用[14]计算,Kinect原始深度数据作为真实值。为了处理Kinect原始数据的不一致深度变化,[44]优化了原始数据并专注于这些数据集中不一致深度变化最小的部分,如图4所示。Actor包含100幅图像,展示了一张变形人脸,有36 K密集对应点,Expressions包括384个变形人脸的3D形状,有1000个点对应点。这两个数据集的真实值是合成的。图4显示了一些样本。

此外,[44]发布了Back、Owl和Heart视频序列,有使用[14]计算的密集对应点。这些数据集的真实值不可用。Back包含150幅图像,展示了背部的大变形,有20 K密集对应点。Owl包含202幅图像,展示了一只猫头鹰,有20 K密集对应点。Heart包含80幅图像,展示了手术中的跳动心脏,有68 K密集对应点。
蓝布数据集:此外,我们使用Kinect记录了一个特征为等距变形的纹理较少的蓝布视频序列。我们使用B样条变形拟合了一个平滑表面到真实值上。该序列包括60幅图像和7 K点对应关系,这些对应关系是使用密集光流[14]跟踪的。在纹理较少的表面上进行光流计算容易出错,我们获得的光流证实了这一点。

B. 基线和指标

我们将我们的方法与局部线性基于微分的NRSfM Pa20 [39]、联合求解等距/共形NRSfM Pa19 [38]、两种快速解决方案Pa21-R和Pa21-S [36],它们将原始约束转换为单变量多项式,容易求解,以及局部和分段单应性分解,Ch14 [8]和Va09 [50],分别进行比较。这些方法像我们的方法一样,重建局部/分段表面法线并集成它们以获得深度。注意,等距NRSfM的解在[37]中与Pa19中相同。因此,没有必要进行额外的比较。
我们报告了法线En和3D点Ed的准确性误差。En计算为真实值和计算法线之间的平均点积。上述方法中执行的法线积分通过强制局部平滑度来改善重建的法线质量。因此,我们还报告了En (s),它是平滑和真实法线之间的误差。Ed是真实值和计算3D点之间的平均均方根误差。
我们还将我们的方法与三种最好的全局方法Ch17 [9]、Ji17 [20]和Lee16 [28]以及一种密集方法An17 [5]进行了比较。它们直接返回3D点。因此,我们只为这些方法报告Ed。
在与[44]中使用的数据集进行比较时,我们报告Ed作为平均3D误差,如该方法中计算的。因此,,其中 Precon 是获得的重建, 是真实值, 是数据集中的图像数量。
在本节的其余部分中,我们将在本文中描述的方法称为Ours。

C. 比较结果

合成数据上的结果:图3显示了生成的表面。所有方法的性能是在10次试验中平均的,每次试验都添加了标准差为3像素的高斯噪声。由于Ours只能从两幅图像中重建,我们执行了成对重建和从每个表面可用的图像三元组中的联合重建。我们在表II中报告结果。对于执行法线积分的方法,我们报告了计算和平滑法线的误差。由于平滑,Ch14和Va09的法线误差有了巨大的改进,Pa19、Pa21-S和Pa21-R的改进相当大,Pa20的改进较小,而我们的方法改进较小。为了真正比较NRSfM技术本身,我们因此报告了计算法线的准确性,而不是平滑法线的准确性。我们仅用两幅图像就获得了非常准确的重建。除了Ours,Va09是唯一一个可以从两幅图像中重建的基线,但它在这个数据上的表现并不好。Lee16和An17是为视频序列设计的,因此需要多于3幅图像才能有效。其余的方法可以使用三幅图像,但它们的准确性低于我们,特别是在法线准确性方面。由于我们可以丢弃可靠性低的法线,使用多幅图像可以增强我们重建的准确性。图3通过描绘我们获得的未经任何平滑的法线进一步确认了我们重建的质量。

我们先前工作中使用的数据集上的结果:由于全局基线的计算复杂度随着对应点数量的增加而迅速增长,我们在全部对应点集和Paper和Rug上的350个对应点子集上评估了所有方法。例如,Ch17、Ji17具有立方复杂度,因此在有许多对应点时计算时间非常长。它们的Matlab实现在使用全部对应点时崩溃了,即使使用1000个对应点也需要在现代CPU上运行数小时。同样,Ch14和Va09需要近1小时来重建20幅图像,因此我们没有在这些数据集上评估它们。Tshirt数据集只有10幅宽基线图像。Lee16和An17不适用于宽基线数据,因此我们没有在该数据集上评估它们。
我们在表III中报告了我们的结果,并在图5中描述了定性结果。我们在Paper和Rug数据集上的所有对应点和部分对应点上都优于所有基线,在Ed方面。在Tshirt数据集上,Ch17和Ji17的性能更好。至关重要的是,我们的性能是以更低的计算成本实现的,通过求解一组闭合形式的方程,而不是调用复杂的求解器。因此,我们的方法在350个对应点上比Ch17快150倍,并且可以处理成千上万的对应点,而Ch17不能。此外,我们的方法也比Pa19快50倍,Pa19是使用昂贵的多项式求解器的局部对应方法,因为我们不必派生复杂的公式来获得每个对应点的唯一解。

表IV提供了所有方法在350和1500个点上运行时间的详细分析。我们假设输入的点对应关系及其导数是预先计算的。因此,时间只编码了法线或3D点的计算。我们的方法提供了最快的运行时间,其次是An17。注意,An17有并行实现并且是为计算优化的。相比之下,我们的方法,像所有其他方法一样,是在Matlab中实现的,并且没有针对速度进行优化。

其他局部方法的相对慢速是由于Pa19和Pa20的局部法线估计器必须最小化多项式的平方和,即使它具有线性复杂度,这也是昂贵的。Pa20进一步因必须将多项式转换为单变量表达式而减速。Pa21-S和Pa21-R获得了解析解,但需要相当昂贵的消歧。相比之下,我们的局部法线估计器在计算上很便宜,因为它有一个闭合形式的解。
测试LP和LL的有效性:表III比较了所有方法在完整和部分数据上的Paper和Rug数据集上的性能。在部分考虑Paper数据集时,我们均匀地对350个点进行了子采样,即原始数据的≈25%。在完整和部分数据上的性能分别是(Ed = 4.1, En = 9.1)和(Ed = 3.9, En = 8.9)。性能非常相似,对于部分数据略好。这是因为均匀采样的350个点(均匀分布在纸张上)足以在像纸张这样的平滑对象上使LP和LL假设成立。性能的轻微提高可以归因于部分数据上噪声的较小影响。
主要收获是,对于平滑对象,我们不需要密集的数据就能获得好的结果。然而,只有10%的数据(150个点)被均匀选择时,性能下降到(Ed = 8.1, En = 16.3)。这是一个显著的性能下降,表明在如此稀疏采样的数据上,LP和LL不是很好的近似。
我们通过随机选择10% - 90%的数据重复了实验。由于点是随机选择的,一些区域可能没有得到很好的覆盖,这导致LP和LL近似相当远。表V显示了结果。性能随着少于50%的数据而显著下降。这是因为在依赖于随机选择的稀疏数据时,LP和LL近似失败的机会更多。因此,要使用Ours获得良好的性能,应该使用在感兴趣的对象上广泛分布的对应点集。然而,不需要密集的数据。

NRSfM挑战数据集上的结果:表VI比较了Ours与其他方法在Ed方面的性能,以毫米为单位,Best是报告在基准统计网站上的最佳性能。局部方法显示出显著的性能改进,与其他方法相比。Pa19使用图像配准的二阶导数,这在这个数据集上可能非常错误。它使用了一个昂贵的多项式求解器,无法处理如此大的噪声,并且在许多情况下失败了。Pa21-S和Pa21-R找到了Pa19中提出的等距/共形NRSfM的解析解,需要非线性细化来获得唯一解;它们在这个数据集上获得了不错的结果。Pa20使用微分同胚约束来解决NRSfM,它只使用图像配准的一阶导数,因此不太受数据稀疏性的影响,并且比Pa21-S和Pa21-R表现得更好。Ours需要图像配准的二阶导数,但它配备了计算数据良好条件的度量。这让我们可以识别并丢弃非等距/非共形数据,并从尽可能等距(或共形)的数据中重建。因此,Ours比Pa20产生了更好的结果。图6显示了使用我们的方法获得的一些重建。
我们在[44]中使用的蓝布数据集和数据集上的结果:这些数据集在点对应关系或包含的图像数量方面都很大。我们将Ours的性能与An17进行了比较,An17是为重建密集对象而设计的,但它需要几个小时来重建。此外,我们报告了我们其他局部方法Pa19、Pa21-S和Pa21-R的性能。在这种情况下,我们报告了平均3D误差,以便与[44]中报告的性能进行比较,该报告在这些数据集上展示了最佳结果。表VII总结了结果。Ours在这些数据集上的性能优于大多数方法。Actor和Expressions序列相对简单,跨图像的相对运动很小。因此,所有局部方法在这些序列上的性能相似。An17在Actor序列上的表现优于Ours。然而,视觉性能非常相似,因为误差幅度非常低,达到了小数点后第三位。图9显示了一些重建。图7和10显示了蓝布、Paper和Tshirt数据集的结果,Ours的表现明显优于比较的方法。

我们还在Back、Owl和Heart数据集上评估了我们的方法。图8显示了这些数据集中一些图像的重建表面。

VII. 结论和未来工作

我们提出了一种NRSfM方法,可以从给定的2D变形和两幅图像之间的点对应关系中估算法线。它以闭合形式从各个对应关系中进行估算,因此非常快速。此外,它还可以估计这些法线是否可靠,给定一幅图像到下一幅图像的运动。当发现它们是可靠的,我们的实验表明它们确实是非常准确的。因此,我们的方法可以很好地处理各种变形类型,并且可以以低成本重建大和小的变形。局部方法需要图像配准的一阶和二阶导数,这些导数是通过变形计算的。通过变形计算二阶导数的计算成本很高,并且可能受到噪声的不利影响。此外,深度是通过在每个表面上集成局部法线来计算的,这是另一个昂贵的步骤。我们的下一个目标将是消除对计算变形和集成法线的昂贵方法的依赖,以便可以开发真正的实时应用程序。

声明

本文内容为论文学习收获分享,受限于知识能力,本文对原文的理解可能存在偏差,最终内容以原论文为准。本文信息旨在传播和学术交流,其内容由作者负责,不代表本号观点。文中作品文字、图片等如涉及内容、版权和其他问题,请及时与我们联系,我们将在第一时间回复并处理。

机器学习算法那些事
号主是大厂人工智能专家,专注于机器学习,深度学习以及计算机视觉等研究方向,每天会更新人工智能最前沿知识和分享自己的论文总结和学习笔记,让你系统化的学习每个知识点,每天进步一点点。
 最新文章