论文题目:DUSt3R: Geometric 3D Vision Made Easy
论文链接:https://arxiv.org/abs/2312.14132
报告链接:https://dust3r.europe.naverlabs.com/nle-assets/FromCroCoToMASt3R.pdf
代码链接:https://github.com/naver/dust3r
一、摘要
在野外的多视图立体重建 (MVS) 首先需要估计相机参数,例如内参和外参。获取这些参数通常既繁琐又麻烦,但它们是将对应像素在三维空间中进行三角测量的必要条件,而这是所有表现最佳的 MVS 算法的核心。在这项工作中,我们采取了相反的立场,介绍了 DUSt3R,这是一种用于任意图像集合的密集和无约束立体3D重建的全新范式,即无需事先了解相机校准或视点姿态。我们将成对重建问题视为点图的回归,放宽了通常的投影相机模型的严格约束。我们证明了这种形式能够顺利地统一单目和双目重建的情况。在提供多于两张图像的情况下,我们进一步提出了一种简单而有效的全局对齐策略,将所有成对点图表达在一个共同的参考框架中。我们的网络架构基于标准的Transformer编码器和解码器,使我们能够利用强大的预训练模型。我们的形式直接提供了场景的3D模型以及深度信息,但有趣的是,我们可以从中无缝恢复像素匹配、相对和绝对相机参数。对所有这些任务的详尽实验展示了所提出的DUSt3R能够统一各种3D视觉任务,并在单目/多视图深度估计以及相对姿态估计上设立新的最先进水平(SoTA)。总之,DUSt3R使许多几何3D视觉任务变得简单。
二、实验
这里展示部分结果,更多结果请参考论文。