NeurIPS 2024 | CRAYM: 基于相机射线匹配的神经场优化

科技   2024-12-12 15:15   北京  

导读

本文是VCC林力强同学对论文 CRAYM: Neural Field Optimization via Camera RAY Matching 的解读,该工作来自深圳大学可视计算研究中心黄惠教授课题组,并已被发表在机器学习顶级会议NeurIPS 2024上。


项目主页: 
https://vcc.tech/research/2024/CRAYM

该工作提出了一种利用相机射线匹配来优化神经隐式场重建中位姿与场景表达的方法,不仅能得到更加真实的渲染效果,也能重建出更加精细的三维模型,为神经隐式场方法在相机位姿预估不精确时的各类应用打下了基础。



I


 引言 

近年来,多视角三维重建领域的最新进展受到了神经场技术的推动,包括隐式函数和辐射场等。所有图像到三维重建方法的关键组成部分,包括传统方法如多视角立体匹配 (MVS),都需要获取输入图像的相机位姿信息。在实践中,相机信息可能通过采集设备获得,例如通过GPS或惯性测量单元 (IMU),其他情况则通过运动结构恢复 (Structure from Motion, SfM) 等方法来估计位姿的。在这两种情况下,这些相机位姿可能存在噪声,从而影响多视角三维重建的性能。


本次导读论文介绍了一种在初始化位姿不精确的情况下进行神经隐式场重建的方法,将相机光线匹配引入到相机位姿和神经场的联合优化。该方法接受一组未校准位姿的图像作为输入来获取一个三维目标对象的表示,并经过训练神经场的优化目标以及对颜色和几何一致性的组合约束来预测特征体中的特征。神经网络主要通过强制两个匹配的关键点之间的两个关键射线的渲染结果之间的颜色一致性来保证匹配射线之间的一致性,同时考虑到由于遮挡或初始化匹配网络使用的不可靠局部图像特征而导致的潜在错误匹配。该方法首先通过特征体沿每条关键射线聚合特征。两条射线之间的可匹配性由射线特征的积分结果的余弦相似度定义,并将这种相似度作为一个权重,以增强或抵消颜色一致性约束,从而使优化模型在射线匹配错误的情况下能够自然地退化为分别处理不相关的射线。在不同数据集、不同位姿噪声水平等条件下进行测试,对比同期其他方法,该方法不仅能够得到更加真实的渲染结果,也能够重建出更加精细的三维模型。


II


 技术贡献 

本工作主要贡献如下:

  • 首次将相机射线匹配引入神经隐式场重建中,并针对两条匹配射线同时进行优化;

  • 提出了基于余弦相似性的相机射线一致性约束方法,在利用匹配信息的同时能够应对错误匹配的情况;

  • 巧妙利用了基于邻域点特征增强的相机射线特征增强方法与基于对极几何的相机射线约束来进一步有效约束相机位姿优化。


III


 方法介绍 

图1 算法流程图

神经隐式场方法从针对多个视角捕捉的一组图像中重建目标场景的三维隐式表达。这些图像针对一个三维对象采集得到,每个图像都与一个假设已知或利用算法估计的相机位姿  相关联,其中  且  神经网络通过最小化输入图像和目标三维对象的多视角渲染  之间的光度误差  来进行训练: 其中  是图像  在像素  处的颜色。每个像素实际上与从对象/场景出发通过像素中心且朝向相机中心的特定三维射线相关联  其中  是相机中心,  是射线  的归一化视线方向。射线  的渲染颜色,即像素颜色  ,可以通过沿射线r采样的点的颜色和不透明度 积分来生成。目标物体被表示为多分辨率哈希编码的特征体  并在对应的损失函数的监督下为目标对象进行端到端优化。从特征体  中可以提取相机射线  上的采样点  的特征  其中  是渐进特征掩码,用于在粗到精的训练早期迭代中过滤细粒度特征。

为了得到相机射线之间的匹配关系,方法首先使用SuperPoint检测每个输入图像上的关键点,并使用SuperGlue在图像对之间执行点对点匹配所提取到的关键点。这些步骤可以获得一组图像对之间的稀疏射线匹配,用于作为神经网络的初始化输入。为了充分利用关键点之外的像素信息,考虑两种类型的射线来优化特征体,即关键射线和辅助射线。这两种射线均是从相机经过像素中心发出,并与相机视图相关联。关键射线  通过图像中检测到的关键点,这些关键点通常对应于具有丰富纹理和几何形状特征的表面点。辅助射线  通过关键点周围的点,用以提供上下文或局部结构信息来增强关键射线上采样点的特征: 
其中  是沿关键射线  上的采样点  是沿着关键射线  周围的点  采样的辅助射线,函数  将关键射线上的采样点特征  和其周围的辅助射线上的采样点特征  进行融合。随后,几何网络  预测  处的有向距离场值和特征向量 根据这些输入,纹理网络进一步获取采样点处  的颜色值。射线   对应的像素颜色  通过沿射线采样的所有点的密度和颜色利用体渲染的形式得到: 其中函数  表示沿着对应射线  的积分透射率。

类似于颜色的积分结果,每条射线对应的特征  通过所有采样点的加权积分得到。当射线匹配关系正确且相机位姿正确时,匹配的关键射线之间的特征应当一致,因此利用两条匹配的关键射线之间的特征相似性来插值得到两条关键射线的颜色值: 在这种情况下,两条匹配的关键射线上之间的特征与采样点的颜色、不透明度能够被同时进行优化。这种联合优化匹配射线的方法能够利用射线特征的相似度来自适应匹配精确度,同时使得优化模型在射线匹配错误的情况下能够自然地退化为分别处理不相关的射线。
IV


 部分结果展示 

表1 NeRF-Synthetic数据集中LEGO数据上的位姿配准误差
表1对比了本文所提出的方法与其他方法的位姿优化结果误差,可以看到,本文方法利用相机射线匹配关系,能够更好地优化相机位姿。

图2 NeRF-Synthetic数据集的新视角合成和表面重建的结果
图2展示了本文方法在虚拟物体数据集NeRF-Synthetic上的新视角合成结果与表面重建结果。利用相机射线匹配关系,本文所提出的神经隐式场重建方法能够产生干净完整的渲染和重建结果,浮游物更少,清晰度更好,细节程度丰富。
图3 UrbanScene3D数据集上的新视角合成与表面重建结果

图3为本文所提出的方法在户外大规模真实场景数据集UrbanScene3D上一个场景的测试结果。由于该方法利用了相机射线之间的匹配关系,能够更好地优化相机位姿与隐式场表达,因此能够得到更加稳定且细节丰富的结果。而其他方法优化得到的位姿误差较大,因此合成的新视角结果缺乏细节,重建结果误差较大。


V


 总结与展望 
本文基于射线匹配的神经场优化方法解决了多视角三维重建和视角合成中不精确相机位姿的问题。其思想是在关键射线一致性模块中通过结合上下文信息进行点云增强和通过匹配射线增强模块来强制几何和光度一致性,从而联合优化神经场和相机位姿,利用辅助射线中采样点的特征增强关键射线的采样点,从而产生了具有精细几何细节的高质量渲染和重建。实验表明,该方法在各种设置下均优于现有的其他方法。然而,从构建的SDF中提取的网格仍可能包含在不可见区域的内部混乱结构,需要额外的约束来解决这些问题。

VI


 思考与讨论 
Q: 重建的三角网格内部为何会有错误结构,如何解决?
A: 该方法仅对物体表面的颜色与不同视角的匹配关系进行约束,缺乏物体内部信息,因此无法得到正确的物体内部结构。为了从重建的结果中剔除错误的结构,可以通过计算外部相机对mesh的可见性从而删除不可见区域,也可以在隐式场优化的过程中计算不同视图的深度信息,添加损失函数使表面内部的SDF不为零。


Q: 本文方法还存在哪些潜在的优化方向?
A: 当位姿随机初始化或噪声极大时,本文方法的隐式场和位姿变换的优化可能无法收敛。在场优化之前引入更强的位姿正则化先验有望解决这个问题。此外,本文的方法被设计为依赖于稀疏关键射线进行稠密视图重建,而使用密集的射线匹配可能会带来额外的开销。在这种情况下,分辨率和图像数量增加,算法开销也随之增大。然而,利用射线匹配来处理稀疏和密集输入,可以进一步提高重建的效果。如何在利用密集匹配信息的基础下提高算法效率也是一个优化的方向。 

以下是开放性问题,欢迎读者朋友留言讨论: 
Q: 本文提出的方法针对一组位姿不精确的输入图像利用相机射线匹配关系进行相机位姿与神经隐式场的同步优化。如何将该方法的思路与基于神经隐式场的SLAM结合?3D Gaussian splatting[6] 方法采用了显示表达来表征目标物体,提高渲染效率,但难以得到精细的重建结果,有哪些可以结合两个工作的可能方向?

-- End --


导 读 | 林力强
审 核 | 黄惠
编 辑 | 申金、余鑫泉

参考文献

[1] Ben Mildenhall, Pratul P. Srinivasan, Matthew Tancik, Jonathan T. Barron, Ravi Ramamoorthi, and Ren Ng. NeRF: representing scenes as neural radiance fields for view synthesis. Communications of the ACM. 65(1), 99-106, 2021.

[2] Peng Wang, Lingjie Liu, Yuan Liu, Christian Theobalt, Taku Komura, and Wenping Wang. NeuS: learning Neural Implicit Surfaces by Volume Rendering for Multi-view Reconstruction. Advances in Neural InfoAÅrmation Processing Systems (NeurIPS). 27171-27183, 2021.

[3] Yiqun Wang, Ivan Skorokhodov, Peter Wonka. PET-NeuS: positional encoding tri-planes for neural surfaces. Conference on Computer Vision and Pattern Recognition (CVPR). 12598-12607, 2023.

[4] Chen-Hsuan Lin, Wei-Chiu Ma, Antonio Torralba, and Simon Lucey. BARF: bundle-adjusting neural radiance fields. International Conference on Computer Vision (ICCV). 5721-5731, 2021.

[5] Yue Chen, Xingyu Chen, Xuan Wang, Qi Zhang, Yu Guo, Ying Shan, and Fei Wang. L2G-NeRF: local-to-global registration for bundle-adjusting neural radiance fields. Conference on Computer Vision and Pattern Recognition (CVPR). 8264-8273, 2023.

[6] Bernhard Kerbl, Georgios Kopanas, Thomas Leimkühler, and George Drettakis. 3D gaussian splatting for real-time radiance field rendering. ACM Transactions on Graphics (SIGGRAPH). 42(4), 139:1-139:14, 2023. 


arXiv每日学术速递
工作日更新学术速递!官网www.arxivdaily.com。
 最新文章