NeurIPS 2024 | CRAYM: 基于相机射线匹配的神经场优化

科技 2024-12-12 15:15 北京

导读

本文是VCC林力强同学对论文 CRAYM: Neural Field Optimization via Camera RAY Matching 的解读，该工作来自深圳大学可视计算研究中心黄惠教授课题组，并已被发表在机器学习顶级会议NeurIPS 2024上。

项目主页：

https://vcc.tech/research/2024/CRAYM

该工作提出了一种利用相机射线匹配来优化神经隐式场重建中位姿与场景表达的方法，不仅能得到更加真实的渲染效果，也能重建出更加精细的三维模型，为神经隐式场方法在相机位姿预估不精确时的各类应用打下了基础。

引言

近年来，多视角三维重建领域的最新进展受到了神经场技术的推动，包括隐式函数和辐射场等。所有图像到三维重建方法的关键组成部分，包括传统方法如多视角立体匹配 (MVS)，都需要获取输入图像的相机位姿信息。在实践中，相机信息可能通过采集设备获得，例如通过GPS或惯性测量单元 (IMU)，其他情况则通过运动结构恢复 (Structure from Motion, SfM) 等方法来估计位姿的。在这两种情况下，这些相机位姿可能存在噪声，从而影响多视角三维重建的性能。

本次导读论文介绍了一种在初始化位姿不精确的情况下进行神经隐式场重建的方法，将相机光线匹配引入到相机位姿和神经场的联合优化。该方法接受一组未校准位姿的图像作为输入来获取一个三维目标对象的表示，并经过训练神经场的优化目标以及对颜色和几何一致性的组合约束来预测特征体中的特征。神经网络主要通过强制两个匹配的关键点之间的两个关键射线的渲染结果之间的颜色一致性来保证匹配射线之间的一致性，同时考虑到由于遮挡或初始化匹配网络使用的不可靠局部图像特征而导致的潜在错误匹配。该方法首先通过特征体沿每条关键射线聚合特征。两条射线之间的可匹配性由射线特征的积分结果的余弦相似度定义，并将这种相似度作为一个权重，以增强或抵消颜色一致性约束，从而使优化模型在射线匹配错误的情况下能够自然地退化为分别处理不相关的射线。在不同数据集、不同位姿噪声水平等条件下进行测试，对比同期其他方法，该方法不仅能够得到更加真实的渲染结果，也能够重建出更加精细的三维模型。

技术贡献 ‍

本工作主要贡献如下：

首次将相机射线匹配引入神经隐式场重建中，并针对两条匹配射线同时进行优化；
提出了基于余弦相似性的相机射线一致性约束方法，在利用匹配信息的同时能够应对错误匹配的情况；
巧妙利用了基于邻域点特征增强的相机射线特征增强方法与基于对极几何的相机射线约束来进一步有效约束相机位姿优化。

III

方法介绍

图1 算法流程图

神经隐式场方法从针对多个视角捕捉的一组图像中重建目标场景的三维隐式表达。这些图像针对一个三维对象采集得到，每个图像都与一个假设已知或利用算法估计的相机位姿

{\mathcal{T}}_i = [R_i | t_i]

相关联，其中

R_i∈SO(3)

且

t_i∈R^3。

神经网络通过最小化输入图像和目标三维对象的多视角渲染

\left\{ \hat{I}_i \right\}_{i = 1}^M

之间的光度误差

L_p

来进行训练：

\min_{i} \sum_{x} \sum_{i} \| I_i(x) - \hat{I}_i(x) \|_2^2

其中

I_i (x)

是图像

I_i

在像素

x

处的颜色。每个像素实际上与从对象/场景出发通过像素中心且朝向相机中心的特定三维射线相关联

：\mathbf{r}(t) = \mathbf{r}_o + t\mathbf{r}_d |t \geq 0

其中

r_o

是相机中心，

r_d

是射线

r

的归一化视线方向。射线

r

的渲染颜色，即像素颜色

I_i (x)

，可以通过沿射线r采样的点的颜色和不透明度

σ

积分来生成。目标物体被表示为多分辨率哈希编码的特征体

V，

并在对应的损失函数的监督下为目标对象进行端到端优化。从特征体

V

中可以提取相机射线

r

上的采样点

p

的特征

f(p)：

f(p)=M(V(p))

其中

M

是渐进特征掩码，用于在粗到精的训练早期迭代中过滤细粒度特征。

为了得到相机射线之间的匹配关系，方法首先使用SuperPoint检测每个输入图像上的关键点，并使用SuperGlue在图像对之间执行点对点匹配所提取到的关键点。这些步骤可以获得一组图像对之间的稀疏射线匹配，用于作为神经网络的初始化输入。为了充分利用关键点之外的像素信息，考虑两种类型的射线来优化特征体，即关键射线和辅助射线。这两种射线均是从相机经过像素中心发出，并与相机视图相关联。关键射线

r_k

通过图像中检测到的关键点，这些关键点通常对应于具有丰富纹理和几何形状特征的表面点。辅助射线

r_a

通过关键点周围的点，用以提供上下文或局部结构信息来增强关键射线上采样点的特征：

f'(p_k) = \sum_j g(f(p_k), f(q_j))

其中

p_k

是沿关键射线

r_k

上的采样点

，q_j

是沿着关键射线

r_k

周围的点

j

采样的辅助射线，函数

g

将关键射线上的采样点特征

f(p_k )

和其周围的辅助射线上的采样点特征

f(q_i )

进行融合。随后，几何网络

Φ_g

预测

p_k

处的有向距离场值和特征向量

f^″(p_k )。

根据这些输入，纹理网络进一步获取采样点处

p_k

的颜色值。射线

r

对应的像素颜色

c(r)

通过沿射线采样的所有点的密度和颜色利用体渲染的形式得到:

c(r) = \int_{0}^{\infty} \mathcal{T}(p) \sigma(p) c(p) dt \

其中函数

\mathcal{T}(\mathbf{r}_k(t)) = \exp \left( - \int_0^t \sigma(s) \, ds \right) \

表示沿着对应射线

r_k

的积分透射率。

类似于颜色的积分结果，每条射线对应的特征

f(r)

通过所有采样点的加权积分得到。当射线匹配关系正确且相机位姿正确时，匹配的关键射线之间的特征应当一致，因此利用两条匹配的关键射线之间的特征相似性来插值得到两条关键射线的颜色值：

c(\mathbf{r}_k) = wc(\mathbf{r}_k') + (1 - w)c(\mathbf{r}_k)

在这种情况下，两条匹配的关键射线上之间的特征与采样点的颜色、不透明度能够被同时进行优化。这种联合优化匹配射线的方法能够利用射线特征的相似度来自适应匹配精确度，同时使得优化模型在射线匹配错误的情况下能够自然地退化为分别处理不相关的射线。

部分结果展示

表1 NeRF-Synthetic数据集中LEGO数据上的位姿配准误差

表1对比了本文所提出的方法与其他方法的位姿优化结果误差，可以看到，本文方法利用相机射线匹配关系，能够更好地优化相机位姿。

图2 NeRF-Synthetic数据集的新视角合成和表面重建的结果

图2展示了本文方法在虚拟物体数据集NeRF-Synthetic上的新视角合成结果与表面重建结果。利用相机射线匹配关系，本文所提出的神经隐式场重建方法能够产生干净完整的渲染和重建结果，浮游物更少，清晰度更好，细节程度丰富。

图3 UrbanScene3D数据集上的新视角合成与表面重建结果

图3为本文所提出的方法在户外大规模真实场景数据集UrbanScene3D上一个场景的测试结果。由于该方法利用了相机射线之间的匹配关系，能够更好地优化相机位姿与隐式场表达，因此能够得到更加稳定且细节丰富的结果。而其他方法优化得到的位姿误差较大，因此合成的新视角结果缺乏细节，重建结果误差较大。

总结与展望

本文基于射线匹配的神经场优化方法解决了多视角三维重建和视角合成中不精确相机位姿的问题。其思想是在关键射线一致性模块中通过结合上下文信息进行点云增强和通过匹配射线增强模块来强制几何和光度一致性，从而联合优化神经场和相机位姿，利用辅助射线中采样点的特征增强关键射线的采样点，从而产生了具有精细几何细节的高质量渲染和重建。实验表明，该方法在各种设置下均优于现有的其他方法。然而，从构建的SDF中提取的网格仍可能包含在不可见区域的内部混乱结构，需要额外的约束来解决这些问题。

思考与讨论

Q: 重建的三角网格内部为何会有错误结构，如何解决？

A: 该方法仅对物体表面的颜色与不同视角的匹配关系进行约束，缺乏物体内部信息，因此无法得到正确的物体内部结构。为了从重建的结果中剔除错误的结构，可以通过计算外部相机对mesh的可见性从而删除不可见区域，也可以在隐式场优化的过程中计算不同视图的深度信息，添加损失函数使表面内部的SDF不为零。

Q: 本文方法还存在哪些潜在的优化方向？

A: 当位姿随机初始化或噪声极大时，本文方法的隐式场和位姿变换的优化可能无法收敛。在场优化之前引入更强的位姿正则化先验有望解决这个问题。此外，本文的方法被设计为依赖于稀疏关键射线进行稠密视图重建，而使用密集的射线匹配可能会带来额外的开销。在这种情况下，分辨率和图像数量增加，算法开销也随之增大。然而，利用射线匹配来处理稀疏和密集输入，可以进一步提高重建的效果。如何在利用密集匹配信息的基础下提高算法效率也是一个优化的方向。

以下是开放性问题，欢迎读者朋友留言讨论：

Q: 本文提出的方法针对一组位姿不精确的输入图像利用相机射线匹配关系进行相机位姿与神经隐式场的同步优化。如何将该方法的思路与基于神经隐式场的SLAM结合？3D Gaussian splatting[6] 方法采用了显示表达来表征目标物体，提高渲染效率，但难以得到精细的重建结果，有哪些可以结合两个工作的可能方向?

-- End --

导读 | 林力强

审核 | 黄惠

编辑 | 申金、余鑫泉

参考文献

[1] Ben Mildenhall, Pratul P. Srinivasan, Matthew Tancik, Jonathan T. Barron, Ravi Ramamoorthi, and Ren Ng. NeRF: representing scenes as neural radiance fields for view synthesis. Communications of the ACM. 65(1), 99-106, 2021.

[2] Peng Wang, Lingjie Liu, Yuan Liu, Christian Theobalt, Taku Komura, and Wenping Wang. NeuS: learning Neural Implicit Surfaces by Volume Rendering for Multi-view Reconstruction. Advances in Neural InfoAÅrmation Processing Systems (NeurIPS). 27171-27183, 2021.

[3] Yiqun Wang, Ivan Skorokhodov, Peter Wonka. PET-NeuS: positional encoding tri-planes for neural surfaces. Conference on Computer Vision and Pattern Recognition (CVPR). 12598-12607, 2023.

[4] Chen-Hsuan Lin, Wei-Chiu Ma, Antonio Torralba, and Simon Lucey. BARF: bundle-adjusting neural radiance fields. International Conference on Computer Vision (ICCV). 5721-5731, 2021.

[5] Yue Chen, Xingyu Chen, Xuan Wang, Qi Zhang, Yu Guo, Ying Shan, and Fei Wang. L2G-NeRF: local-to-global registration for bundle-adjusting neural radiance fields. Conference on Computer Vision and Pattern Recognition (CVPR). 8264-8273, 2023.

[6] Bernhard Kerbl, Georgios Kopanas, Thomas Leimkühler, and George Drettakis. 3D gaussian splatting for real-time radiance field rendering. ACM Transactions on Graphics (SIGGRAPH). 42(4), 139:1-139:14, 2023.

arXiv每日学术速递

工作日更新学术速递！官网www.arxivdaily.com。

最新文章

CVPR今年这情况，很严重，大家做好准备吧

arXiv每日学术速递2024.12.20

小红书MySQL数据一致性校验能力探索与实践

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

arXiv每日学术速递2024.12.19

论文一起读 | Aerial Lifting: 基于航拍图像的城市语义与建筑实例提取

北航&清华联合发力！Stag-1：视频生成模型实现超逼真的4D驾驶场景算法！

245个目标检测开源项目合集，建议收藏！

arXiv每日学术速递2024.12.18

图像标注神器 X-AnyLabeling v2.5.0 重磅发布 | 通用视觉任务全新升级，交互式视觉-文本提示功能全面上线！

头发和脂肪只能二选一？西湖大学最新Cell：长期轻断食，小心发量！

arXiv每日学术速递2024.12.17

SIGGRAPH Asia 2024 | 建筑群细节层次联合生成

预测2025顶会多模态大模型热门research！

arXiv每日学术速递2024.12.16

Gaussian的含金量还在提升！清华&鉴智强强联合GaussianFormer-2：拿下OCC新SOTA~

AWQ：适合端侧的 4-bit 大语言模型权重量化｜大模型轻量化系列解读 (二)

哗然！MIT教授NeurIPS演讲公开歧视中国学生，大会官方认错、本人道歉

跨模态微调：先对齐后细化

Rho-1：基于选择token建模的预训练方法

你不要错过的EI会议大盘点，赶紧来看看！

arXiv每日学术速递2024.12.13

一周发明GAN！时间检验奖得主分享背后故事：每件发明都不是最后的发明

专题解读 | EDA中逻辑综合的算子序列优化问题

1年内11名博士生自杀，顶尖高校陷博士生自杀危机，疑因要求学生每学期发1篇SCI

arXiv每日学术速递2024.12.12

NeurIPS 2024 | CRAYM: 基于相机射线匹配的神经场优化

没创新点！照样中顶会！

arXiv每日学术速递2024.12.11

久等了！希望这篇万字长文能帮助入门的朋友彻底搞懂车道线检测（中科院最新综述）

专题解读 | 大语言模型辅助代码文档生成

Idea也能自动生成？| 浙大阿里联合提出科研Ideas自动生成工具SciPIP

arXiv每日学术速递2024.12.10

TPAMI 2024 | 北大提出实用、紧致的智能图像压缩感知技术，代码已开源！

NeurIPS 24｜让模型预见分布漂移：动态系统颠覆性设计引领时域泛化新革命

Pattern Recognition | 同时关注局部和全局信息，利用注意力抓取不同粒度的视觉信息来描述图片

快速学会登上nature的热门算法，LSTM！

arXiv每日学术速递2024.12.9

登Science子刊！上海交大联合上海AI Lab等发布蛋白质突变体设计模型，优于最先进方法

《我的世界》搞数学研究，估算欧拉数误差仅0.00766%！数学博士的跨界花活儿火了

论文一起读 | 面向点云流时空建模的4维Transformer点云网络

CogVLM：预训练语言模型的视觉专家

刚刚，2025 IEEE Fellow名单出炉：戴琼海、姜大昕、尹首一、翟广涛、褚晓文等人入选

VeCLIP：通过视觉增强的字幕改进CLIP训练

扩散模型部署有新解，直接量化为4bit？韩松团队等提出SVDQuant：16GB笔记本上加速8.7 倍

独自一人，怒发顶会！

arXiv每日学术速递2024.12.6

MetaTransformer：一种用于多模态学习的统一框架

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉