点击下方卡片,关注“AI前沿速递”公众号
点击下方卡片,关注“AI前沿速递”公众号
各种重磅干货,第一时间送达
各种重磅干货,第一时间送达
1. 【导读】
【论文标题】GLOMAP: Structure-from-Motion Revisited
【论文链接】https://demuc.de/papers/pan2024glomap.pdf
【项目主页】https://lpanaf.github.io/eccv24_glomap
【作者单位】1 ETH Zurich 2 Microsoft
2. 【摘要】
从图像中恢复 3D 结构与相机运动的结构光运动(SfM)问题一直是计算机视觉领域的关键研究点。解决该问题的方法主要有增量式和全局式两种。目前,增量式方法因较高的准确性和鲁棒性受到广泛应用,然而全局式方法在可扩展性和效率上更具优势。在本文中,作者重新探讨了全局 SfM 问题,并提出了通用系统 GLOMAP。该系统在准确性和鲁棒性方面与最常用的增量式 SfM 系统 COLMAP 相当,甚至更优,同时运行速度比 COLMAP 快几个数量级。
3. 【工作原理和基本方法】
1.特征轨迹构建:
从两视图几何验证产生的内点特征对应关系入手。根据两视图几何的初始分类情况,若同态矩阵能最好地描述两视图几何,便使用来验证内点,本质矩阵和基础矩阵的情况同理。之后,通过手性测试进一步剔除异常点,去除那些靠近极点或者三角测量角度过小的匹配,以此避免因不确定性较大而产生的奇异性问题。最后,将剩余的匹配连接起来,从而形成特征轨迹 。
2.相机和点的全局定位:
摒弃传统先进行平移平均再全局三角测量的方式,直接对相机和点的位置进行联合估计。以归一化方向差异作为误差度量,将问题建模并优化为。其中,代 表 从 相 机 相机光线,是归一化因子。选用 Huber 作为稳健函数, Levenberg-Marquardt 作为优化器。所有点和相机变量在[-1,1]的范围内进行均匀随机初始化,归一化因子初始值设为 1。对于具有未知内参的相机相关项,将其权重设置为原来的,以此减少其对结果的影响 。 4.相机聚类:针对互联网图像中可能出现的非重叠图像错误匹配问题,首先构建共可见性图,通过统计每对
3.全局光束平差法:
对相机和点执行多轮全局光束平差操作。在每一轮中,先固定相机的旋转,然后将其与相机内参和点进行联合优化。在构建第一个光束平差问题之前,基于角度误差对 3D 点观测进行预过滤,对于未校准的相机允许存在更大的误差。之后,依据图像空间中的重投影误差对轨迹进行过滤,当过滤轨迹的比例低于0.1%时,停止迭代。
4. 相机聚类:
针对互联网图像中可能出现的非重叠图像错误匹配问题,首先构建共可见性图,通过统计每对图像的可见点数,舍弃可见点数少于 5 的图像对,接着以剩余图像对的中位数来设置内点阈值。通过寻找强连通分量来确定约束良好的相机簇,若两个强连通分量之间至少存在两条边的可见点数超过,则尝试将它们合并。不断递归重复这一过程,直至无法再进行合并,最终将每个连通分量作为一个单独的重建输出。
4.【流程】:
匹配搜索
1.特征提取与匹配:
从输入图像中提取显著图像特征,传统上先检测特征点,再用基于检测点局部上下文的紧凑描述子进行描述。之后搜索图像对之间的特征对应关系,先高效识别有重叠视场的图像子集,再进行更耗时的匹配过程。匹配通常先基于紧凑视觉描述子进行,初始会产生较多外点,然后通过稳健地恢复重叠图像对的两视图几何来验证,得到单应性矩阵 (用于平面场景一般运动和一般场景纯相机旋转)、基础矩阵 (未校准)和本质矩阵 (校准)。当相机内参近似已知时,可将其分解为相对旋转和相对平移
2.视图图校准:
与 Sweeney 等人的方法类似,对几何验证后的图像对进行视图图校准。利用估计出的两视图几何,结合更新后的相机内参,估计相对相机位姿,为后续全局估计提供更准确的输入。在本文实验中,依赖COLMAP 的对应搜索实现,采用 RootSIFT 特征和可扩展词袋图像检索来寻找用于暴力特征匹配的候选重叠对。
全局估计
1.全局旋转估计:
通过平均法估计全局旋转,同时通过阈值化与之间的角度距离来过滤不一致的相对位姿。具体实现中,使用 Chatterjee 等人提出的方法的自定义实现,该方法在存在噪声和异常值的输入旋转中能提供准确结果 。
2.全局定位:
这是 GLOMAP 与其他全局 SfM 系统的核心区别之一。传统方法先进行平移平均再全局三角测量,而 GLOMAP 直接联合估计相机和点的位置。以归一化方向差异作为误差度量,构建并优化的问题为,其中是从相机观 察 点 的 全 局 旋 转 相 机 光线,是归一化因子。使用 Huber 作为稳健函数, Levenberg-Marquardt 作为优化器,所有点和相机变量在[-1,1] 范围内均匀随机初始化,归一化因子初始化为 1。对具有未知内参的相机相关项加权为原来的 ,以降低其影响。此方法对具有不准确或未知相机内参以及共线运动场景的数据有更好的适用性。
3.全局光束平差(结构优化):
全局定位步骤为相机和点提供了一个较为鲁棒的估计,但准确性仍有提升空间,尤其是当相机内参未知时。因此,进行多轮全局光束平差。每一轮先固定相机旋转,再与内参和点联合优化。在构建第一个光束平差问题前,基于角度误差对 3D 点观测进行预过滤,对未校准相机允许更大误差。之后,根据图像空间中的重投影误差过滤轨迹,当过滤轨迹的比例低于 0.1% 时停止迭代,通过这种方式进一步优化相机位姿和 3D 结构,提高重建的准确性。此外,还可选择进行结构优化,重新三角化点并执行多轮全局光束平差,以进一步提升重建精度;对于可能存在错误匹配的图像,如互联网图像,可应用相机聚类来获得更一致的重建结果 。
核心步骤是全局定位。在此步骤中,相机位置和图像点是从随机位置共同估计的。
5. 【实验结果】
校准图像集合测试
ETH3D SLAM 数据集:
GLOMAP 的召回率比 COLMAP 高出约 8%,在 0.1m 和 0.5m 阈值下,AUC 得分分别比 COLMAP 高出 9 分和 8 分,而 COLMAP 的运行速度比 GLOMAP 慢一个数量级。
ETH3D MVS(rig)数据集:
GLOMAP 成功重建了所有场景,在 COLMAP 成功重建的序列中,GLOMAP 的精度与 COLMAP 相似甚至更高,且运行时间约为 COLMAP 的。 ETH3D MVS(DSLR)数据集:GLOMAP 的性能优于 OpenMVG 和 Theia,与 COLMAP 的精度相当。
LaMAR 数据集:
在 HGE 和 LIN 场景中,GLOMAP 的重建精度显著高于包括 COLMAP 在内的其他基线方法,并且运行速度比 COLMAP 快几个数量级。
未校准图像集合测试
IMC 2023 数据集:
GLOMAP 在 3°、5° 和 10° 的平均 AUC 得分是其他全局 SfM 基线的数倍,运行时间与其他全局 SfM 管道相近,在这几个角度下的 AUC 得分比 COLMAP 高约 4 分,运行速度约为 COLMAP 的 8 倍。
MIP360 数据集:
GLOMAP 比其他全局 SfM 方法更接近参考模型,与 COLMAP 的结果相似,但运行速度比 COLMAP 快 1.5 倍以上。
消融实验:
通过对比不同约束条件下的性能,发现相对平移约束会降低收敛性和整体性能,仅使用点约束时性能最佳。
如下是实验结果图:
6. 【局限性】
尽管该方法总体上取得了令人满意的性能,但仍存在一些失败的情况。其中最主要的原因是旋转平均步骤的失败,例如,由于对称结构(见表 3 中的展览厅示例)。在这种情况下,我们的方法可以与现有的方法(如 Doppelganger )相结合来加以改进。此外,由于我们依赖于传统的对应搜索方法,所以如果两视图几何的估计不准确,或者根本无法匹配图像对(例如,由于外观或视角的剧烈变化),就会导致结果变差,在最糟糕的情况下,甚至会出现灾难性的失败。
7. 【总结】
作者提出的 GLOMAP 作为一种全新的全局 SfM 管道,将相机位置估计和 3D 结构三角测量合并为单个全局定位步骤。通过在多种数据集上进行广泛实验,结果表明该系统在准确性和鲁棒性方面与增量式方法相当,甚至更优,同时运行速度快几个数量级。
8. 【代码】
附上【代码链接】https://github.com/colmap/glomap
确保文章为个人原创,未在任何公开渠道发布。若文章已在其他平台发表或即将发表,请明确说明。
建议使用Markdown格式撰写稿件,并以附件形式发送清晰、无版权争议的配图。
【AI前沿速递】尊重作者的署名权,并为每篇被采纳的原创首发稿件提供具有市场竞争力的稿酬。稿酬将根据文章的阅读量和质量进行阶梯式结算。
您可以通过添加我们的小助理微信(aiqysd)进行快速投稿。请在添加时备注“投稿-姓名-学校-研究方向”
长按添加AI前沿速递小助理