点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入「3D视觉从入门到精通」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0. 论文信息
数据集连接:https://drive.google.com/drive/folders/1Mi8WEjpVM7m8ZhOYG_pS9Zu02ApyU424
官方主页:https://tau-vailab.github.io/ExtremeRotationsInTheWild/
1. 导读
我们提出了一种技术和基准数据集,用于估计在极端设置下捕获的一对互联网图像之间的相对3D方向,其中图像具有有限或不重叠的视野。针对极端旋转估计的现有工作假设受限的3D环境,并通过从全景视图中裁剪区域来模拟透视图像。然而,在野外拍摄的真实图像是高度多样化的,表现出外观和相机内在的变化。在这项工作中,我们提出了一种基于变换的方法来估计极端现实环境中的相对旋转,并提供了ExtremeLandmarkPairs数据集,该数据集由场景级互联网照片集合组装而成。我们的评估表明,我们的方法成功地估计了各种极端视图互联网图像对中的相对旋转,优于各种基线,包括专用旋转估计技术和当代3D重建方法。
2. 引言
估计一对图像之间的相对三维方向的问题是计算机视觉基础任务的核心,例如相机定位和三维重建。计算图像之间的相对旋转通常需要先建立像素对应关系(无论是显式还是隐式)。然而,在图像几乎没有重叠或完全没有重叠的极端情况下,无法提取对应关系。由于许多实际应用中可能无法获得密集的图像,因此自然而然地产生了一个问题:在不使用额外数据(如深度信息或时间信息)的情况下,如何估计非重叠RGB图像之间的相对旋转?
最近,我们见证了先驱性的努力,这些努力致力于解决在如此极端的非重叠设置中进行相对旋转估计的任务。先前的工作提出了端到端的神经架构,证明了诸如消失点或投射阴影的方向等隐藏线索可以隐式地引导模型推断图像之间的相对方向。为了便于学习和评估,采用了由全景视图构建的数据集。这些数据集通过从这些全景图中裁剪子区域来模拟透视视图,从而能够生成具有不同程度重叠的图像对。然而,尽管这些模拟视图或许能够捕捉到与极端视角图像相关的一些挑战,但它们是否足以代表真实图像——特别是野外捕获的图像?
在本文中,我们提出了一种新方法,以解决野外极端旋转估计的问题。互联网(即野外)图像可能因多种因素而异,包括临时物体、天气条件、一天中的时间以及相机的固有参数。为了探索这个问题,我们引入了一个新的数据集ExtremeLandmarkPairs(ELP),该数据集由公开可用的场景级互联网图像集合组成。我们观察到,真正的极端视角图像对集合是有限的,因为互联网数据集通常以场景为中心,附近的相机通常会捕捉到重叠的视图。因此,为了促进训练,我们提出了一种渐进式学习方案,该方案利用并增强了从全景视图中裁剪的图像,从而使模型能够逐渐泛化到真实的互联网数据上。特别是,我们构建了具有不同视野的数据集,这些数据集更好地模拟了真实数据的分布,并通过利用最近文本到图像扩散模型的进展来进行图像级外观增强。
3. 效果展示
来自ExtremeLandmarkPairs数据集的梵蒂冈、罗马场景的相机分布。我们从(a)中的密集图像重建构建了(b)和(c)中所示的具有主要旋转运动的真实透视图像对的数据集。
wELP测试集的定性结果。我们在不同的重叠级别上可视化我们的模型的结果,其中左边的图像用作参考点,它们的坐标系确定相对旋转,这定义了右边的图像。代表地面实况的椭圆体被颜色编码以匹配它们各自的图像,估计的相对旋转由青色虚线示出。如上面的例子所示,我们的方法可以准确地预测包含不同外观和内在参数的不同图像对的相对旋转。
4. 主要贡献
为了估计野外的极端旋转,我们提出了一种基于Transformer的模型,该模型配备了辅助通道,包括局部关键点和匹配的空间分布以及语义分割图,从而能够对几乎没有重叠或完全没有重叠的真实图像对进行更好的推理。我们的结果表明,我们的模型可以准确地预测在各种光照、动态区域和固有参数下变化的多种极端视角图像对的相对旋转。我们进行了广泛的实验,对真实互联网数据和从全景视图中裁剪的模拟透视图像的性能进行了量化评估。我们的评估显示,在考虑真实图像时,我们的模型显著优于强大的基线,而在模拟透视图像对上则取得了可比的性能。
5. 数据集采集
先前关于极端姿态估计的工作使用了全景视图,并从中裁剪子区域以模拟透视视图。为了在真实的透视图像对上评估和训练模型,我们提出了一个新的基准和数据集ExtremeLandmarkPairs(ELP),该数据集由来自MegaDepth、Cambridge Landmarks和MegaScenes数据集的互联网图像对构建而成。在本节中,我们首先描述数据集构建过程(第,然后介绍有关数据集大小以及训练和测试划分的详细信息。
为了构建具有不同程度重叠的真实透视图像对数据集,我们利用了可用的场景级训练数据。现有的互联网图像集合通常包含相机姿态(在尺度上预测),这些姿态是使用结构从运动(SfM)算法(如COLMAP)确定的。
识别具有主要旋转运动的图像对。先前针对相对旋转估计(特别是非重叠视图)的工作大多利用全景视图,并关注具有纯旋转运动的图像对。属于真实图像集合的图像对几乎总是包含不可忽略的平移分量。此外,与先前工作所使用的StreetLearn数据集不同,该数据集提供了连续全景图之间的确切平移值,从而可以过滤出具有主要旋转运动的图像对,而重建的相对姿态仅提供到尺度的信息。不同重建场景的尺度各不相同,因此没有可用于识别具有主要旋转运动的图像对的全局平移值阈值。
为了自动识别这样的图像对,我们观察到,现有的互联网集合需要存在密集的图像,以补偿SfM优化中的大量未知数。因此,我们为每个地标构建了一个相互最近邻边加权图。在每个图G中,节点v ∈ V对应于图像,如果两幅图像在彼此的K个最近邻中(考虑到它们平移之间的L2距离,K经验性地设置为5),则它们通过边e ∈ E连接。请注意,从空间稀疏(异常)区域捕获的图像不太可能位于从密集区域捕获的图像的相互K个最近邻中,因此不会被包含在G中。最后,我们从每个场景图G中选择包含相对较小距离的图像对子集,从而得到一组具有主要旋转运动的图像对。
6. 研究方法
我们使用预训练的LoFTR模型来提取图像特征。与在ImageNet上预训练的常用卷积神经网络提取的特征相比,LoFTR是一个基于Transformer的模型,在互联网图像对上进行了训练,旨在提取局部特征匹配——这一设置和任务与我们在本文中解决的问题高度相关,从而能够提取出更好的(即更相关的)特征。
由于我们感兴趣的是设计一个能够对重叠很少或没有重叠的图像对进行推理的网络,因此我们将提取的特征与额外的辅助通道相结合;见图3(左下角)。这些辅助通道包括关键点和对匹配掩码,它们之前被用于解决相似结构图像的歧义。直观地看,成对匹配的知识可以在图像重叠较小的情况下帮助模型,并有助于模型在不同相机固有属性间进行泛化。我们还将分割图作为额外的辅助通道,它将图像分割成几个类别(如天空、建筑、道路和人行道)。该通道允许识别额外的线索,如天际线或移动物体,这些线索有助于确定非重叠图像对的旋转。
然后,我们将提取的特征(和辅助通道)重塑为令牌,并将这些图像令牌与可学习的欧拉角位置嵌入进行拼接。这些令牌由我们的旋转估计Transformer模块处理,该模块采用Transformer解码器架构。输出的欧拉角令牌从Transformer注意力模块内的图像特征和辅助通道中获取信息。然后,这些令牌由三个不同的预测头处理(每个角度一个,在图3中表示为MLP)。每个输出预测头将平均图像令牌和其中一个输出的欧拉角令牌作为输入,这为模型提供了额外的角度特定信息,如我们在补充材料中所示,这有助于提高性能。预测头输出一个包含N=360个区间的概率分布,捕获[-180◦, 180◦]范围内的角度。
6. 实验结果
如表2所示,与在从全景图中裁剪出的图像上训练的方法相比,基于对应关系的SIFT和LoFTR方法在处理高度重叠的网络图像时表现出一定的鲁棒性,在两个测试集中的大重叠图像对上实现了中位误差小于3°的结果。然而,这些方法依赖于图像重叠,并且由于几何验证需要足够数量的内点,因此可能并不总是能提供估计的相机姿态输出。因此,在先前关注极端场景的研究工作[6, 10]中也观察到,在重叠区域有限的情况下,这些方法难以产生可靠的匹配。
在表3中,我们使用先前研究工作中报告的训练集和测试集,对全景透视图像进行了评估。请注意,所有模型均在StreetLearn图像上进行训练和评估;此次评估未使用数据增强或额外数据源。如表所示,我们的模型在受限图像对上表现出相当的性能,对于非重叠图像对实现了最先进的相对旋转精度,与先前研究工作中报告的性能相匹配。
表4展示了每个训练阶段对结果的影响。从表中可以看出,每个训练阶段都进一步改进了模型的性能,而且通常改进显著。例如,在添加视场(Field of View, FoV)增强后,wELP小重叠测试集的中位误差从55.3°降低到12.9°。此外,ExtremeLandmarkPairs训练集在我们的训练过程最终确定中起到了至关重要的作用,使wELP测试集中小重叠和非重叠场景的中位误差显著降低(超过一半)。虽然非重叠图像对的中位误差仍然相对较高,但我们观察到前5名的分数显示出显著改善,例如,中位误差从27.5°降低到13.0°。这表明模型已经学习了这些知识,尽管仅凭最高峰并不一定能恢复这些知识。在补充材料中,我们证明了中间训练阶段确实很重要,并且仅使用ExtremeLandmarkPairs训练集无法获得改进的性能。推荐课程:为什么说colmap仍然是三维重建的核心?
添加辅助通道的影响。我们在表5中研究了添加辅助通道的影响,训练模型时不使用作为额外输入的关键点和匹配(Key Points, KP)或分割图(Segmentation Map, SM)。如表所示,这些辅助通道几乎在所有指标上都提升了性能。特别是,这两个通道在减少非重叠图像对上的误差方面发挥了作用(将中位误差从40°以上降低到27.5°)。
7. 总结 & 未来工作
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:
工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:四旋翼建模、无人机飞控等
2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群
添加小助理: cv3d001,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球,已沉淀6年,星球内资料包括:秘制视频课程近20门(包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等)、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。
3D视觉工坊官网:www.3dcver.com具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。
3D视觉模组选型:www.3dcver.com
点这里👇关注我,记得标星哦~