匹配一切!Stereo Anything:统一立体匹配和大规模混合数据!

科技   2024-11-23 07:00   江苏  

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

来源:3D视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「3D视觉从入门到精通」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程最新顶会论文、计算机视觉书籍优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:Stereo Anything: Unifying Stereo Matching with Large-Scale Mixed Data

作者:Xianda Guo, Chenming Zhang, Youmin Zhang, Dujun Nie, Ruilin Wang, Wenzhao Zheng, Matteo Poggi, Long Chen

机构:Wuhan University、Xi’an Jiaotong University、Waytous、University of Bologna、Rock Universe、Chinese Academy of Sciences、University of California

原文链接:https://arxiv.org/abs/2411.14053

代码链接:https://github.com/XiandaGuo/OpenStereo

1. 导读

立体匹配一直是三维视觉中的一个关键组成部分,旨在找到双目图像对之间的匹配点以恢复深度信息。在这项工作中,我们介绍了StereoAnything,一个非常实用的鲁棒立体匹配解决方案。我们的目标不是专注于一个专门的模型,而是开发一个通用的基础模型,能够处理不同环境中的双目图像。为此,我们通过收集标记的双目图像并从未标记的单目图像生成合成双目对来扩大数据集。为了进一步丰富模型在不同条件下的概括能力,我们引入了一个新的合成数据集,通过添加基线、摄像机角度和场景类型的可变性来补充现有数据。我们在五个公共数据集上广泛评估了我们的模型的零射击能力,展示了它对新的、看不见的数据进行归纳的令人印象深刻的能力。

2. 引言

计算机视觉领域目前正在经历一场革命,这得益于物体识别、图像分割和单目深度估计等基础模型的发展,这些模型在各种下游任务中展现出强大的零样本学习和少样本学习能力。

立体匹配是实现深度感知和观测场景三维重建的基础,在机器人技术、自动驾驶和增强现实等应用中发挥着关键作用。然而,由于获取准确的视差真实值(GT)数据极为困难,立体匹配中基础模型的探索仍然有限。尽管已经发布了众多立体数据集,但充分利用这些数据集进行训练颇具挑战。此外,即使将这些已标注的数据集结合起来,也不足以训练出一个理想的基础模型。

“从单目到立体”(Stereo-from-mono)是一项开创性研究,旨在直接从单目图像生成立体图像对和视差图,以克服这些挑战。然而,该方法仅创建了50万个数据样本,考虑到训练稳健的基础模型所需的规模,这一数量相对有限。尽管这一努力在减少对昂贵立体数据收集的依赖方面迈出了重要一步,但所生成的数据集仍不足以构建能够很好地泛化到各种真实世界条件的大规模模型。

在本研究中,我们介绍了StereoAnything,这是一个用于立体匹配的基础模型,旨在为任何一对经过校正的立体图像提供高质量的视差估计,无论场景复杂性或环境条件如何。我们的主要焦点是创建一种高度泛化和可扩展的解决方案,能够处理各种场景。为了实现这一宏伟目标,我们采用了一种以大规模扩展训练数据集为中心的策略,确保模型能够接触到各种各样的场景。为了充分利用现有的立体数据集,我们使用了大量公开的已标注立体数据集作为训练数据的核心部分,并创建了一个新的合成数据集StereoCarla,以进一步提高可用训练数据的质量、数量和多样性。此外,受“从单目到立体”方法和新的单目深度基础模型成功的启发,我们通过从单目图像生成的大量合成立体数据来补充训练。通过结合传统的立体数据集和新生成的基于单目的立体对,我们创建了一个多样且全面的训练集,使StereoAnything能够在各种环境中表现出色,确保稳健且准确的深度预测。这种真实数据和合成数据的结合有助于我们克服数据稀缺性的限制,最终推动立体匹配能力的边界,提高跨领域的泛化能力。

3. 效果展示

StereoAnything在不同的看不见的场景中展示了令人印象深刻的泛化能力。

提出的StereoCarla数据集。第一行示出了不同基线下的左目图像(第1列)和右目图像(第2-6列)。第二行展示了深度图(第一列)和相应的视差图(第二至第六列)。第三行描绘了来自不同水平视角和升高视点的左图像。

4. 主要贡献

我们的贡献可以概括如下:

• 我们首先通过深入研究不同合成数据集对训练立体模型性能的影响,强调了扩展已标注立体数据集规模的重要性。

• 然后,我们构建了一个新的合成数据集StereoCarla,以更好地在不同场景下泛化并提升性能。与现有数据集相比,StereoCarla具有独特的视角和基线。

• 我们通过有效地结合合成立体数据和多样化的未标注单目图像来进一步扩展训练数据,以训练立体网络。

• 我们的最终数据集使得训练的立体模型在所有现有网络中展现出最强的零样本学习能力。

5. 现有数据集

现有数据集

我们首先回顾现有的已标注立体数据集和未标注单目数据集。表1总结了本研究中涉及的现有已标注数据集,将它们分为训练集和测试集,并列出了它们的特性。

5.1 训练数据集

5.1.1 已标注立体数据集

为了充分利用现有的立体数据集,我们使用了大量公开的已标注立体数据集作为训练数据的核心部分。

Sintel来源于计算机生成的电影,提供密集的真实值标签,分为训练数据集(1064对立体图像)和测试集(564对立体图像)。推荐课程:聊一聊经典三维点云方法,包括:点云拼接、聚类、表面重建、QT+VTK等

SceneFlow是一个包含室内和室外场景的合成数据集。它是立体匹配中最常用的数据集之一,为预训练的立体匹配算法提供了宝贵的真实值。

CREStereo通过结合不同位置具有随机颜色和亮度的各种照明条件,重点关注真实世界场景中的挑战性场景。

FallingThings是一个大规模合成数据集,旨在推动3D物体检测和姿态估计方面的研究,同时提供已标注的立体图像。

InStereo2K介绍了一个包含2000多对高质量、半密集真实值视差的真实世界室内立体图像对的数据集。

Spring提供了6000对高分辨率图像,每对图像的分辨率为210万像素,涵盖47个不同的场景。

UnrealStereo4K是一个高分辨率的合成立体数据集,包含800万像素的立体对。

Argoverse是一个用于3D跟踪和运动预测的数据集。它包含5530张面向前方的立体图像用于训练,1094张用于测试,分辨率为2056×2464,在真实驾驶环境中采集。

VirtualKITTI2利用Unity照明和后处理技术的进步生成了一个数据集,该数据集在生成的图像和KITTI的真实图像之间差异最小。它包括21260对立体图像。

Tartanair是一个大规模合成数据集,专为推动视觉SLAM的发展而设计。它提供了多种模拟环境,具有不同的照明条件、天气效果和动态对象,其中包括306637对立体图像。

DynamicStereo因其扩展序列和非刚性对象(如动物和人类)的存在而与众不同。该数据集包含484/20/20个序列,分别用于训练/验证/测试。

5.1.2 未标注单目数据集

为了增强立体匹配模型的鲁棒性,我们纳入了来自四个公开数据集的2027万张未标注单目图像的大规模集合。表2提供了这些数据集的全面概述,它们将在训练过程中用于生成更多的合成立体对。

3.2. 测试数据集

为了评估立体匹配模型的零样本泛化性能,我们选择了五个以其多样性和准确真实值标注而闻名的数据集。

KITTI 2012和KITTI 2015数据集是立体匹配中广泛使用的基准数据集,具有稀疏的LiDAR真实值视差,包含从不同驾驶场景捕获的真实世界图像。KITTI 2012包含194对训练图像和195对测试图像,而KITTI 2015包含200对训练图像和200对测试图像。

Middlebury专注于室内环境,提供15/15对高分辨率立体图像用于训练和测试,这些图像使用结构光系统获得了半密集真实值标注。

ETH3D包含27/20对灰度立体图像用于训练和测试,这些图像从室内和室外场景采集,使用Faro Focus X 330激光扫描仪获得了半密集真实值标注。

DrivingStereo是一个大规模立体数据集,包含超过18万张图像,涵盖了各种真实世界的驾驶场景。稀疏真实值标注来自LiDAR扫描,并通过深度神经网络进行后处理。

6. StereoCarla数据集

为了扩展现有立体匹配数据集的多样性和数量,我们使用了CARLA模拟器来收集新的合成立体数据。CARLA是一个广泛使用的开源自动驾驶研究模拟器,使我们能够创建一系列逼真的虚拟环境,这显著提高了我们数据收集过程的灵活性。与之前的立体数据集相比,我们的方法提供了更多样化的设置,提供了不同的基线和新颖的相机配置,从而丰富了立体数据的多样性。

下面,我们详细介绍主要的设计考虑因素:

多种基线。我们收集了基线距离分别设置为10厘米、54厘米、100厘米、200厘米和300厘米的数据,与现有数据集相比,这一范围要广泛得多。这些基线变化使模型能够更好地泛化到两个相机之间距离差异很大的场景,例如在真实世界应用中切换不同的硬件配置。

水平视角。我们收集了四个不同的水平视角的数据。具体来说,我们捕获了直接水平视图(0度)以及5度、15度和30度的轻微和中等旋转角度的图像。这些不同的方向提供了更稳健的数据,因为它们模拟了立体相机系统在运动或场景视点发生变化时自然发生的变化。这种角度变化对于增强模型的鲁棒性至关重要,使其更能适应现实世界中的视角变化。

俯瞰视角。此外,为了模拟一组多样化的环境和视角,我们将立体相机对放置在车辆上方10米的高度,从水平视图和30度向下倾斜的角度捕获场景。这一独特视角提供了有关场景整体布局的更多信息,这对于理解近地面细节和大多数现有数据集中缺失的更广泛上下文元素特别有用。

高分辨率。我们的数据集中的每个场景都包含分辨率为1600×900像素的左图和右图,以及相应的密集视差图,确保了训练和评估最新立体模型所需的全面真实值信息。

通过纳入上述元素,我们的数据集旨在解决现有立体数据集的关键限制,特别是缺乏不同的视角和基线距离,从而为开发和测试立体匹配算法提供更坚实的基础。

7. Stereo Anything

如图3所示,基于深度学习的立体匹配涉及从一对经过校正的立体图像中估计视差。它主要包含四个基本组件:特征提取、代价计算、代价聚合和视差回归。

8. 实验

如表3所示,我们将性能最佳的模型与几种当前最优的立体匹配方法进行了比较。StereoAnything在KITTI 2012、KITTI 2015和ETH3D数据集上实现了最低的错误率,性能优于以往的方法。在表4中,我们进一步展示了消融研究的结果,该结果凸显了我们提出的训练策略的重大影响。该策略应用于不同的立体匹配主干网络时,在所有数据集上的性能均得到了显著提升。我们的训练方法在所有数据集上均一致地带来了显著的性能提升,展示了其通用性和有效性。

最显著的改进出现在NMRFStereo-SwinT[变体上,其平均误差从18.11降低到5.01,显示出特别显著的改进。这一显著增益归因于数据规模的增加,这使得SwinTransformer主干网络能够充分发挥其潜力。

在图4中,我们展示了StereoAnything在五个未见过的数据集上的定性结果。我们的模型在各种领域(包括室内和室外场景)均表现出强大的鲁棒性。与基线模型NMRF-Stereo-SwinT[13]相比,我们的方法一致地产生了更准确的视差图,如图示所示。这一定性分析强调了模型的强大泛化能力,以及其在具有显著视觉和环境多样性的不同领域表现良好的能力,验证了其有效性和在现实世界立体匹配应用中的潜力。

9. 总结

在本文中,我们介绍了StereoAnything,这是一种高度实用的稳健立体匹配解决方案。我们构建了一个新的合成数据集StereoCarla,以更好地在不同场景下泛化并提升性能。与现有数据集相比,StereoCarla具有独特的视角和基线。然后,我们研究了标记立体数据集和使用单目深度估计模型生成的伪立体数据集在增强立体模型泛化方面的有效性。我们的实验表明,数据集的质量和多样性在实现不同领域稳健立体匹配性能方面起着关键作用。因此,我们的StereoAnything在各种基准测试和现实世界场景中均取得了具有竞争力的性能。这些发现强调了融合不同数据源的混合训练策略在增强立体模型鲁棒性方面的潜力,为立体匹配技术的未来发展铺平了道路。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉最前沿工业3D视觉SLAM自动驾驶三维重建无人机等方向,细分群包括:

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿:具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些,还有求职硬件选型视觉产品落地、产品、行业新闻等交流群

添加小助理: cv3d001,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球,已沉淀6年,星球内资料包括:秘制视频课程近20门(包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等)、项目对接3D视觉学习路线总结最新顶会论文&代码3D视觉行业最新模组3D视觉优质源码汇总书籍推荐编程基础&学习工具实战项目&作业求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

▲长按扫码加入星球
3D视觉工坊官网:www.3dcver.com

具身智能、3DGS、NeRF结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制无人机仿真C++、三维视觉python、dToF、相机标定、ROS2机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

长按扫码学习3D视觉精品课程

3D视觉模组选型:www.3dcver.com

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

3D视觉科技前沿进展日日相见 ~ 

3D视觉工坊
专注于工业3D视觉、SLAM、自动驾驶、三维重建、无人机、具身智能、扩散模型等前沿技术分享与产业落地,力争打造为国内最专业的3D视觉社区。官网:www.3dcver.com 佳v:cv3d007 或 13451707958
 最新文章