大疆 | CVPR 2024 | 自动驾驶中单视图和多视图深度的自适应融合

文摘   2024-07-10 15:21   美国  

欢迎关注微信公众号“机器人EmbodiedAI”

论文题目:Adaptive Fusion of Single-View and Multi-View Depth for Autonomous Driving

论文链接:https://openaccess.thecvf.com/content/CVPR2024/papers/Cheng_Adaptive_Fusion_of_Single-View_and_Multi-View_Depth_for_Autonomous_Driving_CVPR_2024_paper.pdf

一、方法

多视角深度估计在各种基准测试中取得了令人瞩目的性能。然而,几乎所有当前的多视角系统都依赖于给定的理想摄像机姿态,而在许多实际场景(如自动驾驶)中,这些姿态信息是不可用的。在这项工作中,我们提出了一个新的鲁棒性基准,用于评估深度估计系统在各种噪声姿态设置下的表现。令人惊讶的是,我们发现当前的多视角深度估计方法或单视图和多视图融合方法在给定噪声姿态设置时会失败。为了解决这一挑战,我们提出了一个单视图和多视图融合的深度估计系统,该系统能够自适应地整合高可信的多视图和单视图结果,以实现鲁棒且准确的深度估计。自适应融合模块通过基于包裹置信度图动态选择两个分支之间的高可信区域进行融合。因此,当面对无纹理场景、精度不高的校准、动态物体和其他降质或挑战性条件时,系统倾向于选择更可靠的分支。在鲁棒性测试中,我们的方法优于现有的多视图和融合方法。此外,当给定准确的姿态估计时,我们在具有挑战性的基准测试(如KITTI和DDAD)上实现了最先进的性能。项目网站:https://github.com/Junda24/AFNet/。

论文的贡献:

  • 我们提出了AFNet,通过自适应融合单视图和多视图深度,实现更鲁棒和准确的深度估计。在KITTI [11] 和DDAD [12] 数据集上,我们的方法达到了最先进的性能水平。
  • 我们是首次提出用于减轻现有多视图方法在噪声姿态下失败缺陷的多视图和单视图深度融合网络。我们提出了一个新的鲁棒性测试基准,探索多视图方法在给定噪声姿态下的有效性,证明了这一点。我们的方法在噪声姿态下优于所有其他经典的多视图方法。
  • 我们的AF模块可以提高动态物体区域的性能,这些区域无法被经典的多视图深度估计方法很好地处理。

二、实验结果

三、总结

在这篇论文中,我们提出了一种新的多视图和单视图深度融合网络AFNet,用于减轻现有多视图方法在实际自动驾驶场景中因噪声姿态而失败的缺陷。我们提出了一个新的鲁棒性评估指标和测试基准,以探索多视图方法在不同噪声水平下的有效性。通过提出的自适应融合模块,我们将单视图和多视图深度进行融合,从而提高了系统的准确性和鲁棒性。在准确的姿态估计下,AFNet在KITTI [11] 和DDAD [12] 数据集上实现了最先进的性能,并且在噪声姿态下的鲁棒性测试基准中优于所有其他经典的多视图方法。


机器人EmbodiedAI
与世界交互
 最新文章