点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入「3D视觉从入门到精通」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0.这篇文章干了啥?
这篇文章提出了一种新的视频到鸟瞰图(Video2BEV)转换方法,用于改善无人机视觉地理定位中的环境约束问题。通过3D高斯点云映射将无人机视角的视频转换为鸟瞰图,从而缩小了无人机视角与卫星视角之间的差距。此外,文章还引入了基于扩散的负样本生成模块,增强了模型的可扩展性。为了验证该方法,作者创建了一个新的基于视频的无人机地理定位数据集(UniV),并展示了该方法在多个评估指标上的优越性能,相比现有方法在召回率和平均精度上均有所提升。
下面一起来阅读一下这项工作~
1. 论文信息
论文题目:EasyHOI: Unleashing the Power of Large Models for Reconstructing Hand-Object Interactions in the Wild
作者:Yumeng Liu,Xiaoxiao Long等
作者机构:HKU, ShanghaiTech University等
论文链接:https://arxiv.org/pdf/2411.14280
2. 摘要
现有的无人机视觉地理定位方法主要采用基于图像的设置,在这种设置中,单一的无人机视角快照与来自其他平台的图像进行匹配。然而,这种任务形式未充分利用无人机固有的视频输出,并且对遮挡和环境约束敏感。为了解决这些问题,我们提出了一种基于视频的无人机地理定位新任务,并提出了Video2BEV范式。该范式将视频转换为鸟瞰图(BEV),简化了后续的匹配过程。特别地,我们采用高斯溅射技术重建3D场景并获得BEV投影。与现有的变换方法(如极坐标变换)不同,我们的BEV在保持更细粒度细节的同时,避免了显著的失真。为了进一步提升模型对不同BEV和卫星图像的可扩展性,我们的Video2BEV范式还引入了一个基于扩散的模块,用于生成困难的负样本,从而促进判别性特征学习。为验证我们的方法,我们提出了UniV,一个基于视频的地理定位新数据集,扩展了基于图像的University-1652数据集。UniV具有30°和45°俯仰角度的飞行路径,并且帧率提高至每秒10帧(FPS)。在UniV数据集上的大量实验表明,我们的Video2BEV范式在召回率上表现优异,且优于传统的视频定位方法。与其他方法相比,我们提出的方法在较低高度和更多遮挡的情况下展现出更强的鲁棒性。
3. 效果展示
原始图像和合成硬底片的可视化。合成底片呈现出与原始图像相似的颜色和结构,这保证了底片的质量。
无人机 → 卫星和卫星 → 无人机的定性结果。我们将无人机视角视频的可视化替换为经过转换后的输出(鸟瞰图,BEVs)作为查询或画廊。对于来自不同平台的查询(左侧),匹配的画廊用绿色框标出,未匹配的画廊用蓝色框标出。顶部的分数是通过提出的方法估算的相似度分数。
4. 主要贡献
我们提出了Video2BEV范式,将无人机视频转换为鸟瞰图(BEV),简化了与卫星图像的后续匹配过程。具体而言,我们的Video2BEV引入了3D高斯溅射技术进行几何投影,并包含了一个硬负样本生成模块,以学习来自多样化BEV和卫星图像的特征。 鉴于缺乏基于视频的无人机地理定位基准,我们引入了一个新的视频地理定位数据集UniV,包含两种俯仰角度和10FPS。该数据集包含无人机视频、卫星图像和地面图像,且更接近现实世界场景,包括典型的案例,如遮挡。 在提出的UniV数据集上的广泛实验表明:(1)基于图像的查询对遮挡和环境变化高度敏感,而基于视频的查询则表现出更强的鲁棒性(见图2);(2)提出的Video2BEV结合了几何变换,在无人机视频→卫星的任务中达到了96.80的AP,显著优于现有方法。我们在低俯仰角度的无人机视频上也观察到类似的结果,该角度暴露了更多的遮挡。推荐课程:零基础入门四旋翼建模与控制(MATLAB仿真)[理论+实战]。
5. 基本原理是啥?
本研究的基本原理是通过利用无人机视频来缓解环境约束对无人机视觉地理定位的影响。具体而言,研究提出了一种新的 Video2BEV (视频到鸟瞰图)范式,通过3D高斯点云溅射技术将无人机视角的视频转换为鸟瞰图(BEV)图像。这一转换有效减少了无人机视角与卫星视角之间的视角差距,使得不同视角之间的匹配更加准确。此外,Video2BEV范式还包含了一个基于扩散的模块,用来生成负样本,进一步提升了模型的可扩展性和性能。
Video2BEV转换:通过3D高斯点云溅射技术,将无人机视角的视频数据转化为鸟瞰图(BEV)图像,缩小了无人机视角与卫星视角之间的差距,增强了不同视角之间的匹配精度。
负样本生成模块:采用扩散方法生成负样本,提升了模型训练过程中的负样本质量,从而提高了模型的整体性能。
UniV数据集:为验证该方法,研究引入了一个新的视频数据集——UniV数据集,包含了30°和45°俯仰角下的无人机飞行路径和相应的视频数据。这些视频帧率高达每秒10帧,适用于无人机地理定位任务。
6. 实验结果
定量结果
如表2所示,所提出的方法在 UniV 数据集上与其他竞争方法进行了比较。我们的模型在多个评估指标上都超过了其他竞争方法。具体来说:
45° 子集:我们的方法在卫星到无人机的转换(satellite → drone)上,比第二好的方法提高了0.30%的召回率(Recall)和0.58%的平均精度(AP)。 30° 子集:所有方法的性能出现下降。由于无人机飞行的高度较低,导致更多的遮挡(见表1b),这也影响了我们的 Video2BEV 转换性能。然而,尽管如此,我们的方法在无人机到卫星的转换(drone → satellite)和卫星到无人机的转换(satellite → drone)上分别提高了3.2%和5.8%的AP,仍然保持了较强的鲁棒性。
所有方法都在视频设置下进行比较,这意味着我们对无人机视角视频中的每一帧进行了时序平均,然后再进行评估。
对于官方发布权重的方法(如Sample4Geo, DWDR),我们直接在45°测试集上测试这些方法,并随后在30°子集上重新训练和评估这些方法。对于没有官方权重的方法(如LPN, FSRA),我们在45°和30°子集上都进行了重新训练,以确保公平比较。
定性结果
图7展示了无人机地理定位的定性结果。在我们的方法中,采用 Video2BEV 转换将无人机视角的视频转化为鸟瞰图(BEV)后,选择代表性的样本进行可视化:
卫星到无人机(satellite → drone):我们的方法能够有效地检索到与实际建筑相似的结构特征,如十字形屋顶和装有太阳能面板的屋顶。 无人机到卫星(drone → satellite):相似的结果也出现在这一转换中。我们的模型能够在候选图像中成功地检索到最匹配的结果。
我们还在补充材料中提供了更多的定性可视化结果,包括失败案例的分析。
消融实验与进一步讨论
为了深入理解我们方法的关键组件,我们进行了消融实验:
主要组件的影响:实验结果表明,BEV的引入对性能提升起到了最大的作用。这是因为 Video2BEV 转换减少了无人机视角图像与卫星视角图像之间的外观差距。此外,合成负样本的引入也显著提高了第二阶段模型的性能。
训练策略的影响:我们探索了三种不同的训练策略:
Train Together
(同时训练两阶段),Fine-tune
(微调第一阶段并从零开始训练第二阶段),以及Freeze
(冻结第一阶段的权重,训练第二阶段)。结果表明,Freeze
策略获得了最佳性能,因为它使第一阶段能够稳定地产生可靠的特征嵌入供第二阶段使用。重新排序Top-K样本的影响:在测试阶段,我们根据第一阶段的相似度评分从图库中选择Top-K样本,并通过第二阶段重新排序。实验表明,重新排序Top-512和Top-256样本能够取得最佳性能,而Top-32样本的重新排序则是一个平衡性能和测试时间的折中。
7. 总结 & 未来工作
在本研究中,我们提出了利用视频来减轻环境限制对无人机视觉地理定位的影响。我们提出了一种新的Video2BEV范式,通过3D高斯点云溅射将无人机视角的视频转换为鸟瞰图(BEV)图像。这种转换有效地缩小了无人机视角和卫星视角之间的视角差距。我们的Video2BEV范式还包括一个基于扩散的模块来生成负样本,从而增强了模型的可扩展性。为了验证所提方法,我们引入了UniV数据集,这是一个基于视频的无人机地理定位数据集。该数据集包括在30°和45°俯仰角下的无人机飞行路径以及相应的视频,视频帧率高达每秒10帧。我们的Video2BEV范式在Recall@1和AP方面优于其他方法。
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:
工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:四旋翼建模、无人机飞控等
2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群
添加小助理: cv3d001,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球,已沉淀6年,星球内资料包括:秘制视频课程近20门(包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等)、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。
3D视觉工坊官网:www.3dcver.com具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。
3D视觉模组选型:www.3dcver.com
点这里👇关注我,记得标星哦~