点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入「3D视觉从入门到精通」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0.这篇文章干了啥?
这篇文章提出了一个新的数据集UEVAVD,包含了不同地形和遮挡条件下的多视角航拍图像,旨在推动无人机视角下的目标检测(AOD)研究。作者提出了一种改进的IBE-MAP方法,将先验知识结合到原有的MAP方法中,以帮助策略网络学习更好的状态表示,从而提高策略的泛化能力。实验结果表明,IBE-MAP方法在测试环境中表现优于其他方法,能够在提高目标识别精度的同时,减少不必要的移动,优化了无人机的任务执行效率。未来工作将致力于进一步优化策略的状态表示,缩小泛化差距,提升测试阶段的表现。
下面一起来阅读一下这项工作~
1. 论文信息
论文题目:UEVAVD: A Dataset for Developing UAV’s Eye View Active Object Detection
作者:Xinhua Jiang, Tianpeng Liu等
作者机构:College of Electronic Science, National University
论文链接:https://arxiv.org/pdf/2411.04348
2. 摘要
遮挡问题一直是挑战基于无人机的物体检测的一个长期难题。许多研究通过调整检测模型来解决这个问题。然而,很少有研究利用无人机从不同视角出发,根本性地改善检测性能。主动物体检测(AOD)提供了一种有效的方式来实现这一目标。通过深度强化学习(DRL),AOD赋予了无人机自主路径规划的能力,从而寻找有利于目标识别的观察视角。不幸的是,目前没有可用的数据集来开发无人机AOD方法。为了填补这一空白,我们发布了一个名为UEVAVD的无人机眼视角主动视觉数据集,期望它能促进无人机AOD问题的研究。此外,我们通过在学习状态表示时融入归纳偏置,改进了现有的基于DRL的AOD方法。首先,由于部分可观察性问题,我们使用门控循环单元(GRU)从观察序列中提取状态表示,而不是从单一视角的观察中提取。其次,我们使用Segment Anything Model(SAM)对场景进行预分解,并通过派生的掩模过滤掉不相关的信息。通过这些实践,智能体可以学习到具有更好泛化能力的主动观察策略。我们在UEVAVD数据集上的实验验证了我们创新方法的有效性。我们的数据集将在https://github.com/Leo000ooo/UEVAVD 数据集上发布。
3. 效果展示
用于收集UEVAVD数据集的五个车辆目标。
三种语境下目标位置的样本分布。
预先定义的采样点分布和无人机运动方向的演示。目标上空的低层空域被划分为离散的部分,当无人机在这些采样点时,我们记录对感兴趣区域的观测。
4. 主要贡献
我们发布了一个新的数据集UEVAVD,旨在促进无人机眼视角AOD问题的研究。在此基础上,我们可以探索如何更好地利用无人机的自主性和机动性,克服如遮挡等挑战,以改善无人机目标检测性能。推荐课程:如何快速上手全球最强开源飞控px4? 我们通过在学习状态表示时融入归纳偏置,改进了现有的基于DRL的AOD方法。通过场景预分解和基于记忆的状态估计,智能体学习的策略可以获得更强的泛化能力,并在测试环境中表现更好。
5. 基本原理是啥?
UEVAVD数据集:该数据集包含了不同地形和遮挡条件下的多视角无人机图像,用于模拟无人机在移动过程中的连续观察。这些数据为AOD(自动目标识别,Aerial Object Detection)问题的研究提供了一个重要的测试平台。
IBE-MAP方法:该方法是在原MAP(Memory-Augmented Policy)方法的基础上进行了改进,结合了两个方面的先验知识,以提高策略网络学习到的状态表示能力。通过这些先验知识的引入,代理(无人机)的策略能够更好地适应新的测试环境,从而提高其泛化能力。IBE-MAP的核心目标是通过利用历史观察来增强状态表示,并减少测试时的泛化差距。
策略网络的学习:该方法通过策略网络进行学习,优化无人机如何在不同环境下自主选择动作,从而实现目标的识别和避障。在训练过程中,策略网络通过模拟无人机在真实环境中的决策过程,逐步学习如何提高识别精度,并尽量减少移动成本。
泛化能力:在实际应用中,训练好的模型不仅要在训练环境中有效,还需要在测试环境中具有较好的表现。通过引入历史观察和状态估计的优化,IBE-MAP方法有效增强了策略网络在新环境下的泛化能力,使得模型能够应对更多未知的场景。
6. 实验结果
实验结果部分展示了使用UEVAVD数据集进行训练和测试的效果:
硬测试集上的评估首先,利用UEVAVD数据集的训练集,通过不同的AOD方法训练代理的策略,并使用硬测试集进行评估。测试结果显示,三种策略在同一测试环境中的表现存在明显差异:
从测试结果中可以看出,IBE-MAP策略在保持较高识别精度的同时,减少了不必要的移动,表现出较强的效果。
随机策略:该策略随机选择行动指令,因此AOD任务失败。 MAP策略:该策略成功帮助无人机平台避开障碍物并获得正确的识别结果,但偏离了最优路径。 IBE-MAP策略:该策略引导无人机以较低的移动成本找到更好的视角。一旦代理找到足够的视角进行目标识别,就会做出提前停止的决策,从而提高任务执行效率。
训练和测试阶段的总体比较在训练和测试阶段,三种AOD方法(MAP、Memo-MAP、IBE-MAP)的性能发展趋势如下图所示:
这些结果验证了引入场景预分解和基于记忆的状态估计方法的有效性。
回报值(Return)、识别精度(Accuracy)和路径长度(Path Length)在训练和测试过程中逐渐提高,表明这些策略比被动感知方法能够帮助代理在较低的移动成本下实现更好的目标识别。 结果显示,IBE-MAP策略在测试阶段具有最强的泛化能力,其回报值超过了其他两种方法,且其泛化差距(GenGap)最小。 尽管MAP策略在训练阶段表现最好,但其泛化差距较大,存在过拟合问题。 通过将历史观察纳入状态表示,Memo-MAP策略比MAP策略略有优势,路径长度更短,且泛化差距较小。
超参数分析对两个超参数(thre
和 C
)进行分析,探讨它们对策略性能的影响。
thre
(分类阈值):表示分类器识别目标成功的阈值。实验结果显示,随着thre
值的增大,回报值下降,路径长度增加,而对识别精度的影响较小。最优配置是thre=0.2
,此时策略表现最佳。C
(动作范围的上限):控制动作范围对回报值的影响,用于平衡移动成本与识别精度的提升。随着C
的增大,路径长度缩短,但识别精度下降,显示出精度和路径长度之间的权衡。在C=0
时,代理可以自由探索环境并获得较好的识别精度,但路径较长。随着C
增大,移动成本的限制逐步增大,导致路径长度缩短,但精度有所下降。
7. 总结 & 未来工作
本文发布了一个新的数据集UEVAVD,该数据集包含了不同地形和遮挡条件下的多视角无人机图像。通过结合这些观测数据,可以模拟无人机在沿轨迹移动时进行连续观测的过程。我们希望这个数据集能够促进无人机视角下AOD问题的研究。此外,我们提出了IBE-MAP方法,该方法将两方面的先验知识融入到原MAP方法中,使得策略网络能够学习到更好的状态表示。在此基础上,代理的策略可以更好地泛化到测试环境中。未来的工作中,我们将寻求更合适的方法来改进策略网络的状态表示,从而进一步提高测试时的回报值并缩小泛化差距。
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:
工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:四旋翼建模、无人机飞控等
2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿:具身智能、大模型、Mamba、扩散模型等
除了这些,还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群
添加小助理: cv3d001,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球,已沉淀6年,星球内资料包括:秘制视频课程近20门(包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等)、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。
3D视觉工坊官网:www.3dcver.com具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。
3D视觉模组选型:www.3dcver.com
点这里👇关注我,记得标星哦~