更智能！更高效！国科大重磅！无人机视角下的目标识别：UEVAVD数据集与IBE-MAP策略

科技 2024-11-16 00:00 江苏

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0.这篇文章干了啥？

这篇文章提出了一个新的数据集UEVAVD，包含了不同地形和遮挡条件下的多视角航拍图像，旨在推动无人机视角下的目标检测（AOD）研究。作者提出了一种改进的IBE-MAP方法，将先验知识结合到原有的MAP方法中，以帮助策略网络学习更好的状态表示，从而提高策略的泛化能力。实验结果表明，IBE-MAP方法在测试环境中表现优于其他方法，能够在提高目标识别精度的同时，减少不必要的移动，优化了无人机的任务执行效率。未来工作将致力于进一步优化策略的状态表示，缩小泛化差距，提升测试阶段的表现。

下面一起来阅读一下这项工作~

1. 论文信息

论文题目：UEVAVD: A Dataset for Developing UAV’s Eye View Active Object Detection

作者：Xinhua Jiang, Tianpeng Liu等

作者机构：College of Electronic Science, National University

论文链接：https://arxiv.org/pdf/2411.04348

2. 摘要

遮挡问题一直是挑战基于无人机的物体检测的一个长期难题。许多研究通过调整检测模型来解决这个问题。然而，很少有研究利用无人机从不同视角出发，根本性地改善检测性能。主动物体检测（AOD）提供了一种有效的方式来实现这一目标。通过深度强化学习（DRL），AOD赋予了无人机自主路径规划的能力，从而寻找有利于目标识别的观察视角。不幸的是，目前没有可用的数据集来开发无人机AOD方法。为了填补这一空白，我们发布了一个名为UEVAVD的无人机眼视角主动视觉数据集，期望它能促进无人机AOD问题的研究。此外，我们通过在学习状态表示时融入归纳偏置，改进了现有的基于DRL的AOD方法。首先，由于部分可观察性问题，我们使用门控循环单元（GRU）从观察序列中提取状态表示，而不是从单一视角的观察中提取。其次，我们使用Segment Anything Model（SAM）对场景进行预分解，并通过派生的掩模过滤掉不相关的信息。通过这些实践，智能体可以学习到具有更好泛化能力的主动观察策略。我们在UEVAVD数据集上的实验验证了我们创新方法的有效性。我们的数据集将在https://github.com/Leo000ooo/UEVAVD 数据集上发布。

3. 效果展示

用于收集UEVAVD数据集的五个车辆目标。

三种语境下目标位置的样本分布。

预先定义的采样点分布和无人机运动方向的演示。目标上空的低层空域被划分为离散的部分，当无人机在这些采样点时，我们记录对感兴趣区域的观测。

4. 主要贡献

我们发布了一个新的数据集UEVAVD，旨在促进无人机眼视角AOD问题的研究。在此基础上，我们可以探索如何更好地利用无人机的自主性和机动性，克服如遮挡等挑战，以改善无人机目标检测性能。推荐课程：如何快速上手全球最强开源飞控px4？
我们通过在学习状态表示时融入归纳偏置，改进了现有的基于DRL的AOD方法。通过场景预分解和基于记忆的状态估计，智能体学习的策略可以获得更强的泛化能力，并在测试环境中表现更好。

5. 基本原理是啥？

UEVAVD数据集：该数据集包含了不同地形和遮挡条件下的多视角无人机图像，用于模拟无人机在移动过程中的连续观察。这些数据为AOD（自动目标识别，Aerial Object Detection）问题的研究提供了一个重要的测试平台。
IBE-MAP方法：该方法是在原MAP（Memory-Augmented Policy）方法的基础上进行了改进，结合了两个方面的先验知识，以提高策略网络学习到的状态表示能力。通过这些先验知识的引入，代理（无人机）的策略能够更好地适应新的测试环境，从而提高其泛化能力。IBE-MAP的核心目标是通过利用历史观察来增强状态表示，并减少测试时的泛化差距。
策略网络的学习：该方法通过策略网络进行学习，优化无人机如何在不同环境下自主选择动作，从而实现目标的识别和避障。在训练过程中，策略网络通过模拟无人机在真实环境中的决策过程，逐步学习如何提高识别精度，并尽量减少移动成本。
泛化能力：在实际应用中，训练好的模型不仅要在训练环境中有效，还需要在测试环境中具有较好的表现。通过引入历史观察和状态估计的优化，IBE-MAP方法有效增强了策略网络在新环境下的泛化能力，使得模型能够应对更多未知的场景。

6. 实验结果

实验结果部分展示了使用UEVAVD数据集进行训练和测试的效果：

硬测试集上的评估首先，利用UEVAVD数据集的训练集，通过不同的AOD方法训练代理的策略，并使用硬测试集进行评估。测试结果显示，三种策略在同一测试环境中的表现存在明显差异：
从测试结果中可以看出，IBE-MAP策略在保持较高识别精度的同时，减少了不必要的移动，表现出较强的效果。

随机策略：该策略随机选择行动指令，因此AOD任务失败。
MAP策略：该策略成功帮助无人机平台避开障碍物并获得正确的识别结果，但偏离了最优路径。
IBE-MAP策略：该策略引导无人机以较低的移动成本找到更好的视角。一旦代理找到足够的视角进行目标识别，就会做出提前停止的决策，从而提高任务执行效率。

训练和测试阶段的总体比较在训练和测试阶段，三种AOD方法（MAP、Memo-MAP、IBE-MAP）的性能发展趋势如下图所示：

这些结果验证了引入场景预分解和基于记忆的状态估计方法的有效性。

回报值（Return）、识别精度（Accuracy）和路径长度（Path Length）在训练和测试过程中逐渐提高，表明这些策略比被动感知方法能够帮助代理在较低的移动成本下实现更好的目标识别。
结果显示，IBE-MAP策略在测试阶段具有最强的泛化能力，其回报值超过了其他两种方法，且其泛化差距（GenGap）最小。
尽管MAP策略在训练阶段表现最好，但其泛化差距较大，存在过拟合问题。
通过将历史观察纳入状态表示，Memo-MAP策略比MAP策略略有优势，路径长度更短，且泛化差距较小。

超参数分析对两个超参数（thre 和 C）进行分析，探讨它们对策略性能的影响。

thre（分类阈值）：表示分类器识别目标成功的阈值。实验结果显示，随着thre值的增大，回报值下降，路径长度增加，而对识别精度的影响较小。最优配置是thre=0.2，此时策略表现最佳。
C（动作范围的上限）：控制动作范围对回报值的影响，用于平衡移动成本与识别精度的提升。随着C的增大，路径长度缩短，但识别精度下降，显示出精度和路径长度之间的权衡。在C=0时，代理可以自由探索环境并获得较好的识别精度，但路径较长。随着C增大，移动成本的限制逐步增大，导致路径长度缩短，但精度有所下降。

7. 总结 & 未来工作

本文发布了一个新的数据集UEVAVD，该数据集包含了不同地形和遮挡条件下的多视角无人机图像。通过结合这些观测数据，可以模拟无人机在沿轨迹移动时进行连续观测的过程。我们希望这个数据集能够促进无人机视角下AOD问题的研究。此外，我们提出了IBE-MAP方法，该方法将两方面的先验知识融入到原MAP方法中，使得策略网络能够学习到更好的状态表示。在此基础上，代理的策略可以更好地泛化到测试环境中。未来的工作中，我们将寻求更合适的方法来改进策略网络的状态表示，从而进一步提高测试时的回报值并缩小泛化差距。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿：具身智能、大模型、Mamba、扩散模型等

除了这些，还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球，已沉淀6年，星球内资料包括：秘制视频课程近20门（包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等）、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

▲长按扫码加入星球

3D视觉工坊官网：www.3dcver.com

具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。

3D视觉模组选型：www.3dcver.com

— 完 —

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

3D视觉科技前沿进展日日相见 ~

http://mp.weixin.qq.com/s?__biz=MzU1MjY4MTA1MQ==&mid=2247710786&idx=3&sn=0c700d70907dace2a9dde7c87f8566be

3D视觉工坊

专注于工业3D视觉、SLAM、自动驾驶、三维重建、无人机、具身智能、扩散模型等前沿技术分享与产业落地，力争打造为国内最专业的3D视觉社区。官网：www.3dcver.com 佳v：cv3d007 或 13451707958

最新文章

谷歌2024博士奖学金名单公布

还在用3DGS？更快、更真、更准的3DLS即将开源！

彻底搞懂扩散模型数学基础剖析、公式推导、代码讲解

最新 IROS 2024：实时调整，灵活抓取！大语言模型赋能机械臂抓取

机器学习中有哪些形式简单却很巧妙的idea？

高精度三维重建，KW-P 3D相机能行吗？

彻底解决尺度漂移！浙大新作BEV-ODOM：使用BEV增强单目VO！定位精度SOTA！

用深度强化学习实现机械臂抓取，请问大家都是怎么做的仿真？现在有点迷茫?

为什么现在的 AI 大模型好像只有中美在做，世界上其他国家都好像完全消失了？

已注销！985新校区，不建了

COLMAP即将Out！图像没有任何重叠也能估计位姿！爆拉LoFTR & Dust3D十倍精度！

突破维度限制！GenXD：拿捏真实通用3D、4D生成！

给工坊的深度相机精度排个名，JD-500第6，第一名没有争议！

3D视觉课程&硬件汇总

国内外高校具身智能实验室汇总（国内、北美、欧洲篇）

告别CAD模型依赖！GS2Pose：用3D高斯点云重塑6D姿态估计！

UC伯克利开源！深度估计、光流、分割大一统！

配套源码！让VINS-Mono原地起飞！转弯也不跟丢！

结构光视觉如何用于工件位置和姿态测量，与双目视觉相比有何优劣势？

三维重建 3D reconstruction 有哪些实用算法？

持续提高SuperPoint+LightGlue匹配质量！万能辅助！任何情况都不会对结果产生负面影响！

NeurlPS'24开源 | Point-PRC：全新通用点云分析框架！

魔改一个loss可以发啥水平的文章?

新文章提出取消作者姓名排序，人人都是一作，你赞同这种署名方案吗？

复旦&蔚来开源DG-SLAM：第一个动态环境下的鲁棒GS SLAM！

更智能！更高效！国科大重磅！无人机视角下的目标识别：UEVAVD数据集与IBE-MAP策略

学LLM大模型算法，简历上写了“精通大模型”后......

为什么说px4仍然是无人机控制的核心？

NeurIPS'24开源 | 无惧遮挡！多实例点云配准新SOTA！简单而强大的3D聚焦和匹配网络

ECCV 2024 oral | 通过跟踪实现在线高清地图重建，达到SOTA性能！

全局与局部提示分离！GlocalCLIP：零样本异常检测！实现跨领域异常检测的高效突破！

各位被拒稿的理由都是啥？

MIT全新开源！回环准确性和语义一致性SOTA！SEO-SLAM：视觉SLAM的语义增强！

NeurIPS'24 | 端到端！英伟达全新LSM框架：从无姿态图像到语义3D重建！

AIGC是否会颠覆未来的生产模式？普通人如何利用AI提高效率？

国内 AI 大模型已近 200 个，为什么没有一个比的上 GPT-4o？

MIT开源！轨迹精度暴涨37%！ROMAN：无惧特征稀疏和感知混淆，超鲁棒的全局定位！

精度0.05mm！一款轻量化DLP单目结构光3D相机

李飞飞团队新作：空间智能版ImageNet来了！

研二计算机视觉方向，没有idea也不会写代码，该怎么办？

具身智能、扩散模型、大模型微信交流群成立啦！

2024年图像匹配挑战赛：银牌解决方案！

1W | 飞行器和地面车辆线路协同巡检项目(租借进行演示)

无惧透明物体！重新思考曲面重建：NeuS再升级！（中科院&NTU重磅开源）

站在AI前沿！为什么现在是学习LLM算法工程师的最好时机？

请问有哪些计算机视觉 CCF-B、C 类期刊和会议比较容易中稿？

今年毕业，要不要选3D视觉这个赛道？

比LoFTR快5倍！比LightGlue精度高20%！ETO：超快局部特征匹配！（浙大章国锋团队）

在所有基准创下新高！微软开源PF3plat：无需位姿先验，全新3DGS重建和新视角合成框架！

当审稿人给的意见，你无法修改的时候怎么办？

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉