论文赏读 | TGRS | 无人机图像单目深度估计, 结合动态语义感知的精度提升方法

文摘   2024-08-24 08:25   荷兰  

 RS   DL 

论文介绍

题目:Dynamic Semantically Guided Monocular Depth Estimation for UAV Environment Perception
期刊:IEEE Transactions on Geoscience and Remote Sensing
论文:https://ieeexplore.ieee.org/document/10368096/

年份:2024

创新点

  • 动态语义感知模块:文章提出了一个新的动态语义感知模块,将从RGB图像中提取的特征与动态加权的语义图结合。语义图中的权重在训练过程中不断调整,首先关注较大的物体,然后再关注较小的物体,从而提高网络在物体边界上的深度预测能力和置信度。
  • 三种新的语义感知损失函数:作者为不同的学习框架(回归、分类和序数回归)提出了三种新的语义感知损失。这些损失根据场景中的物体类型进行自适应,从而增强了深度预测的准确性,特别是在复杂和非结构化的环境中。
  • 语义注意力子网络:一个轻量级的子网络,通过矩阵乘法和softmax层将深度和语义特征结合在一起,有效利用语义信息,显著提高了深度估计的准确性。
  • 提出的方法针对无人机获取的航拍图像进行设计,这些图像由于其非结构化特性而具有挑战性。研究表明,提出的方法在合成和真实的航拍图像上表现出色。

数据

数据主要包括合成数据和真实数据

合成数据

1.MidAir 数据集

MidAir 数据集是一个为无人机低空飞行场景设计的多模态数据集,包含高质量的合成图像。图像是从无人机在低空多条轨迹下飞行时捕获的,涵盖了不同的气候、季节和天气条件。该数据集提供了约40万帧独立的图像,图像大小为1024×1024像素(在实验中,分辨率被缩小为512×512像素以提升计算性能)。

地面真实数据(Ground Truth, GT):数据集提供了多种视觉识别任务的地面真实数据,包括语义分割、立体重建和单目深度估计(MDE)。深度数据存储为16位浮点数图像,深度范围为1到1250米。为了实验,大多数情况下将范围减少到1到150米,超过此距离的点都被估计为150米。

2.虚拟环境生成的合成图像

研究人员利用Unreal Engine 4引擎生成了一组虚拟森林环境中的合成图像,以测试所提出方法在更复杂、非结构化场景下的性能。图像大小为1280×768像素。深度GT同样保存为16位浮点数,深度范围设置为1到150米,超出此范围的点被估计为150米。

真实数据

1. WildUAV 数据集

WildUAV数据集是使用实际无人机捕获的真实图像,用于验证所提出系统在真实场景中的有效性。实验中使用的设备是一台DJI Matrice 210 RTK V2无人机,配备了DJI Zenmuse X5s相机系统。图像大小为5280×3956像素(在实验中被缩小并分割为两张1024×1024像素的图像)。无人机在不同的场景(如田野、森林)中以预设高度(20到30米)进行飞行,同时使用实时动态(RTK)定位以确保精确的位置信息。

2. UAVid 数据集

UAVid是为语义分割任务设计的无人机视频数据集,包含城市街道环境中的图像。数据集包含大约42000帧,大小为4096×2160像素。该数据集的深度GT并未公开,但研究人员通过立体重建方法生成了约2000张深度图用于训练。在某些未能成功重建的表面区域存在缺失数据。

方法

总体结构

本文设计了一种结合语义信息与深度特征的卷积神经网络架构。

  • 特征提取模块:从输入的RGB图像中提取多尺度、多分辨率的特征,以捕捉场景中不同物体之间的关系。

  • 语义注意力子网络:将提取的语义特征和深度特征结合,增强深度估计的精度。

  • 学习模块:通过设计新的损失函数,优化模型的学习过程,确保更高的准确性和更快的收敛速度。

特征提取模块

在特征提取模块中,模型从输入的RGB图像中提取多尺度、多分辨率的特征。为了避免传统池化层带来的像素间信息丢失,本文使用了一些现代的特征提取器,如ResNet、Inception、Xception和Darknet,特别是Darknet在平衡准确性和计算效率方面表现优异。

语义注意力子网络

语义注意力子网络通过结合语义特征和深度特征来增强深度估计的能力。

  • 特征融合:深度特征与语义特征通过一种巧妙的方式进行融合,从而强调同一物体或表面上的相关像素。

  • softmax处理:通过softmax处理进一步保持这些相关性,为每个像素分配适当的权重。

  • 特征整合:最终的融合特征经过进一步处理后,成为模型用于深度估计的重要输入。

这一子网络的设计旨在在尽可能减少计算量的同时,充分利用语义信息来提升深度估计的准确性。

动态语义感知学习机制

本文提出了一种动态调整语义类别权重的学习机制,以便在不同的训练阶段对不同的语义类别赋予不同的重要性:

  • 初始阶段:在训练初期,模型会优先关注较大的物体(如道路和植被),因为这些物体通常占据场景中的大部分区域,这有助于模型学习平滑的大尺度深度分布。

  • 后续阶段:随着训练的进行,模型逐渐将注意力转向较小的物体(如动物、路标等),以提高对这些小物体的深度预测能力。

这种动态调整的策略使得模型在不同的训练阶段能够更加有效地学习不同的场景特征。

语义感知损失函数

本文为深度估计设计了三种新的语义感知损失函数,分别对应于不同的学习框架:

  • 回归损失:用于直接预测深度值的误差,通过结合语义权重,改进模型的深度估计精度。

  • 分类损失:将深度估计问题视为一个分类任务,结合语义信息,可以在最终的深度预测中保留更多的信息。

  • 序数回归损失:通过确保预测的深度值接近真实值的邻近深度类别,减少总体误差,特别适用于不规则的深度分布场景。

结果和精度

精度对比

真是场景图像上的表现

不同特征提取器

不同损失函数

不同语义类别

不同语义分割方法

可视对比

真实图像中的结果

更多结果讨论图表可查看原文


欢迎关注CVPR/ECCV 2024系列



因配置了AI回复功能,除关键词自动回复外,号内信息主要由AI大模型回复。如需资源、投稿、合作等,请直接联系小助手微信(添加请备注:咨询投稿合作加群,加群需备注姓名/昵称,单位和研究方向)。



关于AI回复功能:


公众号新增AI回复功能,已接入大模型,集成查找ArXiv论文、CSDN博文等功能



问题及讨论可直接在文章下方留言


相关链接:


论文赏读 | TGRS | SAM辅助遥感影像语义分割,使用目标和边界约束
论文赏读 | CVPR24 | 多模态无人机数据目标检测,自适应特征对齐和融合
论文赏读 | RSE | 北半球2.5m大规模建筑高度估计,基于深度学习的超分辨率重建方法
书籍推荐 | 空天院沈占锋研究员团队: 遥感GIS算法底层设计与实现, 深度学习实践应用
遥感竞赛 | 近期竞赛总结, 含道路提取, 变化检测, 高光谱影像分类, 目标检测追踪, 图像去云等

  欢迎关注  


分享遥感与深度学习领域的技术、论文、书籍、新鲜事。



欢迎加入遥感与深度学习交流群(点此加入)


遥感与深度学习
聚焦遥感与深度学习,分享相关技术、论文、书籍、资讯,团队来自国内外著名期刊作者及审稿人
 最新文章