论文赏读 | TGRS | 无人机图像单目深度估计, 结合动态语义感知的精度提升方法

文摘 2024-08-24 08:25 荷兰

RS DL

论文介绍

题目：Dynamic Semantically Guided Monocular Depth Estimation for UAV Environment Perception

期刊：IEEE Transactions on Geoscience and Remote Sensing

论文：https://ieeexplore.ieee.org/document/10368096/

年份：2024

创新点

动态语义感知模块：文章提出了一个新的动态语义感知模块，将从RGB图像中提取的特征与动态加权的语义图结合。语义图中的权重在训练过程中不断调整，首先关注较大的物体，然后再关注较小的物体，从而提高网络在物体边界上的深度预测能力和置信度。
三种新的语义感知损失函数：作者为不同的学习框架（回归、分类和序数回归）提出了三种新的语义感知损失。这些损失根据场景中的物体类型进行自适应，从而增强了深度预测的准确性，特别是在复杂和非结构化的环境中。
语义注意力子网络：一个轻量级的子网络，通过矩阵乘法和softmax层将深度和语义特征结合在一起，有效利用语义信息，显著提高了深度估计的准确性。
提出的方法针对无人机获取的航拍图像进行设计，这些图像由于其非结构化特性而具有挑战性。研究表明，提出的方法在合成和真实的航拍图像上表现出色。

数据

数据主要包括合成数据和真实数据

合成数据

1.MidAir 数据集

MidAir 数据集是一个为无人机低空飞行场景设计的多模态数据集，包含高质量的合成图像。图像是从无人机在低空多条轨迹下飞行时捕获的，涵盖了不同的气候、季节和天气条件。该数据集提供了约40万帧独立的图像，图像大小为1024×1024像素（在实验中，分辨率被缩小为512×512像素以提升计算性能）。

地面真实数据（Ground Truth, GT）：数据集提供了多种视觉识别任务的地面真实数据，包括语义分割、立体重建和单目深度估计（MDE）。深度数据存储为16位浮点数图像，深度范围为1到1250米。为了实验，大多数情况下将范围减少到1到150米，超过此距离的点都被估计为150米。

2.虚拟环境生成的合成图像

研究人员利用Unreal Engine 4引擎生成了一组虚拟森林环境中的合成图像，以测试所提出方法在更复杂、非结构化场景下的性能。图像大小为1280×768像素。深度GT同样保存为16位浮点数，深度范围设置为1到150米，超出此范围的点被估计为150米。

真实数据

1. WildUAV 数据集

WildUAV数据集是使用实际无人机捕获的真实图像，用于验证所提出系统在真实场景中的有效性。实验中使用的设备是一台DJI Matrice 210 RTK V2无人机，配备了DJI Zenmuse X5s相机系统。图像大小为5280×3956像素（在实验中被缩小并分割为两张1024×1024像素的图像）。无人机在不同的场景（如田野、森林）中以预设高度（20到30米）进行飞行，同时使用实时动态（RTK）定位以确保精确的位置信息。

2. UAVid 数据集

UAVid是为语义分割任务设计的无人机视频数据集，包含城市街道环境中的图像。数据集包含大约42000帧，大小为4096×2160像素。该数据集的深度GT并未公开，但研究人员通过立体重建方法生成了约2000张深度图用于训练。在某些未能成功重建的表面区域存在缺失数据。

方法

总体结构

本文设计了一种结合语义信息与深度特征的卷积神经网络架构。

特征提取模块：从输入的RGB图像中提取多尺度、多分辨率的特征，以捕捉场景中不同物体之间的关系。
语义注意力子网络：将提取的语义特征和深度特征结合，增强深度估计的精度。
学习模块：通过设计新的损失函数，优化模型的学习过程，确保更高的准确性和更快的收敛速度。

特征提取模块

在特征提取模块中，模型从输入的RGB图像中提取多尺度、多分辨率的特征。为了避免传统池化层带来的像素间信息丢失，本文使用了一些现代的特征提取器，如ResNet、Inception、Xception和Darknet，特别是Darknet在平衡准确性和计算效率方面表现优异。

语义注意力子网络

语义注意力子网络通过结合语义特征和深度特征来增强深度估计的能力。

特征融合：深度特征与语义特征通过一种巧妙的方式进行融合，从而强调同一物体或表面上的相关像素。
softmax处理：通过softmax处理进一步保持这些相关性，为每个像素分配适当的权重。
特征整合：最终的融合特征经过进一步处理后，成为模型用于深度估计的重要输入。

这一子网络的设计旨在在尽可能减少计算量的同时，充分利用语义信息来提升深度估计的准确性。

动态语义感知学习机制

本文提出了一种动态调整语义类别权重的学习机制，以便在不同的训练阶段对不同的语义类别赋予不同的重要性：

初始阶段：在训练初期，模型会优先关注较大的物体（如道路和植被），因为这些物体通常占据场景中的大部分区域，这有助于模型学习平滑的大尺度深度分布。
后续阶段：随着训练的进行，模型逐渐将注意力转向较小的物体（如动物、路标等），以提高对这些小物体的深度预测能力。

这种动态调整的策略使得模型在不同的训练阶段能够更加有效地学习不同的场景特征。

语义感知损失函数

本文为深度估计设计了三种新的语义感知损失函数，分别对应于不同的学习框架：

回归损失：用于直接预测深度值的误差，通过结合语义权重，改进模型的深度估计精度。
分类损失：将深度估计问题视为一个分类任务，结合语义信息，可以在最终的深度预测中保留更多的信息。
序数回归损失：通过确保预测的深度值接近真实值的邻近深度类别，减少总体误差，特别适用于不规则的深度分布场景。

结果和精度

精度对比

真是场景图像上的表现

不同特征提取器

不同损失函数

不同语义类别

不同语义分割方法

可视对比

真实图像中的结果

更多结果讨论图表可查看原文

欢迎关注CVPR/ECCV 2024系列

因配置了AI回复功能，除关键词自动回复外，号内信息主要由AI大模型回复。如需资源、投稿、合作等，请直接联系小助手微信（添加请备注：咨询、投稿、合作、加群，加群需备注姓名/昵称，单位和研究方向）。

关于AI回复功能：

公众号新增AI回复功能，已接入大模型，集成查找ArXiv论文、CSDN博文等功能

问题及讨论可直接在文章下方留言

论文赏读 | ECCV24 | MutDet: 基于DETR的预训练框架改进遥感目标检测

深度学习全进阶！95博后新型思路曝光！频登顶刊解决遥感领域多年难题！

实践 | OpenAI发布o1, 编程等能力大幅提升! 遥感AI问题实测对比GPT4o

数据论文 | SARDet-100K: 首个 COCO 级别的大型 SAR 目标检测数据集

综述论文 | RSE | 深度学习用于城市土地利用分类综述, 以及实验评估

CVPR'25遥感视觉或将大杀四方！

遥感工具 | PaddleRS, 百度飞桨的官方遥感深度学习开发工具, 从数据到部署的全流程遥感应用

书籍推荐 | 骆剑承研究员: 遥感智能计算与地理精准应用的思考与探索

资讯 | NASA 新出功能: 在Landsat 上找到你的名字! Your Name in Landsat！

数据论文 | ISPRS | 688个城市1000万张街景综合数据集, 可直接下载

数据整理 | 全球大规模建筑底座数据集汇总

资讯 | 武汉一号卫星数据正式发布！

论文赏读 | TGRS | SSUMamba 用于高光谱遥感图像去噪, 代码已开源

书籍推荐 | 深度学习原理及遥感地学分析

论文赏读 | ISPRS | 农作物分类制图, 使用PlanetScope 影像和SAM模型, 并结合谷歌街景视图数据

论文赏读 | Φsat-2星载AI算法和应用论文, 包含U-Net云检测, YOLOv3-tiny船只检测等

资讯 | CogniSAT-6 AI卫星增强地物探测能力, Live Earth Intelligence 重大进步

欢迎加入AI遥感竞赛交流群！

遥感目标检测新王者！YOLO-World提升速度20倍！

会议通知 | 首届智慧遥感制图国际研讨会 (第二轮通知)，香港大学等单位主办

论文赏读 | TGRS | 全色和多光谱图像融合新方法! 基于像素级集成掩码自编码器

欢迎加入AI遥感竞赛交流群！

重磅！2024年最新国家自然科学基金申报与标书撰写培训

论文赏读 | ECCV24Oral | 点投影到轴, 用于有向框目标检测的点轴表示方法

论文赏读 | KAN 和 U-Net结合用于遥感农田分割, KAN You See It?

声明 | 关于公众号被恶意举报的声明

遥感Workshop| 雄安土地覆盖变化检测及分类制图, 学习免费, 邀请好友送黑神话悟空游戏一份！

三大顶会, 大模型搭建和优化工作！超全总结！（送书）

资讯 | 9月16日起, GEE将限制没有云项目的帐户的配额; 11月13日起, 所有GEE访问都需要云项目

数据论文 | AAAI24 | SkyScript: 斯坦福团队提出的大型遥感视觉-语言数据集, 关注语义多样性

论文赏读 | ISPRS | 基于天问一号影像的火星横向风成脊有向框目标检测

论文赏读 | TGRS | 高分辨率遥感影像去云，基于扩散模型和参考视觉先验

论文赏读 | TGRS | 无人机图像单目深度估计, 结合动态语义感知的精度提升方法

论文赏读 | TPAMI | 解决遥感有向目标检测中的边界不连续问题

综述+数据 | ISPRS | 卫星视频单目标跟踪: 综述及首个定向目标跟踪基准！

会议通知 | 大佬云集! 中国地理学会地理模型与地理信息分析专业委员会2024年学术年会, 可现场注册

欢迎加入遥感与深度学习交流群！

顶会涌现一批多模态大模型+遥感深度学习工作，极具创新！

论文赏读 | PyramidMamba: 即插即用的解码器用于遥感图像语义分割, UNetFormer作者新作

遥感竞赛 | 近期竞赛总结, 含道路提取, 变化检测, 高光谱影像分类, 目标检测追踪, 图像去云等

论文赏读 | ECCV24 | 使用全景-BEV联合检索网络进行跨视角图像地理定位

论文赏读 | TGRS | SAM辅助遥感影像语义分割，使用目标和边界约束

CVPR一作整理的计算机视觉学习路线

资讯 | 2024软科世界大学学术排名发布, 是由哪些指标评出的？附QS/USNews对比

论文赏读 | TIP | TTST: 用于遥感超分辨率重建的可动态选择token的Transformer网络

当遥感技术遇上扩散模型（Diffusion Model），强强联合！

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉