RS DL
论文介绍
题目:AiTARs-Net: A novel network for detecting arbitrary-oriented transverse aeolian ridges from Tianwen-1 HiRIC images
期刊:ISPRS Journal of Photogrammetry and Remote Sensing
论文:https://www.sciencedirect.com/science/article/pii/S0924271624000923
代码:https://github.com/PlanetaryScience3510/M-TARset
年份:2024
创新点
AiTARs-Net架构:研究提出了一种用于检测火星上任意方向横向风成脊(TARs)的新架构。 增强的维度感知全局-局部注意力模块(EDGM):该模块旨在通过关注空间和通道特征之间的交互来提取TARs的重要全局和局部特征,有助于减少地形噪声的干扰。 无锚Proposal生成网络(APGN):该模块利用非轴对齐的二维高斯函数生成任意方向的TAR候选框。 旋转区域卷积神经网络(Rotated R-CNN):进一步优化候选框以获得更准确的TAR位置和方向。 M-TARset数据集:该研究引入了火星TARs数据集(M-TARset),这是一项重要贡献,它汇集了六种不同地形和形态类型的TAR标注。这个数据集对于AiTARs-Net模型的训练和评估至关重要。
数据
1. 数据集构成
M-TARset数据集:M-TARset是一个专门用于检测火星上横向风成脊(TARs)的数据集。该数据集是基于天问一号探测器在火星祝融号着陆点拍摄的高分辨率成像相机(HiRIC)图像构建的。
标注数量和类型:M-TARset数据集包含35,877个TAR标注,每个TAR标注都带有定向边界框。这些TAR分布在六个不同的区域,每个区域代表不同的地形和形态特征。
2. 区域分类
根据TAR的分布特征,研究将数据集中的TAR区域分为六类:
均匀分散区(Uniformly Scattered Distribution Area, USDA):位于平原或地形相对平坦的区域,TAR分布较为分散,形状通常稍微弯曲。 辐射分布区(Radially Distributed Area, RDA):主要分布在锥形山或撞击坑的边缘。当风遇到高地形障碍物时,TAR会沿着这些障碍物的边缘呈辐射状排列,TAR多为线性,少数有弯曲形状。 线性密集排列区(Linear Densely Arranged Distributed Area, LDA):主要分布在悬崖和槽谷区域,由于地形限制,风沿着这些通道或岩壁形成线性流动,导致TAR排列紧密且通常较大。 复杂分布区(Complex Distribution Area, CDA):主要分布在火山或方山等复杂地形区域,TAR形状多为线性且相对较小。 不规则分布区(Irregular Uneven Noise Distribution Area, IUDA):分布有大量次级撞击坑,地形不均匀,TAR较小且分散,与次级撞击坑的边缘非常相似,增加了识别难度。 边缘状撞击坑喷出物毯分布区(Rampart Crater Ejecta Blanket Distributed Area, RCDA):TAR主要分布在这些区域的缓坡上,与区域内的线性结构相似,增加了检测的难度。
3. 数据收集和处理
数据收集:天问一号探测器的HiRIC相机在祝融号着陆点附近区域进行了详细的遥感调查。HiRIC采用了离轴三反射镜非球面光学系统,在265公里的高度上能够达到0.5米的分辨率,覆盖范围达9公里。 数据预处理:深空实验室对这些多视立体图像进行了预处理,并生成了0.7米分辨率的正射影像图,水平位置误差的标准偏差约为0.4米。这些数据被用于TAR的标注。
方法
AiTARs-Net模型是一种两阶段的旋转目标检测模型,主要由以下三个关键模块组成:
增强的维度感知全局-局部注意力模块(EDGM):用于特征提取。
无锚proposal生成网络(APGN):用于生成TAR proposal框。
旋转区域卷积神经网络(Rotated R-CNN):用于proposal框的精细化。
特征提取:增强的维度感知全局-局部注意力模块(EDGM)
EDGM模块的设计目标是从高分辨率火星图像中提取具有区分性的特征,并通过结合全局和局部特征来提高模型的感知和理解能力。具体方法如下:
局部特征提取:通过经典的残差块ResNet获得局部特征。残差块由卷积层、批归一化层(BN层)和ReLU激活层组成,有助于聚合邻域信息,提取局部关键特征,并缓解深度网络中的梯度消失问题。 全局特征提取:引入卷积三重注意力模块,捕捉输入的空间和通道维度之间的交互,进一步增强信息交换,并更精确地编码空间信息。通过全局最大池化和全局平均池化操作压缩输入特征,然后通过卷积层提取全局特征,最后将这些全局特征与局部特征融合,得到增强的特征表示。
Proposal生成:无锚proposal生成网络(APGN)
APGN模块的主要功能是生成TAR的proposal框,并对这些proposal框进行优化,以生成精确的TAR位置和方向信息。该模块包括两个主要步骤:
多尺度TAR预测头(MTPH):融合来自不同尺度的图像特征,以感知不同尺度的TAR目标。通过密集连接的方法,将不同深度的特征进行融合,以生成更具表现力的复合特征。
非轴对齐二维高斯函数诱导的TAR定位模块(NTLM):NTLM采用无锚架构,以减少锚框方法引入的复杂计算。首先预测TAR的中心位置,然后预测每个中心对应的旋转边界框参数,最后通过旋转的非极大值抑制(NMS)过滤掉重复的目标框。
TARs的表示方法(OBB有向框)
Proposal精细化:Rotated R-CNN
单阶段的目标检测器直接从特征图中预测TAR,因此对这些特征图中的噪声非常敏感,尽管召回率较高,但精度较低。为了解决这个问题,本文使用旋转R-CNN来优化旋转的proposal框,以准确检测TAR。
旋转ROI Align:为了避免使用水平ROI Align对旋转目标检测的对齐误差,本文使用旋转ROI Align模块,将不同大小的ROI特征转换为固定大小,使用双线性插值法获得子区域中心点的对应特征值,然后通过两个全连接层回归优化后的目标框参数和分类信息。
5. 损失函数
APGN损失:包括热图损失、边界框回归损失(GIoU损失)和角度分类损失。
旋转R-CNN损失:包括交叉熵损失和平滑L1损失。
最终的损失函数是以上损失的加权和,用于端到端训练整个模型。
结果和精度
精度对比
不同地形上
可视化
不同区域
更多结果图表分析可查看原文
欢迎关注CVPR 2024系列
因配置了AI回复功能,除关键词自动回复外,号内信息主要由AI大模型回复。如需资源、投稿、合作等,请直接联系小助手微信(添加请备注:咨询、投稿、合作、加群,加群需备注姓名/昵称,单位和研究方向)。
关于AI回复功能:
公众号新增AI回复功能,已接入大模型,集成查找ArXiv论文、CSDN博文等功能
问题及讨论可直接在文章下方留言
相关链接:
论文赏读 | TPAMI | 解决遥感有向目标检测中的边界不连续问题
欢迎关注
分享遥感与深度学习领域的技术、论文、书籍、新鲜事。
欢迎加入遥感与深度学习交流群(点此加入)。