TGRS | U²ConvFormer: 复旦团队提出高光谱图像分类模型, 结合U-Net和Transformer

文摘   2024-11-13 10:04   荷兰  

 RS   DL 

论文介绍

题目:U²ConvFormer: Marrying and Evolving Nested U-Net and Scale-Aware Transformer for Hyperspectral Image Classification

期刊:IEEE Transactions on Geoscience and Remote Sensing

论文:https://ieeexplore.ieee.org/document/10510343/authors#authors

年份:2024
单位:复旦大学

创新点

  • U²ConvFormer:首次将嵌套U-Net与尺度感知Transformer结合,用于高光谱图像分类。嵌套U-Net负责多尺度光谱-空间特征的全面提取和聚合,而尺度感知Transformer将局部多尺度特征转换为全局尺度感知特征。
  • 轻量化的A2SConv操作:为了解决高光谱数据的光谱-空间维度非对称性,提出了一种灵活且可插拔的A2SConv操作,通过联合外部和内部搜索空间实现异构特征池化和多尺度特征提取。
  • 自动化架构搜索策略:应用高级NAS方法,自动优化和定制适合不同高光谱数据集的U²ConvFormer结构。在Indian Pines、Pavia University和Houston University 2018等数据集上的实验验证了该方法的卓越分类效果。

数据

Indian Pines
  • 由Airborne Visible Infrared Imaging Spectrometer (AVIRIS) 传感器于1992年在美国印第安纳州的Indian Pines测试场采集。
  • 图像尺寸为145 × 145像素,覆盖224个波段,波长范围为0.4–2.5 µm。
  • 预处理:去除了受水分吸收影响的波段(104–108, 150–163, 和220),最终使用200个波段进行分析。
  • 包含10,249个标记样本,分为16种地物类别,其中三分之二为农业用地,三分之一为森林或其他自然多年生植被。
Pavia University
  • 由Reflective Optics System Imaging Spectrometer (ROSIS-03) 传感器于2003年在意大利北部帕维亚大学上空采集。

  • 图像尺寸为610 × 340像素,包含115个波段,空间分辨率为1.3米。

  • 预处理:去除了12个噪声波段,最终使用103个波段进行分析。

  • 包含42,776个标记样本,分为9种地物类别。
Houston University 2018
  • 由美国休斯敦大学国家激光测绘中心 (NCALM) 在2017年2月16日采集,覆盖休斯敦大学校园及其周边区域。

  • 图像尺寸为601 × 2384像素,包含48个波段,波长范围为380–1050 nm。

  • 包含504,856个标记样本,分为20种地物类别

方法

模型架构

  • 嵌套U-Net:这部分结构通过多层编码器和解码器实现多尺度特征的提取,重点在于提取高光谱图像的局部光谱-空间信息。嵌套U-Net设计了两层编码器和解码器,每层包含多尺度卷积模块,以更深入地挖掘内部和层间的多尺度特征。
  • 尺度感知Transformer:这部分将来自嵌套U-Net编码器的多尺度局部特征进行整合,生成更具尺度感知性的全局光谱-空间特征,进一步提高了对图像中不同尺度目标的分类准确性。利用多头自注意力机制(MHSA)捕捉特征间的长程依赖关系,并通过可调的MLP比率优化特征表示。最终,全局特征与局部特征融合,形成增强的多尺度光谱-空间特征,为分类提供更丰富的输入。

异构光谱-空间卷积(A2SConv)

文章设计了一种新型的轻量化、可插拔的A2SConv操作,用于更灵活地处理高光谱图像中的异构特征。A2SConv通过异构的光谱-空间池化和多尺度卷积来提取关键特征,增强了模型应对不同尺度和形状的能力。

  • 光谱-空间异构池化:该池化方式允许根据需求在光谱和空间维度上分别提取特征,这在捕捉高光谱数据的特定光谱和空间特性方面具有优势。

  • 多尺度特征提取:通过灵活的卷积核设计,使得A2SConv可以根据特定任务需求调整感受野大小,从而在同一层次内同时捕获细节和整体特征。

神经架构搜索(NAS)策略

为自动化设计U2ConvFormer的最佳结构,文章使用了先进的NAS策略,即β-DARTS方法。NAS策略通过自动优化嵌套U-Net和尺度感知Transformer的不同层的配置,使模型能够根据具体的高光谱数据集进行自适应优化,从而减少人工调参的需求。

  • 在编码器和解码器中搜索最优的A2SConv配置,以确定最适合不同数据集的卷积池化操作。

  • 在尺度感知Transformer中自动搜索最合适的多头自注意力模块和全连接层参数,以达到最佳的特征融合效果。


特征注入与解码器

在尺度感知Transformer生成多尺度全局特征后,这些全局特征会与局部特征进行注入融合,形成多尺度的局部到全局特征。这些融合特征随后被输入到嵌套U-Net的解码器中,解码器再进一步处理并输出增强的特征,用于最终的分类。

结果与分析

三个数据集上的最终网络结构

精度对比

3个数据集上的精度对比

可视化对比

3个数据集上的可视化


更多图表分析可见原文



因配置了AI回复功能,除关键词自动回复外,号内信息主要由AI大模型回复。如需资源、投稿、合作等,请直接联系小助手微信(添加请备注:咨询投稿合作加群,加群需备注姓名/昵称,单位和研究方向)。

公众号欢迎优秀作者投稿!可加入优秀论文作者群:欢迎加入AI遥感优秀论文作者群!


问题及讨论可直接在文章下方留言


相关链接:

论文赏读 | ECCV24 | 为高光谱影像找到最好用的Transformer架构, HyTAS 架构搜索基准

论文赏读 | TIM | 高光谱和LiDAR 数据融合, 基于进阶光照的框架PID-HLfusion

论文赏读 | TGRS | HLMamba: 基于Mamba的高光谱和LiDAR数据联合分类

论文赏读 | TGRS | HI²D²FNet: 高光谱图像与LiDAR数据的融合和分类网络, 基于高光谱本征图像分解引导的模型


  欢迎关注  


分享遥感与深度学习领域的技术、论文、书籍、新鲜事。



欢迎加入遥感与深度学习交流群(点此加入)


遥感与深度学习
聚焦遥感与深度学习,分享相关技术、论文、书籍、资讯,团队来自国内外著名期刊作者及审稿人
 最新文章