TGRS | U²ConvFormer: 复旦团队提出高光谱图像分类模型, 结合U-Net和Transformer

文摘 2024-11-13 10:04 荷兰

RS DL

题目：U²ConvFormer: Marrying and Evolving Nested U-Net and Scale-Aware Transformer for Hyperspectral Image Classification

期刊：IEEE Transactions on Geoscience and Remote Sensing

论文：https://ieeexplore.ieee.org/document/10510343/authors#authors

年份：2024

单位：复旦大学

U²ConvFormer：首次将嵌套U-Net与尺度感知Transformer结合，用于高光谱图像分类。嵌套U-Net负责多尺度光谱-空间特征的全面提取和聚合，而尺度感知Transformer将局部多尺度特征转换为全局尺度感知特征。
轻量化的A2SConv操作：为了解决高光谱数据的光谱-空间维度非对称性，提出了一种灵活且可插拔的A2SConv操作，通过联合外部和内部搜索空间实现异构特征池化和多尺度特征提取。
自动化架构搜索策略：应用高级NAS方法，自动优化和定制适合不同高光谱数据集的U²ConvFormer结构。在Indian Pines、Pavia University和Houston University 2018等数据集上的实验验证了该方法的卓越分类效果。

Indian Pines

由Airborne Visible Infrared Imaging Spectrometer (AVIRIS) 传感器于1992年在美国印第安纳州的Indian Pines测试场采集。
图像尺寸为145 × 145像素，覆盖224个波段，波长范围为0.4–2.5 µm。
预处理：去除了受水分吸收影响的波段（104–108, 150–163, 和220），最终使用200个波段进行分析。
包含10,249个标记样本，分为16种地物类别，其中三分之二为农业用地，三分之一为森林或其他自然多年生植被。

Pavia University

由Reflective Optics System Imaging Spectrometer (ROSIS-03) 传感器于2003年在意大利北部帕维亚大学上空采集。
图像尺寸为610 × 340像素，包含115个波段，空间分辨率为1.3米。
预处理：去除了12个噪声波段，最终使用103个波段进行分析。
包含42,776个标记样本，分为9种地物类别。

Houston University 2018

模型架构

嵌套U-Net：这部分结构通过多层编码器和解码器实现多尺度特征的提取，重点在于提取高光谱图像的局部光谱-空间信息。嵌套U-Net设计了两层编码器和解码器，每层包含多尺度卷积模块，以更深入地挖掘内部和层间的多尺度特征。
尺度感知Transformer：这部分将来自嵌套U-Net编码器的多尺度局部特征进行整合，生成更具尺度感知性的全局光谱-空间特征，进一步提高了对图像中不同尺度目标的分类准确性。利用多头自注意力机制（MHSA）捕捉特征间的长程依赖关系，并通过可调的MLP比率优化特征表示。最终，全局特征与局部特征融合，形成增强的多尺度光谱-空间特征，为分类提供更丰富的输入。

文章设计了一种新型的轻量化、可插拔的A2SConv操作，用于更灵活地处理高光谱图像中的异构特征。A2SConv通过异构的光谱-空间池化和多尺度卷积来提取关键特征，增强了模型应对不同尺度和形状的能力。

为自动化设计U2ConvFormer的最佳结构，文章使用了先进的NAS策略，即β-DARTS方法。NAS策略通过自动优化嵌套U-Net和尺度感知Transformer的不同层的配置，使模型能够根据具体的高光谱数据集进行自适应优化，从而减少人工调参的需求。

在尺度感知Transformer生成多尺度全局特征后，这些全局特征会与局部特征进行注入融合，形成多尺度的局部到全局特征。这些融合特征随后被输入到嵌套U-Net的解码器中，解码器再进一步处理并输出增强的特征，用于最终的分类。

三个数据集上的最终网络结构

精度对比

3个数据集上的精度对比

可视化对比

3个数据集上的可视化

更多图表分析可见原文

因配置了AI回复功能，除关键词自动回复外，号内信息主要由AI大模型回复。如需资源、投稿、合作等，请直接联系小助手微信（添加请备注：咨询、投稿、合作、加群，加群需备注姓名/昵称，单位和研究方向）。

公众号欢迎优秀作者投稿！可加入优秀论文作者群：欢迎加入AI遥感优秀论文作者群！

问题及讨论可直接在文章下方留言