RS DL
论文介绍
题目:Explicit High-level Semantic Network for Domain Generalization in Hyperspectral Image Classification
期刊:IEEE Transactions on Geoscience and Remote Sensing
论文:https://ieeexplore.ieee.org/document/10750220
代码:https://github.com/SCUT-CCNL/EHSnet
创新点
文章提出了一种领域泛化方法称作EHSnet,该方法利用文本中的多层显示语义信息(Explicit High-level Semantics, EHS)为图像编码器提供精确相关的语义信息,具有零样本泛化能力,可用于跨场景HSI分类。 首先为高光谱图像定义了一个多层EHS范式,包括全局和局部语义,以提取HSI中土地覆盖的复杂相互关系和碎片化特征。通过图像级别标注的全图描述性文本挖掘全局语义,而对应于每个patch的局部描述性文本负责局部语义挖掘。 接下来提出了一种双残差混合的图像编码器。该编码器首先将残差结构的3D-CNN网络与2D-CNN网络相结合,从而区分不同光谱波段内的空间信息,然后与采用短距跨单层连接的ViT编码器相连,以充分挖掘HSI丰富的内在光谱空间特征。 通过与自然图像的域泛化方法和适用于跨场景HSI分类的SOTA方法进行对比实验,证明EHSnet在跨场景HSI分类中达到了SOTA的性能。
数据
包括Houston 2013和Houston 2018两个场景。Houston 2013的大小为349×1905,由144个波段组成,范围从364到1046 nm,共有15个地物类别。Houston 2018大小为2384×601,包含20个类别,48个光谱波段。在本研究中进行的实验使用了共享的48个波段和7个类,重叠面积为209×955。选择Houston 2013数据集作为源域,Houston 2018数据集作为目标域。
Pavia数据集
Pavia数据集包括Pavia University数据集和Pavia Center数据集,两者的空间分辨率均为1.3m,分为9个类别。Pavia Center数据集大小为1096 × 715,包含102个波段;Pavia University数据集大小为610 × 340,包含103个波段。实验中使用了两个场景间的102个共享波段和7个共享类。选择Pavia University作为源域,选择Pavia University作为目标域。
雄安郊区(Xiongan Subrub, XS)数据集于2018年在中国河北省雄安市郊区收集。该数据集大小为2821 × 2840,空间分辨率为0.5 m,光谱分辨率为2.4 nm,包含8个类别。与Pavia和Houston数据集相比,XS数据集的品类分布更加碎片化,标签划分粗糙导致类内异质性高,极大地增加了分类难度。实验使用了原始图像的两个不相邻的子区域,每个子区域的大小是原始图像的1/16。源域称为XS_0,目标域称为XS_1,它们的大小为706×710,共享7个类和253个波段。
方法
模型结构
EHSnet的网络结构如图所示。从源域中采样出patch,然后输入到图像编码器中,patch的对应文本与源域对应的全局文本一起进入文本编码器。两类文本经过文本编码器编码,并通过参数融合后,与图像特征一起进入语义空间进行监督对比学习。在测试阶段,仅通过图像编码器的分类头给出目标域的预测结果。
图像编码器
在图像编码器的开始部分采用了三层深度的残差3D-CNN架构,对Conv3d的三层分别进行BN3d-ReLU,然后将第一层产生的输出以残差方式进一步与第三层相连。残差3D-CNN三层深度架构能够提取高光谱数据的光谱信息。之后,再连接一个2D-CNN层,该层可以在保留有价值的光谱信息的同时,对各个光谱通道内的空间细节进行强分辨。 CNN难以在长序列数据之间建立依赖关系,在处理HSI光谱序列特征和获得深度语义特征方面能力有限。因此,EHS引入了ViT,利用2D-CNN层的连接来提取HSI的更深层语义特征,并采用了短程跨层连接设计,仅跳过ViT模块中的一层,以减少在分层传播过程中丢失有价值信息的可能性。这两种残差式编码器的结合为混合图像编码器提供了强大的表征能力。 图像特征经过混合图像编码器编码后,分别通过分类头计算交叉熵损失,又通过投影保持与文本特征相同的维数,再经过残差线性变换以得到更加鲁棒的图像特征。随后,图像特征进入语义空间,与文本特征进行监督对比学习。
文本编码器
EHSnet文本编码器由三层组成,有8个注意头,参数体积约为33M,采用了与CLIP相似的编码方式,并利用CLIP预训练权重ViT-B-32初始化。 EHSnet 使用提示模板“A hyperspectral image of [patch class]” 以完形填空形式构建对应于每个patch的局部语义信息文本。从这个提示模板生成的文本提供的语义信息有限,无法显著增强模型的表示能力。另一方面,在文本模态信息中注入大量的先验知识,以提供更多的语义信息,需要大量的人工投入。在高光谱图像中,错综复杂的相互关系和土地覆盖的碎片性使得这更加困难。因此,EHSnet定义了多层EHS范式。 具体而言,该范式设计了一个新的提示模板:“A hyperspectral image of [simple description] with surface covered with[class1], [class2] and [classN] ”,同样以完形填空的形式构建表示全局语义信息的全局文本。全局文本提供了整个HSI图片的相关信息和土地覆盖类的简明概述。源域和目标域之间共享相同的土地覆盖类别,因此该全局语义信息适用于两者。这两层文本信息相互补充,为提取领域不变特征注入了更高层次的语义信息。此外,使用提示模板来生成不同层次的的文本克服了HSI中复杂的相互关系和土地覆盖的碎片性所带来的挑战,促进了对不同数据集的可扩展性。三个数据集对应的全局文本如下所示: 获得局部文本特征和全局文本特征后,引入系数alpha将两个文本特征融合从而对多层语义信息进行对齐,集成后的特征进入语义空间与图像特征进行监督对比学习。融合的文本特征包含多层语义信息,只需要与图像特征对齐一次,节省了模型的学习成本。
在视觉特征和语言特征进入语义空间后,实现视觉语言对比学习,以最小化属于同一类的图像特征和文本特征之间的距离。由于融合了多层高级语义信息,使得图文对齐不仅可以表示同一类的两种模态之间的特征距离,还可以表示不同类之间的距离。通过模型不断收敛,可以有效地减小同一类的两个模态之间的特征距离,同时有效地扩大不同类之间的距离。在提取HSI数据的空间光谱表示的过程中,这种两层语义信息的集成有助于模型获得跨域和特定于每个类的不变表示。 EHSnet同时使用文本编码器和图像编码器在源域进行联合训练,并引入参数beta对分类交叉熵损失和图文对比损失进行约束。在推理阶段,只使用来自目标域的图像数据,并通过图像编码器的分类头获得预测结果。
实验与分析
精度对比
可视化对比
更多图表分析可见原文
公众号欢迎优秀作者投稿!可加入优秀论文作者群:欢迎加入AI遥感优秀论文作者群!
TGRS | U²ConvFormer: 复旦团队提出高光谱图像分类模型, 结合U-Net和Transformer
论文赏读 | ECCV24 | 为高光谱影像找到最好用的Transformer架构, HyTAS 架构搜索基准
论文赏读 | TIM | 高光谱和LiDAR 数据融合, 基于进阶光照的框架PID-HLfusion
论文赏读 | TGRS | HLMamba: 基于Mamba的高光谱和LiDAR数据联合分类
欢迎关注
分享遥感与深度学习领域的技术、论文、书籍、新鲜事。
欢迎加入遥感与深度学习交流群(点此加入)。