改进Transformer的高光谱图像地物分类方法——以黄河三角洲为例
李薇1, 樊彦国1, 周培希2
高光谱技术已成为沿海湿地监测的主要手段,但传统高光谱分类方法通常存在特征提取不充分、同物异谱和场景碎片化等问题。针对这些问题,该文将Transformer用于高光谱分类,提出一种新的分类方法。该方法基于视觉自注意力模型(Vision Transformer,ViT),利用Non-local技术学习全局空间特征,扩大感受野解决提取判别特征不足的问题; 同时,通过自适应跨层残差连接加强层间信息交换,解决信息损失的问题。选取NC16和NC13黄河三角洲湿地数据集作为实验数据,并将提出的方法与支持向量机(support vector machine,SVM)、一维卷积神经网络(one dimensional convolution neural network,1DCNN)、上下文深度卷积神经网络(contextual deep convolution neural network,CDCNN)、光谱空间残差网络(spectral-spatial residual network,SSRN)、混合光谱网络(hybrid spectral network,HybridSN)和ViT进行比较分析。结果表明,所提方法的总体精度(overall accuracy,OA)、平均精度(average accuracy,AA)和Kappa系数均有显著提高,OA分别达到96.24%和73.84%,AA分别达到83.42%和74.87%,Kappa分别达到94.80%和68.94%。
0 引言
湿地是全球价值最高的生态系统,被誉为“地球之肾”、物种宝库、储碳库和气候变化的调节器,在孕育和丰富世界生物多样性领域中发挥了至关重要的作用。准确的沿海湿地监测对水资源保护、生物多样性保护和蓝碳碳汇开发具有重要意义。湿地分类可以为制定湿地保护计划和保护湿地物种多样性提供必要的参考信息。由于不同地面物体的光谱相似性,并且存在严重的碎片化和空间异质性,沿海湿地测绘仍是一大挑战。随着我国遥感研究的迅猛发展,高光谱已成为众多遥感技术中最重要的方向之一,高光谱图像(hyperspectral images,HSI)包含几十甚至上百个波段,真正实现了图谱合一。目前,HSI已经在许多领域取得了广泛的应用,如医学图像处理、土地测绘、精准农业、食品检测、气象监测、矿物勘探等[6]。遥感监测技术具有省时、省力、对湿地无破坏性采样、快速宏观监测等优势,已成为目前获取大面积湿地信息的主要途径。近年来,基于遥感的湿地分类工作越来越多。
HSI分类是针对HSI的一项基础研究,传统的分类模型在处理小样本问题中表现良好,但是当训练集增大时并不能挖掘出图像的深层信息而出现性能瓶颈,采用深层结构的模型能够充分利用影像的空间光谱信息。目前,图像分类中主流的技术是深度神经网络,如堆叠自编码器(stacked autoencoder,SAE)、卷积神经网络(convolutional neural networks,CNN)、循环神经网络(recurrent neural networks,RNN)等。SAE需要数据被处理成一维数据,分层提取图像的深层特征,忽视了HSI的空间信息,影响分类精度。在基于CNN的高光谱分类方法中,一维卷积神经网络(one dimensional convolution neural network,1DCNN)是一种单分支光谱分类方法,它只考虑光谱信息而忽略空间信息; 上下文深度卷积神经网络(contextual deep convolution neural network,CDCNN)方法利用多尺度卷积滤波器实现了光谱和空间信息的联合利用,并利用残差连接的方法引入了更高更深的网络; 光谱空间残差网络(spectral-spatial residual network,SSRN)利用残差连接和三维卷积核构建了深度残差网络模型,能够利用深层次的空谱联合特征,相较于1DCNN和CDCNN方法的分类精度有所提高; 混合光谱网络(hybrid spectral network,HybridSN)利用三维卷积和二维卷积联合提取光谱和空间特征。RNN无法并行训练模型,限制了实际应用中的分类性能。
随着分类方法的深入发展,模型成为当前主要的神经网络模型之一,由于使用了多头自注意力机制,通过位置编码来捕获全局序列信息,可以更有效地处理和分析序列数据[13]。Hong等[14]将Transformer模型应用到HSI分类,采用分组光谱嵌入和层与层之间自适应融合的方式,对光谱波段进行分组,学习分组相邻波段的高级特征,在公开数据集中实现较好的分类结果; Zhong等[15]设计了一个光谱空间变压器网络(spectral-spatial transformer network,SSTN),用注意力模块取代了卷积操作。许多湿地分类研究也采用了Transformer模型,例如,Liu等[16]提出利用2个Transformer深度网络融合局部和全局特征的HSI分类方法,用于绘制ZY1-02D卫星图像的沿海湿地; Gao等设计了空间光谱视觉自注意力模型(spatial-spectral Vision Transformer,SSViT)从融合图像中提取序列关系,对土地植被覆盖和生物数据进行一致分析,揭示了底栖生物的分布规律。研究表明,采用Transformer模型有助于湿地HSI分类。但是,在前人使用Transformer模型进行HSI分类中,判别特征提取不足、捕获长范围依赖效率低以及在网络学习过程中层间信息交换损失的问题依然存在。
ViT是2020年Google团队提出的将Transformer应用在图像分类的模型,模型简单、效果好且可扩展性强,为视觉相关任务提供了新的见解、灵感和创造性空间,Dosovitskiy等实验表明使用迁移学习的ViT与最先进的卷积网络相比能够取得优异的结果,且训练所需的计算资源大量减少。本文将Non-local模块和跨层自适应融合机制(cross-layer adaptive fusion,CAF)应用到ViT模型,并引入标签平滑缓解过拟合问题,采用patch-wise的输入方式,在很大程度上保留网络学习中的频谱顺序信息,同时考虑空间上下文信息。旨在在训练样本有限的情况下,建立一个基于ViT的端到端训练网络模型,在保证湿地数据集分类精度的基础上减少网络的复杂性。
1 本文方法
本文改进的基于ViT的HSI分类网络,充分利用Non-local的判别特征提取能力和CAF模块的层间信息交换效率,进一步提高了HSI分类的性能。其网络框架图如图1所示,图1(a)为本文改进模型的总体框架概述,图1(b)为Transformer编码器的具体流程。首先,在光谱特征提取器中加入中范围的残差连接机制来自适应学习跨层特征融合,增强层与层之间的连接,减少网络学习过程中的信息损失,其次,为了充分利用HSI丰富的光谱空间信息,在Transformer Encoder块之后插入非局部模块扩大感受野,帮助模型关注重要特征。为了防止训练过拟合问题,同时将标签平滑机制集成到ViT框架中,并以patch-wise为输入方式,提高细微光谱差异的细节捕获能力,提高层间的信息传递性,最后经过分类器得到分类结果。
1.1 Non-local模块
Non-local模块主要是针对感受野,一般的卷积的感受野大小都是3×3或5×5,而使用Non-local可以让感受野变得很大,而非局限于一个局部邻域,利用其对低级和高级特征图进行处理,提取出更多的判别特征,有效地去除异常值,其结构与实现细节如图2所示。图中Θ,Φ,ɡ和h是通过1×1卷积实现的,H×W为空间样本大小,C为特征通道数。
Non-local通过计算任意2个位置之间的交互直接捕捉远程依赖,而不用局限于相邻点,其相当于构造了一个和特征图谱尺寸一样大的卷积核,从而可以维持更多信息。Non-local模块的非局部操作不管位置距离如何都可以模拟HSI的长距离依赖关系,即使是在有限层的浅层网络中。非局部操作将一个位置的响应作为输入特征映射中所有位置的特征的加权和,因此,每个位置的权重都被自动学习。
1.2 CAF模块
残差连接机制是在ResNet网络中提出的思想,它可以增强层间的信息交换,减少网络学习过程中的信息损失,已被证明是深度网络中的一种有效的策略。例如,He等探索了各种残差结构的效果,解决了深度CNN难以训练并且过深的层数导致性能退化的问题。由于Transformer中的残差连接只在单个块中使用,这样削弱了不同层之间的连接。短残差连接机制的信息“记忆”能力仍然有限,而长残差连接机制由于高水平和低水平特征之间的较大差距,往往会产生特征融合不足。为此,本文在光谱特征提取器中加入中范围的残差连接机制来自适应学习跨层特征融合,CAF模块的数量是提高本文网络分类性能的重要因素。模块介绍见图3,可以看到,CAF只跳过一个编码器,原因有2个,一方面,如果使用相对较长的残差连接甚至更多的编码器,会导致特征融合不足和潜在的信息丢失,另一方面对于训练样本较少的数据集,一个4层或5层的浅层网络已经适合HSI图像分类任务,因此,本文模型中设计CAF模块只跳过一个编码器。
1.3 标签平滑法
在实际应用中只有有限的训练样本是一个常见的问题,而这会导致模型面临“过拟合”的问题,测试数据的分类精度较低。为了解决本文模型中的过拟合问题,引入了标签平滑法。
2 研究区概况与数据集
2.1 研究区概况
黄河三角洲湿地是渤海重要的生态功能区域,位于中国山东省东北部的渤海沿岸(N36°55'~38°16',E117°31'~119°18'),如图4所示,是中国最完整、最广泛、最全面的湿地生态系统,河流、芦苇、盐渍湿地等天然湿地约占68.4%,其余为池塘、水库等人工湿地。植被覆盖率高达53.7%,是我国沿海地区面积最大的海滩自然植被区域,鸟类资源丰富,珍稀濒危鸟类众多,在生物多样性保护和生态修复中起着重要的作用。
2.2 数据集描述
本文使用的数据是Xie等建立的湿地土地覆盖类型数据库,即黄河三角洲HSI数据集,数据集由DJI M600无人机平台搭载的12 mm焦距Nano-hyperspec成像传感器采集,包含NC12,NC16和NC13 3个数据集,为了验证本文方法的有效性,选取NC16和NC13数据集进行试验。
2.2.1 NC16数据集
NC16数据集于2020年9月23日晴朗无云的天气情况下获取。采集时间为13: 50—14: 20,无人机的飞行高度是400 m,空间分辨率约0.266 m,图像尺寸为1 060像素×976像素,总共涵盖了270个波段。该数据集地物类型共有16类,包括水域、柽柳、旱田等。
2.2.2 NC13数据集
NC13数据集于2020年9月24日14: 47—15: 20时间段内采集,天气状况阴。无人机的飞行高度为300 m,空间分辨率约为0.182 m,数据集中的图像尺寸为1 098像素×808像素,共有270个波段,包含13种土地覆盖类型,大部分为混生地物。
3 实验结果与讨论
本章节介绍了实现细节和比较的先进方法,以定量和定性地评估所提出的模型在湿地HSI分类中的性能。
3.1 分类方法对比分析
在本节中,使用NC16和NC13数据集来验证所改进模型的有效性。所有实验均是在配有NVIDIA GeForce RTX 3060,128 GB RAM的Windows 10系统上运行的,深度学习采用Pytorch框架。对于每个数据集,选择少量的样本作为训练集,其余的作为测试集,其中NC16和NC13数据集训练样本数分别设为2.89%和1.66%,我们采用了Adam优化器,其批次大小为64。学习速率初始化为5E-4,并设置随着epochs的增大而逐渐减小学习率从而达到更好的训练效果。每个实验独立重复进行,调整超参数并选用最优参数。此外,最大训练epochs的数量被设置为400。
采用查全率评价各类别的精度,采用总体精度(overall accuracy,OA)、平均精度(average accuracy,AA)和Kappa系数来定量评价实验中不同分类方法的性能。查全率表示预测对的在实际样本中的比值; OA表示所有正确分类的样本在总标记样本中的比例; AA被定义为每个类别被正确分类的百分比的平均值; Kappa系数是一个用于一致性检验的指标。为了验证该方法在黄河三角洲湿地数据集上的优越性,选取几种经典的分类方法进行对比分析,对比方法包括SVM,1DCNN,CDCNN,SSRN,HybridSN和ViT。
NC16数据集各方法分类精度和分类结果图分别如表1和图5所示(表中同一类别精度最高的方法加粗表示)。
表1 NC16数据集的不同方法的分类结果
由分类结果可以看出,NC16数据集中铁杆、柽柳、标准反射板类别在不同网络模型中分类结果较差,SVM,1DCNN,CDCNN和 HybridSN方法不能识别铁杆类,不能很好地在分类图中对柽柳进行分类,因为它们的样本量相对较少,此外,随机抽样是基于百分比抽样,导致这些类别的训练数量少,样本不均衡。1DCNN获得了有噪声的分类图,原因是不能有效提取空间信息。通过引入注意力机制,SSRN和ViT方法比 SVM,1DCNN 和 CDCNN方法获得了更好的分类性能,OA值分别达到94.99%和94.62%。相比之下,由于本文方法充分利用了多头注意机制捕获长距离依赖、有效增强层间信息交换,所以在NC16数据集上可以在所有方法中获得更好的性能,分类结果稳定,杂碎斑点较少,相比于ViT,改进方法的OA,AA和Kappa分别提高了2.18,3.90和1.62百分点。
NC13数据集各方法分类精度和分类结果图分别如表2和图6所示(表中同一类别精度最高的方法加粗表示)。
表2 NC13数据集的不同方法的分类结果
在NC13数据集上存在许多混生地物,这使得分类任务非常困难。SVM,1DCNN 和 CDCNN在NC13数据集上表现欠佳,这是由于它们的特征提取器无法提取出复杂场景下的地物特征。HybridSN结合2DCNN和3DCNN提高分类结果,然而,在一些对象中也存在一些错误分类的像素,对柽柳和标准反射板的分类效果差,原因是训练样本少。基于注意力机制的方法,SSRN引入残差连接来提高分类性能,ViT和本文提出的方法获得了更好的分类精度,这也表明了注意机制确实有助于提高分类精度。在所有基于注意力的方法中,本文模型通过整合光谱和空间信息,提高层间信息传递性获得了最高的分类精度,OA,AA和Kappa分别达到了73.84%,74.87%和68.94%。
3.2 消融实验
为验证Non-local和自适应跨层连接模块在黄河三角洲湿地高光谱地物分类任务上的有效性,本文基于ViT模型进行了消融实验,消融实验结果如表3所示。具体来说,没有Non-local和CAF模块的ViT的分类精度最低,通过将Non-local或CAF插入ViT,均可得到精度更高的分类结果。更好的是,Non-local和CAF的联合开发可以进一步显著提高性能。这可以解释为,在添加CAF后,光谱信息能够更有效、更容易地学习,Non-local可以抑制不相关信息,提取更多的判别特征。结果表明,相较于基础模型,使用Non-local和CAF模块后的ViT模型高光谱地物分类的结果有显著提升。
表3 消融实验的结果
4 结论
为充分挖掘高光谱图像中所包含的空间光谱信息,本文改进了一种可以提高黄河三角洲湿地HSI分类性能的ViT方法,该方法将Non-local模块与ViT结构有机地集成,采用跨层残差连接机制减少网络学习过程中的信息损失,有助于层间信息传递,最小限度地减少空间和光谱特征的损失,也避免了局部信息的丢失,这种操作使得对土地覆盖类型特征的分析更加充分,全面利用不同层之间的特征信息,更好地进行地物分类。
利用NC16和NC13数据集进行实验,并与SVM,1DCNN,CDCNN,SSRN,HybridSN和ViT等方法进行对比分析。实验表明,与其他分类方法相比,本文提出的方法能有效提高分类性能,在精度上达到了最高,证明了该方法的实用性。未来将基于ViT结构研究不同的湿地高光谱场景数据之间的泛化能力,从而进一步提高分类精度。
(原文有删减)
【作者简介】 李 薇(2000-),女,硕士研究生,主要研究方向为深度学习与遥感应用。
Email:
【基金资助】自主创新项目-战略专项项目“退化生态系统土壤典型指标在线监测技术”(24720221004A-3);科技揭榜专项项目“基于多源数据的胶州湾湿地生态演变分析”(2021-34);国家自然科学基金项目“黄海海水透明度时空演化规律及其影响机理研究”(42106172)
【引文文本】李薇, 樊彦国, 周培希. 改进Transformer的高光谱图像地物分类方法——以黄河三角洲为例[J]. 自然资源遥感, 2024, 36(3): 137-145.