RS DL
论文介绍
题目:SoftFormer: SAR-optical fusion transformer for urban land use and land cover classification
期刊:ISPRS Journal of Photogrammetry and Remote Sensing
论文:https://www.sciencedirect.com/science/article/pii/S0924271624003502
代码:https://github.com/rl1024/SoftFormer
年份:2024
创新点
SoftFormer网络:该网络结合CNN和Transformer的优点,通过多层次融合(特征层和决策层)来处理多模态数据。SoftFormer提出了一种“内部自注意力”(ISA)机制,用于提取局部特征,同时保留Transformer的全局语义建模能力。 联合关键学习模块(JKL):在特征层融合中,该模块通过个体注意力减少特征冗余,并在统一的特征空间中生成互补特征,增强了多模态特征的整合。 多层次融合方法:该方法在特征和决策层次上进行融合,通过结合光学和SAR数据的特性,实现了更高的分类精度和抗干扰能力。
数据
光学数据:杭州和武汉使用Sentinel-2影像,分辨率为10米。香港的葵涌使用了Worldview-3影像,包含8个多光谱波段,分辨率更高。 SAR数据:采用ALOS-2的SAR影像,分辨率为5米,为杭州、武汉和香港提供稳定的空间信息。SAR影像对天气不敏感,可以在多云或降雨天气下获取数据,补充了光学影像的不足。
杭州和武汉:划分为四类地物,包括植被、土壤、城市不透水面和水体。 香港的元朗和葵涌:根据香港规划署的标准,包含十几类更为细化的土地利用类型,如工业、港口、开放空间、住宅、道路等。元朗数据特意包含了云覆盖区域,用于测试在云干扰条件下多模态数据融合的效果。
结果与精度
总体结构
SoftFormer采用了Transformer架构,并结合了卷积神经网络(CNN)的局部特征提取优势。它通过在特征层和决策层进行多层次融合来实现光学和SAR数据的综合利用,从而提高分类效果。 网络主要分为三个部分:编码器(用于特征提取)、特征融合模块(用于多模态特征融合)和决策融合模块(用于分类结果融合)。
ISA用于模仿CNN的局部感受野,从图像中提取局部细节。ISA在Transformer的浅层中引入,使模型在早期能够聚焦于局部信息,这对于SAR影像中的纹理和边界提取尤为有效。 传统Transformer会在所有像素之间计算自注意力,而ISA机制仅计算局部区域内的注意力关系,减轻了计算负担,保留了局部特征,同时提升了对于像素间差异的适应性。
多模态特征融合
SoftFormer在特征融合方面采用了联合关键学习模块(JKL),通过这个模块使得光学和SAR特征在统一的语义空间中进行融合。JKL模块的设计可以减少特征冗余,同时在不同模态之间形成互补性特征。 在特征融合中,传统的简单加和或拼接方法常常引入特征冗余,而SoftFormer的JKL模块则让每种模态的特征在共享语义空间中单独学习,以更好地保留每种数据的独特性。
决策层融合
SoftFormer在最后进行决策层的融合,即融合不同模态特征经过单独分类器后的结果,形成最终分类。这种多层次融合可以在特征级别上加强分类结果的精度,同时在决策层融合时提升模型的抗干扰能力。 为了避免单一模态分类器的误差影响最终决策,SoftFormer通过一个线性组合的方式,将来自光学、SAR和融合特征的分类结果综合,形成一个更稳定、抗干扰的最终分类结果。
结果与精度
实验结果表明,SoftFormer方法在分类精度上表现优异,尤其是在包含云覆盖的复杂场景下,相较传统方法表现更加稳定。这种多模态、多层次的融合策略,有效提升了在复杂城市地表的分类效果。
不同数据集上的精度
可视化对比
杭州(上)和武汉(下)不同方法的可视化分类结果
葵青(上)和元朗(下)不同方法的可视化分类结果
更多分析可见原文
公众号欢迎优秀作者投稿!可加入优秀论文作者群:欢迎加入AI遥感优秀论文作者群!
问题及讨论可直接在文章下方留言
欢迎关注
分享遥感与深度学习领域的技术、论文、书籍、新鲜事。
欢迎加入遥感与深度学习交流群(点此加入)。