TGRS | CrossMatch: 提升半监督遥感语义分割性能, 跨视图学习框架

文摘   2024-12-03 08:32   荷兰  

 RS   DL 

论文介绍

题目:CrossMatch: Cross-View Matching for Semi-supervised Remote Sensing Image Segmentation

期刊:IEEE Transactions on Geoscience and Remote Sensing

论文:https://ieeexplore.ieee.org/abstract/document/10769516

年份:2024
单位:中国地质大学(武汉)等

创新点

  • 跨视图弱到强一致性方案:引入两个独立的子网络,利用弱增强的伪标签指导另一个视图的强增强数据,跨视图交换信息。
  • 跨视图对比损失:通过对比学习强化视图间特征的差异,防止特征冗余,提高模型学习互补信息的能力。
  • 视图差异约束:为标注数据中跨视图预测结果不一致的区域赋予更高权重,引导模型关注难以分类的区域。
  • 无阈值伪标签生成:不需要预定义的阈值,增强了方法的实用性。

背景

问题背景
  • 遥感影像分割需要对每个像素进行分类,但标注数据获取成本高,且类别分布不均。
  • 当前的半监督分割方法(如弱到强一致性、伪标签学习)在应对遥感影像的大类内差异和小类别不平衡时效果有限。

创新方法

  • 提出了跨视图学习框架:将影像数据输入两个独立的网络(视图),分别提取特征,并通过伪标签监督和对比学习在两视图间交换信息。
  • 设计了弱到强一致性、跨视图对比损失和视图差异约束,解决伪标签质量不高、视图信息冗余和难分区域监督不足的问题。

数据

数据集

  • WHDLD:

    • 来源:GaoFen-1 和 ZiYuan-3 卫星。

    • 分辨率:2 m/pixel。

    • 类别:建筑物、道路、人行道、植被、裸土、水体,共6类。

    • 图像尺寸:256×256像素。

    • Potsdam:

      • 来源:UltraCamXp大幅面航空摄像机。

      • 分辨率:0.05 m/pixel。

      • 类别:不透水面、建筑物、低矮植被、树木、车辆、杂物,共6类。

      • 图像尺寸:6000×6000像素(裁剪为512×512像素用于实验)。

      • LoveDA:

        • 覆盖城市和农村场景。

        • 分辨率:0.3 m/pixel。

        • 类别:背景、建筑物、道路、水体、贫瘠地、森林、农业用地,共7类。

        • 图像尺寸:1024×1024像素。


        数据分割比例

        为验证方法的半监督学习性能,实验采用了不同标注数据的分割比例:
        • WHDLD:1/24、1/16、1/8、1/4。

        • Potsdam:1/32、1/16、1/8、1/4。

        • LoveDA:1/40、1/16、1/8、1/4。

        这些分割比例表示标注数据占全部数据的比重(如1/16表示仅使用16分之一的标注数据)。

        方法

        总体框架

        CrossMatch框架采用两个独立的子网络(称为视图),每个视图从输入数据中提取特定的特征,同时鼓励两视图的预测结果一致。它通过跨视图的伪标签交换、对比学习和差异约束,充分利用标注数据和未标注数据的价值,以应对遥感影像中类别不平衡、类内差异大等问题。

        跨视图弱到强一致性

        弱到强一致性通过弱增强和强增强样本的对比来生成可靠的伪标签,指导模型的学习:
        • 对于未标注样本,先生成弱增强版本(如随机旋转、翻转)和强增强版本(如CutMix增强、颜色抖动)。

        • 两个子网络分别对增强样本进行预测,并通过跨视图的伪标签交换实现信息互补。具体而言,一个视图的弱增强样本预测结果(伪标签)用于监督另一个视图的强增强样本训练。

        • 这种设计的关键在于,弱增强样本通常生成较为可靠的伪标签,而强增强样本能扩展数据的多样性,增强模型的泛化能力。通过视图间的协同训练,可以提高伪标签的质量,减少错误监督对模型性能的影响。

        跨视图对比学习

        为了避免两视图学习到相同的特征,CrossMatch通过跨视图对比学习引导两个子网络提取互补特征:
        • 两视图对输入数据的特征提取被设计为相互独立。通过对比学习框架,确保两视图的特征具有显著差异,避免信息冗余。

        • 每个视图的特征与另一个视图的特征被视为“负样本”,其目标是最大化两视图特征的互补性。这种特征差异化设计保证了伪标签在跨视图监督时能够提供额外有价值的信息。

        • 通过这种方式,模型能够更全面地学习复杂的遥感数据结构,尤其是在类别间差异显著的场景中表现更佳。

        视图差异约束

        标注数据在半监督学习中至关重要,特别是在处理遥感影像的复杂边界和难分区域时。CrossMatch引入了视图差异约束,通过关注跨视图预测结果不一致的区域提升模型性能:
        • 在标注数据中,计算两视图预测结果的差异区域,即标注图像中预测不一致的像素。

        • 为这些差异区域赋予更高的学习权重,使模型在训练中更加关注这些难以分类的区域,从而提升边界和细节分割的准确性。

        • 这一设计不仅优化了标注数据的利用效率,还间接地对未标注数据的伪标签质量提出更高要求,进一步增强了整体性能。

        无阈值伪标签生成

        传统的半监督方法通常需要设定阈值以筛选高置信度的伪标签,而CrossMatch在伪标签生成过程中不需要预设阈值:
        • 伪标签生成完全依赖于模型自身的预测结果,通过跨视图的伪标签交换实现自适应监督。

        • 这一改进避免了因阈值设定不当导致的伪标签丢失问题,同时增强了方法在多种数据分布场景下的适应能力。

        联合优化策略

        CrossMatch通过联合优化多个损失函数,确保模型能够有效利用标注数据和未标注数据:
        • 弱到强一致性损失:促进跨视图伪标签的交换与监督,增强未标注数据的利用效率。

        • 跨视图对比损失:确保视图间特征的多样性,避免学习到冗余信息。

        • 视图差异损失:重点关注标注数据中的难分区域,提升模型对边界和细节的分割能力。

        实验与分析

        精度对比

        可视化对比

        伪标签质量对比

        更多图表分析可见原文


        因配置了AI回复功能,除关键词自动回复外,号内信息主要由AI大模型回复。如需资源、投稿、合作等,请直接联系小助手微信(添加请备注:咨询投稿合作加群,加群需备注姓名/昵称,单位和研究方向)。

        公众号欢迎优秀作者投稿!可加入优秀论文作者群:欢迎加入AI遥感优秀论文作者群!


        问题及讨论可直接在文章下方留言
        相关链接
        ISPRS | 多模态遥感语义分割,使用RGB和SAR数据用于土地覆盖分类的网络ASANet
        ISPRS | SoftFormer: 多层次融合处理多模态遥感数据, 土地利用和土地覆盖分类
        论文赏读 | ECCV24 | 两阶段高光谱遥感图像分类(语义分割) 模型DSTC
        论文赏读 | ISPRS | 语义分割2代: 将时间维度引入静态图像语义分割
        论文赏读 | CM-UNet: 结合CNN和Mamba的遥感语义分割网络

          欢迎关注  


        分享遥感与深度学习领域的技术、论文、书籍、新鲜事。



        欢迎加入遥感与深度学习交流群(点此加入)


        遥感与深度学习
        聚焦遥感与深度学习,分享相关技术、论文、书籍、资讯,团队来自国内外著名期刊作者及审稿人
         最新文章