ISPRS | ChangeCLIP:多模态变化检测框架

文摘   2024-12-28 06:59   湖北  

  • 论文链接:https://doi.org/10.1016/j.isprsjprs.2024.01.004
  • 代码链接:https://github.com/dyzy41/ChangeCLIP
  • 发表单位:武汉大学遥感信息工程学院
  • 发表时间:2024年2月

摘要

遥感变化检测(Remote Sensing Change Detection, RSCD)旨在通过双时相图像识别地表变化,对许多应用领域如环境保护和灾害监测具有重要意义。在过去的十年中,受人工智能浪潮的驱动,基于深度学习的许多变化检测方法应运而生并取得了重要突破。然而,这些方法更多地关注视觉表示学习,而忽略了多模态数据的潜力。
本研究引入了ChangeCLIP,利用图像-文本对的强大语义信息,专门为遥感变化检测(RSCD)定制。具体来说,我们重构了原始的CLIP以提取双时相特征,并提出了一个新颖的差异特征补偿模块,以捕捉它们之间的详细语义变化。此外,我们还提出了一个视觉-语言驱动的解码器,通过将图像-文本编码的结果与解码阶段的视觉特征相结合,从而增强了图像的语义性。
ChangeCLIP在5个知名的变化检测数据集的交并比(IoU)达到了SOTA,分别是LEVIR-CD(85.20%)、LEVIR-CD+(75.63%)、WHUCD(90.15%)、CDD(95.87%)和SYSU-CD(71.41%)。

引言

传统RSCD领域中常使用孪生神经网络、CNN、Transformer等架构,仅考虑了图像单模态数据,未考虑多模态数据中丰富的语义信息;为了提高RSCD性能,探索基础多模态RSCD框架是必要的。
多模态是近年的热门研究方向,主要思想是利用深度学习模型从图像-文本对中学习特征;这种模式改进了许多多模态任务,例如图像字幕(Chen等,2022b)、视觉问答(Song等,2022a)和跨模态检索(Tang等,2023年)。
在遥感领域,Rahhal等人采用Transformer作为编码器来处理图像和文本描述,以实现精确的遥感图像检索(Rahhal等,2022年)。Liu等人提出了LEVIR变化字幕数据集,并引入文本描述来代表遥感图像中的变化区域(Liu等,2022c)。2021年Radford等提出了CLIP,它通过图像-文本对进行对比学习,展现了强大的图像识别能力和显著的零样本适应性。
本文将CLIP引入到RSCD任务中,并提出了一个名为ChangeCLIP的多模态变化检测框架。如图中的文本框所示。
本文的主要贡献如下:
  • 提出的ChangeCLIP是第一个将多模态视觉-语言方案应用于RSCD任务的工作。
  • 我们提出了一个新颖的差异特征补偿(DFC)模块,用于捕获双时相图像特征中的稳健语义变化。
  • 我们设计了一个基于Transformer的多模态解码器,以加强图像-文本特征对之间的语义关系。
  • 所提出的ChangeCLIP在LEVIR-CD、LEVIR-CD+、CDD、SYSU-CD和WHUCD五个变化检测数据集上实现了SOTA。

方法

如图所示,ChangeClip分为四个主要部分:多模态数据、多模态编码器、差异特征补偿和视觉-语言驱动解码器。
  • 在第一个部分中,我们利用CLIP模型的无监督分类能力生成遥感图像的文本提示,从而构建变化检测任务的多模态输入数据。
  • 在第二个部分中,我们使用CLIP模型构建图像和文本编码器,作为多模态RSCD任务的基础双时相特征提取器。此外,我们将图像特征与文本特征集成在一起,有效地补偿了传统单模态变化检测方法中固有的限制。
  • 在第三部分中,为了增强模型捕获双时相变化的能力,我们引入了差异特征补偿(DFC)模块。这个模块利用各种计算方法来表示差异特征,并采用特征图的加权融合,从而优化对不同双时相图像差异的适应性。
    • 基于Concat方法的双时相特征融合;
    • 基于像素素特征序列的数值差异的减法差异;
    • 基于余弦相似性的高维空间中像素特征序列的语义差异,
    • 然后利用通道注意力机制来处理上述三种差异特征表示
  • 最后,将从编码阶段获得的视觉-语言特征与解码阶段的特征结合起来输入到我们设计的视觉-语言驱动解码器中得到变化检测结果。

实验

消融实验

DFC与传统Concat对比


结论

本文提出了一个名为ChangeCLIP的利用多模态视觉-语言信息进行遥感图像的变化检测的框架。通过整合遥感图像的文本语义信息来增强视觉模型感知遥感变化的能力。
  • 我们提出的差异特征补偿(Differential Features Compensation, DFC)模块融合了常用的差异特征计算方法,以优化变化检测中差异特征融合的方式。
  • 此外,我们提出了一种名为视觉-语言驱动解码器(Vision-Language-Driven Decoder)的多模态变化检测解码方法。它在解码阶段补充了语义信息。文本和视觉特征在解码阶段的融合使ChangeCLIP能够生成更准确、全面的表征,从而提升变化检测任务的性能。
为了评估ChangeCLIP的有效性,我们在5个基准变化检测数据集LEVIR-CD、LEVIR-CD+、WHUCD、CDD和SYSU-CD上进行了全面的实验。实验结果表明,我们提出的模型显著优于最先进的方法,在所有5个数据集上均取得了SOTA。
展望未来,我们相信多模态范式将在遥感图像处理中获得越来越多的关注。开发更有效的变化检测语言提示可以大幅提升ChangeCLIP的性能,而ChangeCLIP将成为多模态RSCD的基准。这些合适的提示可以更好地引导模型学习与变化相关的特征,从而进一步提高变化检测性能。



遥感地理视界
致力于分享遥感科学、地理科学、深度学习相关的最新前沿的顶刊文章。分享数据建模/软件操作/论文绘图等相关知识。文章和科研学术推广欢迎来稿,联系方式:eco_rs_gis@163.com或VX: ECO_RS_GIS 感谢您的关注!
 最新文章