论文链接:https://doi.org/10.1016/j.isprsjprs.2024.01.004 代码链接:https://github.com/dyzy41/ChangeCLIP 发表单位:武汉大学遥感信息工程学院 发表时间:2024年2月
摘要
引言
提出的ChangeCLIP是第一个将多模态视觉-语言方案应用于RSCD任务的工作。 我们提出了一个新颖的差异特征补偿(DFC)模块,用于捕获双时相图像特征中的稳健语义变化。 我们设计了一个基于Transformer的多模态解码器,以加强图像-文本特征对之间的语义关系。 所提出的ChangeCLIP在LEVIR-CD、LEVIR-CD+、CDD、SYSU-CD和WHUCD五个变化检测数据集上实现了SOTA。
方法
在第一个部分中,我们利用CLIP模型的无监督分类能力生成遥感图像的文本提示,从而构建变化检测任务的多模态输入数据。 在第二个部分中,我们使用CLIP模型构建图像和文本编码器,作为多模态RSCD任务的基础双时相特征提取器。此外,我们将图像特征与文本特征集成在一起,有效地补偿了传统单模态变化检测方法中固有的限制。 在第三部分中,为了增强模型捕获双时相变化的能力,我们引入了差异特征补偿(DFC)模块。这个模块利用各种计算方法来表示差异特征,并采用特征图的加权融合,从而优化对不同双时相图像差异的适应性。
基于Concat方法的双时相特征融合; 基于像素素特征序列的数值差异的减法差异; 基于余弦相似性的高维空间中像素特征序列的语义差异, 然后利用通道注意力机制来处理上述三种差异特征表示
最后,将从编码阶段获得的视觉-语言特征与解码阶段的特征结合起来输入到我们设计的视觉-语言驱动解码器中得到变化检测结果。
实验
消融实验
DFC与传统Concat对比
结论
我们提出的差异特征补偿(Differential Features Compensation, DFC)模块融合了常用的差异特征计算方法,以优化变化检测中差异特征融合的方式。 此外,我们提出了一种名为视觉-语言驱动解码器(Vision-Language-Driven Decoder)的多模态变化检测解码方法。它在解码阶段补充了语义信息。文本和视觉特征在解码阶段的融合使ChangeCLIP能够生成更准确、全面的表征,从而提升变化检测任务的性能。