RS DL
论文介绍
https://huggingface.co/datasets/EVER-Z/Changen2-S1-15k https://huggingface.co/datasets/EVER-Z/Changen2-S9-27k
年份:2024
作者单位:斯坦福大学、河南省科学院、武汉大学
注:本篇经由论文原作者审阅
创新点
生成式变化基础模型:提出了一个名为Changen2的生成式变化基础模型,采用生成概率变化模型(GPCM)框架,能够生成多时相遥感图像和相应的语义和变化标签。与现有的“基础模型”不同,Changen2通过生成变化数据来训练特定任务的基础模型,特别是在变化检测方面具有内在的零样本检测能力和强大的迁移能力。 可扩展的分辨率:Changen2采用分辨率可扩展的扩散Transformer架构,可以在不同的空间和时间尺度上生成高分辨率图像。这一特性使模型在跨尺度数据生成时表现出更好的稳定性和精度。 自监督学习与无监督数据生成:Changen2通过使用自监督学习,能够从未标记的单时相图像中学习。这减少了对大量手动标注数据的需求,并能够利用大规模的地球观测数据。 多样化的变化事件模拟:模型能模拟多种类型的变化事件,如对象的创建、移除以及属性编辑,并能根据需求生成多时相的变化数据。这大大增强了模型的灵活性和通用性。
背景
旨在解决遥感变化检测任务中的两个关键问题:
数据获取与标注的困难:多时相遥感图像的收集、预处理和标注成本高昂,特别是在大规模数据集下。传统方法依赖于手动标注的变化检测数据集,耗时且知识密集。Changen2通过生成合成变化数据,减少了对大规模标注数据的依赖,从而降低了构建变化检测模型所需的成本。 提高模型的泛化能力和零样本检测能力:遥感变化检测模型通常需要在特定任务上进行监督学习,而这种方法的泛化能力有限。Changen2通过生成多样化的合成数据,训练具有零样本变化检测能力的基础模型,使其能够在未见过的数据集和任务上实现良好的性能。这对于应对真实世界中的复杂变化场景(如建筑物变化、土地覆盖变化和灾害评估)尤其重要。
数据
用途:用于生成建筑物变化检测的合成数据集(Changen2-S1-15k)。 数据特点:全球分布的卫星图像,包含建筑物的预灾建筑物轮廓标注。该数据集主要用于训练建筑物变化检测模型。
用途:用于生成语义变化检测数据集(Changen2-S9-27k)。 数据特点:全球分布的卫星图像,包含土地覆盖类型的标注。Changen2通过该数据集生成多达38种变化类型的数据,用于训练和评估土地覆盖变化检测任务。
用途:用于生成无类别限制的变化检测数据集(Changen2-S0-1.2M)。 数据特点:大规模卫星图像数据集,未标注具体变化类型。Changen2通过自监督学习从这些未标注的数据中生成变化事件并进行训练,形成无类别限制的变化检测数据。
Changen2-S1-15k:包含1.5万对图像的建筑物变化检测数据集,具有两类变化类型。 Changen2-S9-27k:包含2.7万对图像的语义变化检测数据集,最多包含38种变化类型。 Changen2-S0-1.2M:无类别限制的变化检测数据集,包含多达120万对图像。
方法
文章提出了一种新型的生成式变化基础模型——Changen2,主要通过生成概率变化模型(GPCM)框架来生成多时相遥感图像及其相应的语义和变化标签。
1. 生成概率变化模型 (GPCM)
GPCM 将复杂的时序变化过程分解为两个更可控的子问题:
变化事件模拟:描述变化事件在语义层面的发生过程,例如对象的创建、移除或属性编辑。
语义变化生成:在图像层面生成与变化事件对应的图像。
2. 变化事件模拟
对象创建:在语义掩码中创建新的对象,模拟新建筑物或其他地物的出现。
对象移除:从语义掩码中移除已有对象,模拟建筑物或其他地物的消失。
属性编辑:修改对象的属性而不改变其位置,例如将某块区域从裸地变为水体。
为了实现这种变化模拟,文章设计了一种语义过渡矩阵,通过为每类对象定义过渡概率来生成变化事件。
3. 语义变化生成
语义变化生成的任务是根据变化事件生成后续时相的图像。Changen2基于扩散模型(Diffusion Models)来完成此任务。扩散模型的主要特点是:
它可以逐步生成新的图像,从初始图像的语义信息出发,逐步应用变化事件,生成后续时相的图像。
扩散过程通过噪声逐步减少,最终生成清晰的图像。
4. 分辨率可扩展的扩散Transformer(RS-DiT)
Changen2 引入了一个分辨率可扩展的扩散Transformer,能够从低分辨率图像生成高分辨率图像,解决了传统Transformer架构在生成高分辨率图像时的计算复杂性问题。主要改进包括:
移除绝对位置嵌入:绝对位置嵌入限制了输入图像的分辨率,通过移除它,模型能够适应不同分辨率的图像。
局部窗口注意力机制:替代全局自注意力机制,大大降低了计算成本,使得模型在生成高分辨率图像时更加高效。
5. 自监督学习
为了充分利用未标记的数据,Changen2设计了自监督学习方法。该方法通过从未标记的单时相图像中提取对象轮廓,并模拟变化事件生成后续时相的图像。其步骤如下:
提取对象轮廓:利用现有的分割模型(如SAM)从未标记图像中提取对象轮廓,并将其作为条件输入。
模拟变化事件:通过移除部分对象,生成变化后的对象轮廓,进而生成后续时相的图像。
自监督训练:利用生成的前后时相图像对模型进行训练,避免了手动标注的依赖。
6. 时空可扩展性
Changen2具备良好的时空可扩展性,能够生成从低分辨率到高分辨率、从短时序到长时序的图像。它不仅可以生成建筑物变化数据,还可以生成土地覆盖变化等多种变化类型的数据。
7. 引导比率 (Guidance Ratio)
在生成多时相图像时,Changen2还可以调整“引导比率”(λ),用于控制生成图像的时间一致性与多样性:
较大的λ值:生成与前时相图像更加一致的图像,适用于模拟高保真度的场景。
较小的λ值:生成更加多样的后时相图像,适用于需要更丰富的正负样本的场景,如用于训练模型时。
结果和精度
精度对比
可视化
更多结果讨论图表可查看原文
因配置了AI回复功能,除关键词自动回复外,号内信息主要由AI大模型回复。如需资源、投稿、合作等,请直接联系小助手微信(添加请备注:咨询、投稿、合作、加群,加群需备注姓名/昵称,单位和研究方向)。
公众号欢迎优秀作者投稿!可加入优秀论文作者群:欢迎加入AI遥感优秀论文作者群!
问题及讨论可直接在文章下方留言
欢迎关注
分享遥感与深度学习领域的技术、论文、书籍、新鲜事。
欢迎加入遥感与深度学习交流群(点此加入)。