TPAMI | MetaEarth: 全球尺度遥感图像生成, 多分辨率、无边界、任意大小!

文摘   2024-12-31 08:03   荷兰  

 RS   DL 

论文介绍

题目:MetaEarth: A Generative Foundation Model for Global-scale Remote Sensing Image Generation

期刊:IEEE Transactions on Pattern Analysis and Machine Intelligence

论文:https://ieeexplore.ieee.org/document/10768939

主页:https://jiupinjia.github.io/metaearth/

年份:2024
单位:北京航空航天大学

注:本篇由论文原作者审阅

创新点

  • 全球级遥感图像生成:
    • MetaEarth 是第一个用于全球尺度的生成基础模型,可生成具有多分辨率、无边界、任意大小的遥感图像。
    • 提出了分辨率引导的自级联生成框架,与现有的单阶段生成方法不同,逐步生成多分辨率图像,显著提升了生成的灵活性和精度。
  • 去噪扩散模型的新设计:
    • 设计了新的噪声采样策略以实现无缝拼接,从而生成连续且视觉一致的图像。
    • 利用条件嵌入(如分辨率和时间步长)提升了模型对特定分辨率下地理特征的感知能力。
  • 数据引擎功能:除了生成图像,MetaEarth 还可以用作数据引擎,为下游任务(如分类、目标检测)提供高质量的训练数据。

数据

  • 数据来源:数据来自 Google Earth,覆盖全球范围,包括城市、森林、沙漠、海洋、冰川等多种地理环境,并标注了经纬度和分辨率信息。
  • 数据分辨率:数据包含三种分辨率:64 m/pixel、16 m/pixel 和 4 m/pixel,满足多分辨率图像生成需求。
  • 数据规模:训练集包含约 310 万张图像,每种分辨率约 100 万张;测试集和验证集各约 7 万张。
  • 数据清洗:去除了高重复性海洋图像、噪声图像和云层覆盖严重的图像,确保数据多样性和代表性。

方法


分辨率引导的自级联生成框架

  • 框架目标:提出一种逐步生成图像的多分辨率方法,从低分辨率逐步生成高分辨率图像。
  • 生成流程:
    • 首先生成低分辨率图像,并将其作为条件输入,为下一阶段的生成提供语义和空间信息。

    • 每个阶段生成的高分辨率图像不仅依赖于前一阶段的结果,还结合了嵌入的分辨率信息。

    • 通过逐层级联,可以生成具有多分辨率和多样性的全球遥感图像。

噪声采样策略和无边界图像生成

  • 滑动窗口生成:采用滑动窗口技术,将输入图像分割为有重叠的图像块,避免拼接区域的视觉不连续。

  • 噪声一致性约束:在扩散模型中为每个图像块指定一致的初始噪声,确保拼接区域在像素级上连续。

条件嵌入

  • 分辨率嵌入:通过频率编码将分辨率转换为嵌入向量,引导模型感知不同尺度下的地理特征。

  • 时间步长嵌入:将扩散过程中的时间步长嵌入到生成网络中,进一步增强对条件的敏感性。

  • 条件融合:将低分辨率图像的特征与分辨率和时间步长嵌入一起输入到模型中,实现条件约束生成。

高阶降质模拟

  • 模拟实际中不同传感器或空间分辨率的图像分布差异,解决训练和推断阶段输入分布不一致的问题。

  • 使用模糊、缩放、添加噪声和 JPEG 压缩等方式,将高分辨率图像降质为低分辨率图像,构建训练对。

模型设计与优化

  • 生成网络结构:
    设计了一个 U-Net 风格的噪声预测网络,网络参数约为 6 亿。通过分辨率引导调整特征图的尺度和偏移量。

  • 训练细节:Perception Prioritized (P2) 权重策略,重点恢复感知丰富的内容,提高图像质量。
  • 推断加速:采用 DDIM(去噪扩散隐式模型)进行推断,加速采样过程。

无边界场景生成

    • 使用滑动窗口和噪声约束策略生成大规模遥感图像,实现任意大小图像的连续生成。

    • 滑动窗口区域的重叠部分作为语义过渡区域,有效解决拼接不连续问题。

实验和评估

定量评估

  • FID 分数:使用 FID 评估生成图像的质量和多样性,MetaEarth 在不同地理区域和分辨率下均取得较低的 FID 分数,生成质量优于没有分辨率引导的模型。
  • 无边界生成:通过滑动窗口和噪声约束策略,拼接区域的梯度平滑度显著提高,确保视觉连续性和一致性。

定性分析

  • 多分辨率生成:模型逐步生成从低到高分辨率的图像,高分辨率图像细节更丰富,区域特征更明显。
  • 大规模图像生成:无边界生成的图像视觉一致性好,拼接痕迹难以察觉。
  • 对比实验:相比 Stable Diffusion 和 DALLE,MetaEarth 在遥感场景的生成效果更符合地理规律,分辨率控制更精准。

生成结果展示

更多图表分析等可见原文


公众号AI回复功能已启用,如需加群、投稿或合作,请微信联系小助手(备注:咨询/投稿/合作/加群,加群需姓名/昵称、单位和研究方向)。

公众号欢迎优秀作者投稿!可加入优秀论文作者群:欢迎加入AI遥感优秀论文作者群!


问题及讨论可直接在文章下方留言
往期推荐

NeurIPS24 | MMM-RS: 多模态, 多分辨率,多场景的遥感数据集和基准, 可用于跨模态数据生成

2024-11-05

TPAMI | Changen2, 用于生成多时相遥感图像及变化检测数据的基础模型

2024-10-18

CVPRW24 | GeoSynth: 卫星遥感图像生成器, 支持多种控制方式, 方便下载使用

2024-10-04

论文赏读 | CVPR24 | CityDreamer: 生成无边界3D城市, 结合OSM和谷歌地球数据

2024-05-31


  欢迎关注  


分享遥感与深度学习领域的技术、论文、书籍、新鲜事。



欢迎加入遥感与深度学习交流群(点此加入)


遥感与深度学习
聚焦遥感与深度学习,分享相关技术、论文、书籍、资讯,团队来自国内外著名期刊作者及审稿人
 最新文章