TPAMI | MetaEarth: 全球尺度遥感图像生成, 多分辨率、无边界、任意大小！

文摘 2024-12-31 08:03 荷兰

RS DL

论文介绍

题目：MetaEarth: A Generative Foundation Model for Global-scale Remote Sensing Image Generation

期刊：IEEE Transactions on Pattern Analysis and Machine Intelligence

论文：https://ieeexplore.ieee.org/document/10768939

主页：https://jiupinjia.github.io/metaearth/

年份：2024

单位：北京航空航天大学

注：本篇由论文原作者审阅

创新点

全球级遥感图像生成：

MetaEarth 是第一个用于全球尺度的生成基础模型，可生成具有多分辨率、无边界、任意大小的遥感图像。
提出了分辨率引导的自级联生成框架，与现有的单阶段生成方法不同，逐步生成多分辨率图像，显著提升了生成的灵活性和精度。

去噪扩散模型的新设计：

设计了新的噪声采样策略以实现无缝拼接，从而生成连续且视觉一致的图像。
利用条件嵌入（如分辨率和时间步长）提升了模型对特定分辨率下地理特征的感知能力。

数据引擎功能：除了生成图像，MetaEarth 还可以用作数据引擎，为下游任务（如分类、目标检测）提供高质量的训练数据。

数据

数据来源：数据来自 Google Earth，覆盖全球范围，包括城市、森林、沙漠、海洋、冰川等多种地理环境，并标注了经纬度和分辨率信息。
数据分辨率：数据包含三种分辨率：64 m/pixel、16 m/pixel 和 4 m/pixel，满足多分辨率图像生成需求。
数据规模：训练集包含约 310 万张图像，每种分辨率约 100 万张；测试集和验证集各约 7 万张。
数据清洗：去除了高重复性海洋图像、噪声图像和云层覆盖严重的图像，确保数据多样性和代表性。

方法

分辨率引导的自级联生成框架

框架目标：提出一种逐步生成图像的多分辨率方法，从低分辨率逐步生成高分辨率图像。
生成流程：

首先生成低分辨率图像，并将其作为条件输入，为下一阶段的生成提供语义和空间信息。
每个阶段生成的高分辨率图像不仅依赖于前一阶段的结果，还结合了嵌入的分辨率信息。
通过逐层级联，可以生成具有多分辨率和多样性的全球遥感图像。

噪声采样策略和无边界图像生成

滑动窗口生成：采用滑动窗口技术，将输入图像分割为有重叠的图像块，避免拼接区域的视觉不连续。
噪声一致性约束：在扩散模型中为每个图像块指定一致的初始噪声，确保拼接区域在像素级上连续。

条件嵌入

分辨率嵌入：通过频率编码将分辨率转换为嵌入向量，引导模型感知不同尺度下的地理特征。
时间步长嵌入：将扩散过程中的时间步长嵌入到生成网络中，进一步增强对条件的敏感性。
条件融合：将低分辨率图像的特征与分辨率和时间步长嵌入一起输入到模型中，实现条件约束生成。

高阶降质模拟

模拟实际中不同传感器或空间分辨率的图像分布差异，解决训练和推断阶段输入分布不一致的问题。
使用模糊、缩放、添加噪声和 JPEG 压缩等方式，将高分辨率图像降质为低分辨率图像，构建训练对。

模型设计与优化

生成网络结构：
设计了一个 U-Net 风格的噪声预测网络，网络参数约为 6 亿。通过分辨率引导调整特征图的尺度和偏移量。
训练细节：Perception Prioritized (P2) 权重策略，重点恢复感知丰富的内容，提高图像质量。
推断加速：采用 DDIM（去噪扩散隐式模型）进行推断，加速采样过程。

无边界场景生成

使用滑动窗口和噪声约束策略生成大规模遥感图像，实现任意大小图像的连续生成。
滑动窗口区域的重叠部分作为语义过渡区域，有效解决拼接不连续问题。

实验和评估

定量评估

FID 分数：使用 FID 评估生成图像的质量和多样性，MetaEarth 在不同地理区域和分辨率下均取得较低的 FID 分数，生成质量优于没有分辨率引导的模型。
无边界生成：通过滑动窗口和噪声约束策略，拼接区域的梯度平滑度显著提高，确保视觉连续性和一致性。

定性分析

多分辨率生成：模型逐步生成从低到高分辨率的图像，高分辨率图像细节更丰富，区域特征更明显。
大规模图像生成：无边界生成的图像视觉一致性好，拼接痕迹难以察觉。
对比实验：相比 Stable Diffusion 和 DALLE，MetaEarth 在遥感场景的生成效果更符合地理规律，分辨率控制更精准。

生成结果展示

更多图表分析等可见原文

公众号AI回复功能已启用，如需加群、投稿或合作，请微信联系小助手（备注：咨询/投稿/合作/加群，加群需姓名/昵称、单位和研究方向）。

公众号欢迎优秀作者投稿！可加入优秀论文作者群：欢迎加入AI遥感优秀论文作者群！

问题及讨论可直接在文章下方留言

往期推荐

NeurIPS24 | MMM-RS: 多模态, 多分辨率,多场景的遥感数据集和基准, 可用于跨模态数据生成

2024-11-05

TPAMI | Changen2, 用于生成多时相遥感图像及变化检测数据的基础模型

2024-10-18

CVPRW24 | GeoSynth: 卫星遥感图像生成器, 支持多种控制方式, 方便下载使用

2024-10-04

论文赏读 | CVPR24 | CityDreamer: 生成无边界3D城市, 结合OSM和谷歌地球数据

2024-05-31

欢迎关注

分享遥感与深度学习领域的技术、论文、书籍、新鲜事。

欢迎加入遥感与深度学习交流群(点此加入)。

遥感与深度学习

聚焦遥感与深度学习，分享相关技术、论文、书籍、资讯，团队来自国内外著名期刊作者及审稿人