RS DL
论文介绍
题目:MetaEarth: A Generative Foundation Model for Global-scale Remote Sensing Image Generation
期刊:IEEE Transactions on Pattern Analysis and Machine Intelligence
论文:https://ieeexplore.ieee.org/document/10768939
主页:https://jiupinjia.github.io/metaearth/
注:本篇由论文原作者审阅
创新点
全球级遥感图像生成: MetaEarth 是第一个用于全球尺度的生成基础模型,可生成具有多分辨率、无边界、任意大小的遥感图像。 提出了分辨率引导的自级联生成框架,与现有的单阶段生成方法不同,逐步生成多分辨率图像,显著提升了生成的灵活性和精度。 去噪扩散模型的新设计: 设计了新的噪声采样策略以实现无缝拼接,从而生成连续且视觉一致的图像。 利用条件嵌入(如分辨率和时间步长)提升了模型对特定分辨率下地理特征的感知能力。 数据引擎功能:除了生成图像,MetaEarth 还可以用作数据引擎,为下游任务(如分类、目标检测)提供高质量的训练数据。
数据
数据来源:数据来自 Google Earth,覆盖全球范围,包括城市、森林、沙漠、海洋、冰川等多种地理环境,并标注了经纬度和分辨率信息。 数据分辨率:数据包含三种分辨率:64 m/pixel、16 m/pixel 和 4 m/pixel,满足多分辨率图像生成需求。 数据规模:训练集包含约 310 万张图像,每种分辨率约 100 万张;测试集和验证集各约 7 万张。 数据清洗:去除了高重复性海洋图像、噪声图像和云层覆盖严重的图像,确保数据多样性和代表性。
方法
分辨率引导的自级联生成框架
框架目标:提出一种逐步生成图像的多分辨率方法,从低分辨率逐步生成高分辨率图像。 生成流程:
首先生成低分辨率图像,并将其作为条件输入,为下一阶段的生成提供语义和空间信息。
每个阶段生成的高分辨率图像不仅依赖于前一阶段的结果,还结合了嵌入的分辨率信息。
通过逐层级联,可以生成具有多分辨率和多样性的全球遥感图像。
噪声采样策略和无边界图像生成
滑动窗口生成:采用滑动窗口技术,将输入图像分割为有重叠的图像块,避免拼接区域的视觉不连续。
噪声一致性约束:在扩散模型中为每个图像块指定一致的初始噪声,确保拼接区域在像素级上连续。
条件嵌入
分辨率嵌入:通过频率编码将分辨率转换为嵌入向量,引导模型感知不同尺度下的地理特征。
时间步长嵌入:将扩散过程中的时间步长嵌入到生成网络中,进一步增强对条件的敏感性。
条件融合:将低分辨率图像的特征与分辨率和时间步长嵌入一起输入到模型中,实现条件约束生成。
高阶降质模拟
模拟实际中不同传感器或空间分辨率的图像分布差异,解决训练和推断阶段输入分布不一致的问题。
使用模糊、缩放、添加噪声和 JPEG 压缩等方式,将高分辨率图像降质为低分辨率图像,构建训练对。
模型设计与优化
生成网络结构:
设计了一个 U-Net 风格的噪声预测网络,网络参数约为 6 亿。通过分辨率引导调整特征图的尺度和偏移量。训练细节:Perception Prioritized (P2) 权重策略,重点恢复感知丰富的内容,提高图像质量。 推断加速:采用 DDIM(去噪扩散隐式模型)进行推断,加速采样过程。
无边界场景生成
使用滑动窗口和噪声约束策略生成大规模遥感图像,实现任意大小图像的连续生成。
滑动窗口区域的重叠部分作为语义过渡区域,有效解决拼接不连续问题。
实验和评估
定量评估
FID 分数:使用 FID 评估生成图像的质量和多样性,MetaEarth 在不同地理区域和分辨率下均取得较低的 FID 分数,生成质量优于没有分辨率引导的模型。 无边界生成:通过滑动窗口和噪声约束策略,拼接区域的梯度平滑度显著提高,确保视觉连续性和一致性。
定性分析
多分辨率生成:模型逐步生成从低到高分辨率的图像,高分辨率图像细节更丰富,区域特征更明显。 大规模图像生成:无边界生成的图像视觉一致性好,拼接痕迹难以察觉。 对比实验:相比 Stable Diffusion 和 DALLE,MetaEarth 在遥感场景的生成效果更符合地理规律,分辨率控制更精准。
生成结果展示
公众号欢迎优秀作者投稿!可加入优秀论文作者群:欢迎加入AI遥感优秀论文作者群!
2024-11-05
2024-10-18
2024-10-04
欢迎关注
分享遥感与深度学习领域的技术、论文、书籍、新鲜事。
欢迎加入遥感与深度学习交流群(点此加入)。