NeurIPS24 | MMM-RS: 多模态, 多分辨率,多场景的遥感数据集和基准, 可用于跨模态数据生成

文摘   2024-11-05 08:47   荷兰  

 RS   DL 

论文介绍

题目:MMM-RS: A Multi-modal, Multi-GSD, Multi-scene Remote Sensing Dataset and Benchmark for Text-to-Image Generation

会议:Conference on Neural Information Processing Systems 2024

论文:http://arxiv.org/abs/2410.22362

数据和代码:https://anonymous.4open.science/r/MMM-RS-C73A/README.md

年份:2024
单位:南京理工大学等

NeurIPS 2024遥感方向论文合集:NeurIPS024

创新点

  • 多模态、多分辨率、多场景的遥感数据集:提出了MMM-RS数据集,集成了多种遥感数据源,覆盖不同的地面采样距离(GSD)和场景(例如雾霾、雪、低光等),提供了丰富的文本描述和图像配对。
  • 自动生成文本描述:利用预训练的视觉-语言模型BLIP-2生成初始文本描述,并手动精细调整,确保文本内容的准确性。
  • 跨模态生成能力:利用MMM-RS数据集训练跨模态生成模型,实现了不同模态(RGB、SAR、NIR)间的转换。

数据

数据来源与整合:

  • 数据集整合了9个公开的遥感数据集,分别为MRSSC2.0、Inria、NaSC-TG2、GID、WHU-OPT-SAR、HRSC2016、TGRS-HRRSD、fMoW和SEN1-2。
  • 每个数据集中的图像进行了标准化处理,确保样本一致性,最终形成了一个包含约210万对文本-图像对的数据集。


多模态数据

  • MMM-RS包含三种模态的图像:RGB(可见光)、SAR(合成孔径雷达)和NIR(近红外)。
  • 数据集中包含1,806,889张RGB图像,289,384张SAR图像,以及7,000张NIR图像。这些多模态数据对齐,能够支持跨模态的图像生成任务。


多GSD层级

  • 数据集定义了五种GSD(地面采样距离)层级:超高精度(GSD < 0.5米/像素)、高精度(0.5 ≤ GSD < 1米/像素)、普通精度(1 ≤ GSD < 5米/像素)、低精度(5 ≤ GSD < 10米/像素)和超低精度(GSD ≥ 10米/像素)。

  • 为了确保数据多样性,文章设计了GSD提取策略,通过裁剪不同分辨率的图像来创建不同的GSD样本,以支持在同一场景下的不同GSD图像生成。


多场景数据

数据集包含模拟不同天气和环境条件的图像,包括雾霾、雪景和低光照场景。这些场景图像是通过以下方法合成的:
  • 雾霾场景:利用大气散射模型生成雾霾图像。

  • 低光照场景:使用TPSeNCE模型生成低光照图像。

  • 雪景场景:通过CycleGAN模型,将清晰场景图像转换为雪景图像。

文本描述生成
  • MMM-RS数据集的文本描述分为信息丰富的复杂提示和简单文本描述两种。文本描述包括图像内容、GSD层级、天气类型、卫星类型等信息。

  • 作者使用预训练的BLIP-2模型生成简单文本描述,并通过手动校对和增加注释内容来丰富文本信息,从而生成适合文本生成任务的文本-图像对。

数据预处理与标准化

  • 统一尺寸:将所有图像标准化为512×512的统一尺寸,以便与主流生成模型兼容,同时保持数据集一致性。

  • 超分辨率增强:对于小于512×512的图像样本,通过ESRGAN超分辨率模型对其进行放大,确保在标准化过程中高频细节得以保留。

数据集统计

实验与分析

1. 微调Stable Diffusion用于遥感图像生成

  • 实验设置:使用Stable Diffusion-V1.5作为基础模型,对其进行微调以适应遥感图像生成任务。微调过程中采用LoRA(低秩适应)技术,以优化模型的参数调整。训练使用了MMM-RS数据集,包含约210万对文本-图像对,训练次数为20万次。
  • 训练细节:输入文本提示包含多个组成部分:地面采样距离(GSD)、天气类型、场景描述和卫星类型,帮助模型生成符合特定条件的遥感图像。
  • 评估指标:使用Frechet Inception Distance (FID)和Inception Score (IS)两项指标来衡量生成图像的质量和多样性。低FID表示生成图像分布与真实图像更为接近,高IS表示生成图像的多样性和清晰度较高。

2. 基于ControlNet的跨模态生成实验

  • 实验设置:使用ControlNet作为跨模态生成的基础模型,以Stable Diffusion-V1.5作为主干,利用MMM-RS数据集中的对齐样本进行训练,包括约29万对RGB-SAR样本和7000对RGB-NIR样本。
  • 训练任务:实验设计了四种跨模态生成任务,分别为RGB → SAR、RGB → NIR、SAR → RGB和NIR → RGB,目的是验证数据集在跨模态生成中的有效性。
  • 结果分析:实验结果展示了四种跨模态生成任务的可视化效果:

    • 在RGB到SAR和RGB到NIR的任务中,生成的SAR和NIR图像成功保留了RGB图像的结构信息,且细节清晰。

    • 在SAR到RGB和NIR到RGB的任务中,生成的RGB图像不仅保留了输入图像的结构特征,还在纹理和细节方面表现出丰富的视觉信息。
  • 结果意义:这些跨模态生成结果证明了MMM-RS数据集的多模态数据为遥感图像生成模型提供了强有力的支持,使得生成模型能够在不同模态间转换图像的内容和细节。

更多图表分析可见原文



欢迎关注会议论文赏读系列
因配置了AI回复功能,除关键词自动回复外,号内信息主要由AI大模型回复。如需资源、投稿、合作等,请直接联系小助手微信(添加请备注:咨询投稿合作加群,加群需备注姓名/昵称,单位和研究方向)。

公众号欢迎优秀作者投稿!可加入优秀论文作者群:欢迎加入AI遥感优秀论文作者群!



问题及讨论可直接在文章下方留言

相关链接:

NeurIPS24 | SynRS3D: 合成遥感数据集, 可用于单目语义分割和高度估计等任务
ECCV24 | MMEarth: 多模态预训练数据及方法, 用于遥感任务
ECCV24 | LHRS-Bot: 遥感视觉语言多模态大模型; 基于OSM地理信息和遥感影像构建大型数据集
AAAI24 | SkyScript: 斯坦福团队提出的大型遥感视觉-语言数据集, 关注语义多样性
ECCV24 | ∞-Brush: 无限维扩散模型可控合成高分辨率遥感图像


  欢迎关注  


分享遥感与深度学习领域的技术、论文、书籍、新鲜事。



欢迎加入遥感与深度学习交流群(点此加入)


遥感与深度学习
聚焦遥感与深度学习,分享相关技术、论文、书籍、资讯,团队来自国内外著名期刊作者及审稿人
 最新文章