RS DL
论文介绍
题目:MMM-RS: A Multi-modal, Multi-GSD, Multi-scene Remote Sensing Dataset and Benchmark for Text-to-Image Generation
会议:Conference on Neural Information Processing Systems 2024
论文:http://arxiv.org/abs/2410.22362
数据和代码:https://anonymous.4open.science/r/MMM-RS-C73A/README.md
创新点
多模态、多分辨率、多场景的遥感数据集:提出了MMM-RS数据集,集成了多种遥感数据源,覆盖不同的地面采样距离(GSD)和场景(例如雾霾、雪、低光等),提供了丰富的文本描述和图像配对。 自动生成文本描述:利用预训练的视觉-语言模型BLIP-2生成初始文本描述,并手动精细调整,确保文本内容的准确性。 跨模态生成能力:利用MMM-RS数据集训练跨模态生成模型,实现了不同模态(RGB、SAR、NIR)间的转换。
数据
数据来源与整合:
数据集整合了9个公开的遥感数据集,分别为MRSSC2.0、Inria、NaSC-TG2、GID、WHU-OPT-SAR、HRSC2016、TGRS-HRRSD、fMoW和SEN1-2。 每个数据集中的图像进行了标准化处理,确保样本一致性,最终形成了一个包含约210万对文本-图像对的数据集。
多模态数据
MMM-RS包含三种模态的图像:RGB(可见光)、SAR(合成孔径雷达)和NIR(近红外)。 数据集中包含1,806,889张RGB图像,289,384张SAR图像,以及7,000张NIR图像。这些多模态数据对齐,能够支持跨模态的图像生成任务。
多GSD层级
数据集定义了五种GSD(地面采样距离)层级:超高精度(GSD < 0.5米/像素)、高精度(0.5 ≤ GSD < 1米/像素)、普通精度(1 ≤ GSD < 5米/像素)、低精度(5 ≤ GSD < 10米/像素)和超低精度(GSD ≥ 10米/像素)。
为了确保数据多样性,文章设计了GSD提取策略,通过裁剪不同分辨率的图像来创建不同的GSD样本,以支持在同一场景下的不同GSD图像生成。
多场景数据
雾霾场景:利用大气散射模型生成雾霾图像。
低光照场景:使用TPSeNCE模型生成低光照图像。
雪景场景:通过CycleGAN模型,将清晰场景图像转换为雪景图像。
MMM-RS数据集的文本描述分为信息丰富的复杂提示和简单文本描述两种。文本描述包括图像内容、GSD层级、天气类型、卫星类型等信息。
作者使用预训练的BLIP-2模型生成简单文本描述,并通过手动校对和增加注释内容来丰富文本信息,从而生成适合文本生成任务的文本-图像对。
数据预处理与标准化
统一尺寸:将所有图像标准化为512×512的统一尺寸,以便与主流生成模型兼容,同时保持数据集一致性。
超分辨率增强:对于小于512×512的图像样本,通过ESRGAN超分辨率模型对其进行放大,确保在标准化过程中高频细节得以保留。
数据集统计
实验与分析
1. 微调Stable Diffusion用于遥感图像生成
实验设置:使用Stable Diffusion-V1.5作为基础模型,对其进行微调以适应遥感图像生成任务。微调过程中采用LoRA(低秩适应)技术,以优化模型的参数调整。训练使用了MMM-RS数据集,包含约210万对文本-图像对,训练次数为20万次。 训练细节:输入文本提示包含多个组成部分:地面采样距离(GSD)、天气类型、场景描述和卫星类型,帮助模型生成符合特定条件的遥感图像。 评估指标:使用Frechet Inception Distance (FID)和Inception Score (IS)两项指标来衡量生成图像的质量和多样性。低FID表示生成图像分布与真实图像更为接近,高IS表示生成图像的多样性和清晰度较高。
2. 基于ControlNet的跨模态生成实验
实验设置:使用ControlNet作为跨模态生成的基础模型,以Stable Diffusion-V1.5作为主干,利用MMM-RS数据集中的对齐样本进行训练,包括约29万对RGB-SAR样本和7000对RGB-NIR样本。 训练任务:实验设计了四种跨模态生成任务,分别为RGB → SAR、RGB → NIR、SAR → RGB和NIR → RGB,目的是验证数据集在跨模态生成中的有效性。 结果分析:实验结果展示了四种跨模态生成任务的可视化效果:
在RGB到SAR和RGB到NIR的任务中,生成的SAR和NIR图像成功保留了RGB图像的结构信息,且细节清晰。
在SAR到RGB和NIR到RGB的任务中,生成的RGB图像不仅保留了输入图像的结构特征,还在纹理和细节方面表现出丰富的视觉信息。 结果意义:这些跨模态生成结果证明了MMM-RS数据集的多模态数据为遥感图像生成模型提供了强有力的支持,使得生成模型能够在不同模态间转换图像的内容和细节。
更多图表分析可见原文
公众号欢迎优秀作者投稿!可加入优秀论文作者群:欢迎加入AI遥感优秀论文作者群!
相关链接:
欢迎关注
分享遥感与深度学习领域的技术、论文、书籍、新鲜事。
欢迎加入遥感与深度学习交流群(点此加入)。