遥感大模型解读系列 | 02 SelectiveMAE:基于大规模遥感数据集的高效掩码自编码器

科技 2024-08-21 14:57 新加坡

新开一个文章系列，将对现有的遥感大模型论文进行解读，主要以foundation model为主，将涉及图像解译、视觉-语言、图像生成、音频-图像及其他特定任务模型，预计将持续数十篇。

本篇论文——Scaling Efficient Masked Autoencoder Learning on Large Remote Sensing Dataset

发布时间：2024 年 6 月 17 日
来源：https://arxiv.org/abs/2406.11933

SelectiveMAE:基于大规模遥感数据集的高效掩码自编码器

摘要

掩码图像建模（Masked Image Modeling, MIM）已成为开发基础视觉模型的重要方法。然而，当前的遥感（Remote Sensing, RS）数据集在数量和多样性上都存在局限性，严重制约了MIM方法学习通用表示的能力。

在本研究中，作者提出了RS-4M，这是一个大规模数据集，旨在使MIM训练在RS图像上变得高效。RS-4M包含400万张光学图像，涵盖丰富且细粒度的RS视觉任务，包括目标检测和像素级分割。相比自然图像，RS图像通常包含大量冗余背景像素，限制了传统MIM模型的训练效率。

为了解决这个问题，作者提出了一种高效的MIM方法，称为SelectiveMAE，它基于语义丰富度动态编码和重建一部分补丁标记。SelectiveMAE基于渐进语义标记选择模块，从重建语义相似标记到编码互补语义依赖，逐步演变。

该方法将传统的MIM训练转变为渐进特征学习过程，使SelectiveMAE能够高效地学习RS图像的鲁棒表示。大量实验表明，SelectiveMAE显著提高了训练效率，并增强了基线MIM模型在分类、检测和分割任务中的性能。

1. 引言

过去十年中，遥感技术和数据采集的进步显著推动了生态系统监测、自然灾害管理等应用的发展。这些应用依赖于场景分类、目标检测、变化检测和语义分割等基本能力。然而，每个下游任务通常需要大量计算资源来学习特定任务的特征表示并开发专门的模型。

由于自监督学习方法的显著进步，如掩码图像建模（MIM）技术，视觉基础模型的预训练取得了显著改进。因此，遥感基础模型（RSFMs）最近出现，提供了通用特征表示，并在各种遥感下游任务中表现出色。

然而，RSFMs的发展面临两个挑战：

（i）与ImageNet-21k数据集相比，之前的RS数据集样本数量显著较少，阻碍了大型骨干网络的充分MIM训练。
（ii）这些数据集主要关注全局场景语义，缺乏下游任务中遇到的RS场景的多样性和细粒度信息，限制了学习表示的泛化能力。

为了解决这些挑战，作者提出了一个大规模RS数据集RS-4M。该数据集包含400万张光学图像，旨在充分利用MIM方法在RS应用中的表示学习能力。RS-4M显著超过了之前的RS数据集，至少大四倍。此外，RS-4M涵盖了下游任务中遇到的各种RS场景，如目标检测和像素级分割。

尽管在使用MIM方法训练RSFM方面做出了大量努力，如利用通用图像知识、扩展参数规模、集成时空信息和学习多尺度特征，但在大规模RS数据集上进行MIM训练时，计算负担和收敛速度缓慢的问题仍然存在。

特别是，使用ViT-B骨干网络在1百万RS样本上进行预训练需要107小时。为了解决这个问题，作者提出了一种高效的MIM方法，称为SelectiveMAE，它基于语义丰富度动态编码和重建一部分补丁标记。

2. 相关工作

2.1 遥感数据集

近年来，许多RS数据集被创建用于场景分类、目标检测和分割等任务。免费、未标记的卫星图像的可用性推动了大规模RS数据集的发展。例如，SEN12MS结合了多种传感器数据，而MillionAID提供了百万规模的RS光学图像分类数据集。

然而，这些数据集主要针对场景分类，通常忽略了细粒度目标信息，限制了它们在各种下游任务中的实用性。

2.2 遥感基础模型

自监督学习方法最近被用于从未标记的RS数据中提取表示。尽管有些对比自监督方法取得了一定进展，但最近的研究主要集中在生成自监督方法上。

例如，RVSA利用视觉变换器骨干网络，并引入计算高效的旋转变尺寸窗口注意机制替代原始注意机制。此外，许多研究致力于通过利用通用图像知识、扩大参数规模、集成时空数据和处理多传感器数据来改进生成自监督算法。

然而，这些方法尚未有效解决自监督预训练在RS中的巨大计算负担问题。

2.3 掩码图像建模

受掩码语言建模（MLM）在自然语言处理中的成功启发，MIM被开发用于视觉预训练。MIM通过重建被掩码的标记来学习图像表示，关注各种回归目标、掩码策略和重建方法。MAE表明预测像素值与使用复杂目标同样有效。

MIM的主要挑战是其高计算需求和长预训练时间。为缓解这一问题，一些研究使用不对称编码器-解码器策略，减少输入补丁或使用新颖的损失函数。然而，这些方法未能考虑RS图像的独特特征，如稀疏的前景信息和复杂的背景。

3. 数据集

3.1 数据收集与组织

最近的自监督预训练RSFMs进展受到现有RS数据集规模和多样性较小的限制。为了解决这个问题，作者提出了RS-4M数据集，这是一个持续更新的大规模RS数据集，遵循多样性、丰富性和可扩展性（DiRS）原则。

作者收集和组织了过去十年的数据集，重点关注主流RS图像解释任务，包括场景分类、目标检测、语义分割和变化检测。这些数据集包含约100个子数据集，总计1350万张图像。排除了多光谱和SAR数据，仅保留光学图像。

未来的更新将纳入多光谱和SAR数据，以支持多模态自监督预训练。与MillionAID等数据集不同，数据集旨在促进下游检测和分割任务。

为了处理分割数据集中的大规模图像，随机裁剪高分辨率图像为较小的切片。像素低于64或高于1024的图像被移除，以促进自监督预训练。结合剩余图像，并使用两阶段过程消除重复图像：粗略阶段使用感知哈希，精细阶段进行人工审查。

通过哈希值选择和人工审查，仅排除高度相似的图像。最终，RS-4M数据集包含约400万张高质量的RS光学图像，比之前的代表性RS数据集大四倍。

3.2 RS-4M数据集的初步评估

RS-4M提供了比之前数据集大且多样性更高的图像集。为了评估其效果，作者使用vanilla MAE方法预训练一个ViT基础模型。为了比较，使用MillionAID数据集，并在训练期间保持相同数量的数据点：对于MillionAID的100万张图像训练800个epoch，对于RS-4M数据集训练200个epoch。

此外，通过从RS-4M中采样不同数量的图像创建新数据集进行进一步比较。预训练后，在下游RESISC-45数据集上微调模型，并评估Top-1分类准确率。结果表明，RS-4M数据集在各种样本规模下均优于MillionAID，使用整个数据集时达到最高准确率92.38%。即使使用较少的图像，RS-4M也始终提供更优的性能，突显了其更高的多样性和有效性。

这些发现强调了使用更大和更多样化的数据集进行无监督预训练的优势。

4. 方法

4.1 掩码自编码器预备知识

掩码。与标准ViT的监督训练类似，MAE将图像划分为规则的、不重叠的补丁。然后，它从这些补丁中采样一部分并掩码其余部分。典型的掩码比例为75%，意味着只有25%的补丁输入编码器。这个随机采样遵循掩码比例的均匀分布。
MAE编码器。编码器是一个标准的ViT，仅应用于可见的未掩码补丁。它线性投影补丁，添加位置嵌入，并通过一系列变换器块处理它们。通过处理较小的补丁子集，编码器使得大模型的训练具有较低的计算和内存需求。
MAE解码器。编码标记和掩码标记被输入解码器，解码器由具有自注意层的变换器块组成。掩码标记是共享的、可学习的张量，增强了位置嵌入。解码器仅在预训练期间使用，生成这些掩码标记的输出预测。
重建目标。MAE预测每个掩码补丁的像素值，解码器输出中的每个元素表示一个补丁的像素值向量。损失函数计算重建目标与原始补丁之间的均方误差（MSE）。

RS光学图像通常包含大量冗余背景像素，这与MAE的掩码策略非常吻合。在MAE中，编码器仅处理25%的补丁，显著减少了计算负担。基于MAE，作者希望利用RS图像中的冗余来加速训练。

具体来说，要解决两个问题：

1）在RS图像中，是否有必要重建所有掩码补丁？
2）是否可以进一步压缩输入到MAE编码器的可见补丁，以增强加速效果？

4.2 部分重建

对于问题1，之前的研究表明，对于一般图像，当MAE重建75%的补丁以计算损失时，设计良好的解码器不需要完全重建所有剩余补丁。实际上，仅重建50%甚至25%的补丁即可实现类似的性能并加速训练。然而，对于RS图像，如果随机采样补丁并移除大部分进行重建，重建的补丁可能不是语义丰富的补丁。使用随机子集进行重建会降低性能。

为了解决这个问题，选择语义丰富的补丁进行重建，而不是随机选择。
具体来说，给定一个输入图像，它被重塑为非重叠的补丁。这些补丁然后线性映射到补丁嵌入。为了保留位置信息，位置嵌入被添加到补丁中。根据掩码比例选择一部分补丁输入编码器，剩余的补丁作为解码器的重建目标，引入一个新的重建比例，即要重建的像素比例，计算剩余补丁的HOG特征，并根据重建比例选择具有高HOG特征值的补丁，而不是使用所有补丁。

4.3 试验结果

作者在RS-4M数据集上进行了大量实验,验证了SelectiveMAE方法的有效性。主要结果包括:

1) 训练效率:与基线方法相比,SelectiveMAE将预训练速度提高了2.2-2.7倍。

2) 下游任务性能:在目标检测任务上,SelectiveMAE相比基线方法提升了5.6%的mAP;在语义分割任务上,提升了1.4%的mF1分数。

3) 稳定性:通过PSTS模块,SelectiveMAE能够有效避免高掩码率导致的梯度爆炸问题,保证训练的稳定性。

如图4所示,基线方法在使用高掩码率时容易出现梯度爆炸,而SelectiveMAE通过PSTS模块实现了稳定的训练过程。

5. 结论与展望

本文提出的RS-4M数据集和SelectiveMAE方法为遥感领域的自监督学习开辟了新的方向。RS-4M数据集的大规模和多样性为模型训练提供了充足的数据支持,而SelectiveMAE方法则有效解决了遥感图像中冗余信息带来的训练效率问题。

未来的研究方向可能包括:

1) 进一步扩展RS-4M数据集,纳入多光谱、SAR等多模态数据。

2) 探索更高效的语义令牌选择策略,进一步提升训练效率。

3) 将SelectiveMAE方法应用于更多遥感下游任务,验证其泛化能力。

欢迎交流

笔者长期从事人工智能、遥感、大模型等业务

欢迎添加微信交流

http://mp.weixin.qq.com/s?__biz=MzI2MDIyOTMyOA==&mid=2247485339&idx=2&sn=8e1c0eaf9224f1c979b59238130aa956

空天感知

专注商业航天、人工智能、气象水文等交叉学科，精选行业资讯，深耕AI业务落地

最新文章

正射校正到底在修正哪些地图误差

卫星见证：撒哈拉沙漠中的神秘湖泊重现

ChatGPT、Python和OpenCV支持下的空天地遥感数据识别与计算——从0基础到15个案例实战

卫星如何看清隐形的熔岩流和活跃的野火

高效跟进研究前沿，AI论文阅读工具全攻略

AI如何帮助卫星从太空追踪“隐形船只”

可开放获取高分遥感数据集汇总

美国卫星通信公司IntelSat遭遇重大卫星故障，服务受到影响

研究揭示遥感领域人工智能高度易受攻击

美国商务部放宽商业航天技术出口管制

EDA收购Descartes Labs：遥感领域行业整合缩影

美国国家侦察局（NRO）加速卫星数据处理与共享

会议预告 | 2024年陆地遥感产品前沿动态及数据使用学习大会

Google 发布遥感大模型技术“Embedding Field”，从高维数据到真实世界的重构

SpaceX成功捕获返回的星舰助推器，实现历史性突破

欧空局发布2040对地观测新战略，助力全球可持续发展

听声测雨新手段，将万千摄像头化身成为雨量计

24年Q3全球轨道火箭发射小结：首次出现同比下降

美国智库显示中国公司领先全球商业遥感，但结果需审慎看待

给雷达影像上色，SAR彩色化技术为影像增添新维度

为何遥感是深度学习图像处理的一个独特领域

全球海平面上升，卫星视角下的未来风险

商业航天速递 | Planet发布森林碳监测产品；FAA与SpaceX再起纷争；Viasat获得美国空军相控阵天线合同

Google支撑新型星座建设，助力全球野火防控新突破

Planet商业部分收入增长放缓，遥感toB难以突围

EOWater: 开源高效的水体面积遥感计算工具，基于Sentinel-2和Landsat数据

从像素到语义，快速实现遥感影像AI搜索

哨兵-2C卫星首秀，第一批回传影像效果绝佳

让卫星图像更清晰，超分辨率技术的广泛应用

地球映画：七个你可能不知道的绝美海滩

商业航天速递 | 蓝箭航天成功完成可重复使用火箭测试；伽利略导航系统卫星成功入轨运行；BAE再获DARPA百万资助

NASA授予八家公司小卫星数据获取服务合同，总金额达4.76亿美元

为什么要推荐您参赛 | 第九届中国航空创新创业大赛报名中

NOAA发布2023 年全球气候状况报告:创纪录的高温、温室气体和海平面

下一代气象卫星：欧空局AWS北极气象卫星

多光谱星Sentinel-2即将迎来新成员

实力强劲的的美国雷达卫星公司Umbra，引领商业SAR技术革新与市场扩张

发展商业航天，要先让下游遥感产业赚钱

SpaceX Transporter计划：小卫星发射市场的五年垄断之路

商业航天观察 | 洛克希德·马丁收购Terran Orbital：从合作到控制的战略之道

商业航天速递 | Rocket Lab的卫星即将在Blue Origin火箭发射；洛克希德·马丁收购Terran Orbital

遥感大模型解读系列 | 02 SelectiveMAE:基于大规模遥感数据集的高效掩码自编码器

遥感大模型解读系列 | 01 SpectralEarth：大规模训练高光谱基础模型

大模型在太空任务的应用探索

更智能、更自主、更强大：未来的小卫星技术可能如何发展？

商业航天速递 | Starlink获得斯里兰卡运营许可；蓝色起源New Glenn首飞将近；美军方发布中地球轨道卫星建设任务

八月商业航天观察，液体火箭有序推进，新发射台蓄势待发

商业航天速递 | Rocket Lab首发阿基米德引擎；BAE再获 4800万美元合同；NASA寻外界接手VIPER月球车

商业航天速递 | 中国发射“千帆”卫星，启动低轨道通信星座计划；ISS 为 Starliner 应急行动做准备

Starship星舰研究报告：全面解析SpaceX下一代运载火箭

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉