卫星遥感数据是机器学习中的一种独特模式？

文摘科技 2024-05-27 07:30 北京

*本文为「天空观察实验室」原创内容

使用机器学习的方法和技术来处理卫星遥感数据，获取有价值的信息，一直以来是遥感信息提取的活跃前沿，特别是深度学习作为机器学习的一个研究方向爆发后，深度学习算法大大超过了传统机器学习算法对遥感数据的目标识别、分类等精度。当前有数百颗遥感卫星每天对地球表面持续观测，产生PB量级的时间序列数据，据估计这些数据有超过90%的信息并没有得到有效发掘和利用。机器学习特别是深度学习，就是为从海量数据中提取有价值的见解而产生，自然也适用于从海量的卫星遥感数据中自动提取有价值的信息、见解和知识。

当前的机器学习方法是为其他模态的数据而设计的，例如自然图像和语言。对机器学习而言卫星遥感数据独特吗？需要专门为卫星遥感数据设计新的机器学习方法吗？

哈佛大学学者Esther Rolf领衔团队2024年2月2日在arXiv 平台上传了预印本论文，文章题目为《关键任务——卫星数据是机器学习的一种独特模式》(Mission Critical – Satellite Data is a Distinct Modality in Machine Learning)，该文认为”卫星遥感数据构成了机器学习研究的一个独特模态，必须认识到这一点来推进卫星遥感数据机器学习研究在理论、方法和部署方面的质量和影响力。文章概述了关键的讨论问题和可行的建议，以将卫星遥感数据机器学习从仅仅是一个有趣的应用领域转变为一个专门的研究学科，有助于推动机器学习和社会面临的重大挑战。”

以下节选《关键任务——卫星数据是机器学习的一种独特模式》论文的部分内容介绍卫星遥感数据的独特之处，卫星遥感数据机器学习面临的挑战和专门的方法，最后总结和点评。

一

卫星遥感数据的独特之处和挑战

《关键任务——卫星数据是机器学习的一种独特模式》论文指出“为其它模态数据设计的机器学习方法无法解决卫星遥感数据具有的明显特征，卫星数据是一种独特的模式。”

卫星遥感数据具有的独特特征

（一）时间和空间尺度

卫星遥感观测的目标对象时空变化幅度跨越对数尺度；空间上目标和地形的跨度范围可以从小于1米(例如树木)到数千米(例如野火)；时间模式可以在几个小时(例如地震)、几周(例如新增建筑物)、几月(例如农作物种植)、几年(例如冰川退缩)和几十年(例如海平面上升)中显现出来。同时卫星遥感数据由不同轨道高度的多样传感器获取，时间和空间分辨率也不一致(见图1)。

图1 同一地点的卫星图像可能存在较大差异(产品-空间分辨率-时间维度)图(引自参考资料1)

（二）光谱波段

光谱/多极化数据有几个到十几个波段，高光谱数据有上百个波段，大大多于自然图像的3个波段(RBG)；同时当前的卫星遥感数据相比一般8bit量化自然图像有更高的辐射分辨率(10-12bit量化)。

（三）数据量

卫星遥感的数据量是PB级的，截至到2024年1月，欧洲哥白尼哨兵任务有66PB公开卫星数据。

（四）标注

卫星遥感标注数据集是小型、稀疏且有偏差的，它们的模式和质量各不相同(见图2)。

图2 卫星观测值和标注图(引自参考资料1)

卫星遥感数据的机器学习面临的挑战

（一）密集预测的部署挑战

卫星遥感数据的机器学习模型部署中需要进行密集预测，因此模型效率是一个重要考虑因素。以10米的空间分辨率为例，全球陆地面积由近 1.5 万亿像素表示。

（二）时空机器学习评估的挑战

传统的机器学习评估，将数据随机分配给训练集和测试集，均匀随机采样的测试分割可能会严重限制理解模型性能，例如标签在空间上自相关和聚类。空间感知保持和交叉验证方法旨在测试模型在训练区域之外的表现。这些方法包括阻断或缓冲训练集和测试集之间的距离(见图3)，或参数化地改变训练数据和测试数据之间的距离。

图3 卫星遥感数据机器学习在部署和评估时有不同的考虑因素(引自参考资料1)

（三）卫星遥感数据机器学习独特的伦理问题

遥感数据机器学习社区必须与利益相关者合作，权衡遥感数据机器学习技术的风险和收益，并了解使用遥感数据机器学习生成的地图所做的决策会如何影响政策和社区。

二

结

卫星遥感的机器学习需要专门的方法

卫星遥感数据可以轻松的转变格式为3通道的RGB图像，因此许多现有计算机视觉模型可以“开箱即用”于卫星数据。卫星遥感数据的机器学习需要专门的方法，在学习策略、模型架构等方面专为卫星遥感数据的机器学习设计。

卫星遥感数据的地理基础、时间规律性、全球覆盖范围和传感器多样性可以激发新数据集、实验和研究方向的创建，在多模态学习、分布偏移、自监督学习和评估、位置编码、人机交互和主动学习等方面丰富机器学习研究(见图4)。

图4 卫星遥感数据的机器学习方法示例(引自参考资料1)

三

总结

卫星遥感数据是独特的，相比于地面传感器、摄像头或手机拍摄的自然照片，主要区别在于以下2个方面：

（一）数据本身，拍摄的视角不一样(上帝之眼俯视)，波段(通道)数远多于自然图像，不同轨道高度和传感器产生时空分辨率差异巨大的多模态数据等。

（二）研究对象，卫星遥感数据拍摄的地球表面，信息提取或任务研究对象是地表，地表具有时空结构和差异，天然体现在卫星遥感数据中，这是自然图像没有的。从研究对象和问题决定研究方法的角度来说，针对独特的卫星遥感数据和地表对象，应该采用有针对性的机器学习方法。

把现有的“开箱即用”的机器学习方法直接拿过来或简单改造后用于卫星遥感图像解译很快能看到良好效果，但无法或较好的处理卫星遥感数据的一些独特特征，如果专门为卫星遥感数据设计模型框架和方法，需要相对较长的周期。武汉大学龚健雅院士团队2022年就发布了全球首个遥感影像智能解译专用深度学习框架LuoJiaNET和业界最大遥感影像样本库LuoJiaSET。

—END—

参考资料

1. Rolf E, Klemmer K, Robinson C, et al., (2024). Mission Critical--Satellite Data is a Distinct Modality in Machine Learning[J]. https://arxiv.org/abs/2402.01444 .

欢迎分享至朋友圈！

未经授权，禁止转载！

转载与合作请联系下方二维码

天空观察实验室

洞察遥感前沿

最新文章

统计数据看美国陆地卫星(Landsat)项目50年

Planet发布用于时间序列分析和机器学习的分析就绪产品

翘首以盼——哨兵一号C星(Sentinel-1C)已抵达发射场

改变对地观测的十大新技术趋势

淘金热—商业遥感卫星中国第一？

超大幅宽VS敏捷：亚米光学遥感卫星哪家强？

270亿美元？2023年美国陆地卫星经济价值

50亿元计划——为什么卫星遥感数据标注如此重要

卫星遥感获取全球工业热源时空分布

欧空局(ESA)人工智能对地观测卫星Φsat-2

超80颗遥感卫星通过SpaceX第11次拼车任务进入太空

卫星遥感中最容易被误解的名词

麦克萨(Maxar)第一颗中倾角超高分辨率光学遥感卫星即将发射

人工智能(AI)在改变卫星成像行业——“但它不是魔法”

15厘米卫星遥感底图——麦克萨(Maxar)计划逐步覆盖全球变化最快区域

30厘米超高分辨率——世界观测军团(Worldview Legion)星座卫星首批图像发布

资源分享|中国区域2.5亿建筑物足迹数据

1.7亿建筑物高度和12亿建筑物轮廓-微软全球建筑物足迹数据集

谷歌发布并开源18亿个建筑物足迹数据集

在路上——哨兵二号C星(Sentinel-2C)驶向发射场

商业遥感公司卫星逻辑(Satellogic)宣布减缓卫星部署和新一轮裁员

卫星遥感分析发现过去十年印度农田大树严重减少