使用机器学习的方法和技术来处理卫星遥感数据,获取有价值的信息,一直以来是遥感信息提取的活跃前沿,特别是深度学习作为机器学习的一个研究方向爆发后,深度学习算法大大超过了传统机器学习算法对遥感数据的目标识别、分类等精度。当前有数百颗遥感卫星每天对地球表面持续观测,产生PB量级的时间序列数据,据估计这些数据有超过90%的信息并没有得到有效发掘和利用。机器学习特别是深度学习,就是为从海量数据中提取有价值的见解而产生,自然也适用于从海量的卫星遥感数据中自动提取有价值的信息、见解和知识。
当前的机器学习方法是为其他模态的数据而设计的,例如自然图像和语言。对机器学习而言卫星遥感数据独特吗?需要专门为卫星遥感数据设计新的机器学习方法吗?
哈佛大学学者Esther Rolf领衔团队2024年2月2日在arXiv 平台上传了预印本论文,文章题目为《关键任务——卫星数据是机器学习的一种独特模式》(Mission Critical – Satellite Data is a Distinct Modality in Machine Learning),该文认为”卫星遥感数据构成了机器学习研究的一个独特模态,必须认识到这一点来推进卫星遥感数据机器学习研究在理论、方法和部署方面的质量和影响力。文章概述了关键的讨论问题和可行的建议,以将卫星遥感数据机器学习从仅仅是一个有趣的应用领域转变为一个专门的研究学科,有助于推动机器学习和社会面临的重大挑战。”
以下节选《关键任务——卫星数据是机器学习的一种独特模式》论文的部分内容介绍卫星遥感数据的独特之处,卫星遥感数据机器学习面临的挑战和专门的方法,最后总结和点评。
卫星遥感数据的独特之处和挑战
图1 同一地点的卫星图像可能存在较大差异(产品-空间分辨率-时间维度)图(引自参考资料1)
图2 卫星观测值和标注图(引自参考资料1)
卫星遥感数据的机器学习面临的挑战
(一)密集预测的部署挑战
卫星遥感数据的机器学习模型部署中需要进行密集预测,因此模型效率是一个重要考虑因素。以10米的空间分辨率为例,全球陆地面积由近 1.5 万亿像素表示。
(二)时空机器学习评估的挑战
传统的机器学习评估,将数据随机分配给训练集和测试集,均匀随机采样的测试分割可能会严重限制理解模型性能,例如标签在空间上自相关和聚类。空间感知保持和交叉验证方法旨在测试模型在训练区域之外的表现。这些方法包括阻断或缓冲训练集和测试集之间的距离(见图3),或参数化地改变训练数据和测试数据之间的距离。
图3 卫星遥感数据机器学习在部署和评估时有不同的考虑因素(引自参考资料1)
卫星遥感的机器学习需要专门的方法
总 结
卫星遥感数据是独特的,相比于地面传感器、摄像头或手机拍摄的自然照片,主要区别在于以下2个方面:
(一)数据本身,拍摄的视角不一样(上帝之眼俯视),波段(通道)数远多于自然图像,不同轨道高度和传感器产生时空分辨率差异巨大的多模态数据等。
(二)研究对象,卫星遥感数据拍摄的地球表面,信息提取或任务研究对象是地表,地表具有时空结构和差异,天然体现在卫星遥感数据中,这是自然图像没有的。从研究对象和问题决定研究方法的角度来说,针对独特的卫星遥感数据和地表对象,应该采用有针对性的机器学习方法。
把现有的“开箱即用”的机器学习方法直接拿过来或简单改造后用于卫星遥感图像解译很快能看到良好效果,但无法或较好的处理卫星遥感数据的一些独特特征,如果专门为卫星遥感数据设计模型框架和方法,需要相对较长的周期。武汉大学龚健雅院士团队2022年就发布了全球首个遥感影像智能解译专用深度学习框架LuoJiaNET和业界最大遥感影像样本库LuoJiaSET。
欢迎分享至朋友圈!
未经授权,禁止转载!
转载与合作请联系下方二维码