2024年9月,美国国家地理空间情报局(National Geospatial-Intelligence Agency, NGA)将启动50亿元(7亿美金)计划进行数据标注,用于分析卫星遥感图像和其它地理空间数据,行业招标预计本月公布,计划为期5年。
50亿元的遥感图像(地理空间)数据标注,是一个大单,也是NGA投资人工智能(AI)能力的一部分,为什么要花这么多钱?进一步提问,为什么卫星遥感数据的标注如此重要?值得花这么多钱。
本文介绍NGA的数据标注计划、什么是遥感数据标注和数据标注的意义,最后回答提出的问题。
01
NGA数据标注计划
美国国家地理空间情报局(NGA)局长弗兰克(Frank Whiteworth)表示这是该机构有史以来规模最大的数据标注计划,旨在增强NGA的机器学习能力,以分析卫星图像和其它地理空间数据。这代表了对计算机视觉、机器学习和人工智能的重大投资,NGA将与商业伙伴合作,应对地理空间情报数据量日益增长带来的挑战。
该计划的行业招标合同将侧重于标注图像和视频等原始数据,使机器学习模型可以理解这些数据。对于卫星图像可能涉及标注特定的对象,如建筑物、道路或植被。
美国国家地理空间情报局(NGA)是一个重要的美国国家安全和情报机构,它的主要任务是收集、分析和发布地理空间情报(GEOINT),以支持国家安全、军事行动和灾难响应工作。NGA的地理空间情报指利用图像和地理空间信息来描述、评估和直观展示地球上的自然地物以及与地理位置相关的活动。地理空间情报包括图像、图像情报和地理空间信息,其中图像的一个重要来源就是卫星遥感图像。
02
理解卫星遥感图像和遥感数据标注
图2 卫星遥感图和信息提取获取的土地覆盖图(来自Ecopia)▼
传统的遥感信息提取基于遥感机理、特征提取和规则构建等建模方法,所需要的遥感图像标注数据规模较小,在遥感领域的机器学习/深度学习方法流行之后,目标检测、场景识别、地表分类、变化检测等信息提取任务广泛采用深度学习模型,而遥感深度学习模型的训练需要海量高质量的遥感标注数据。
遥感数据标注(remote sensing data label)是在遥感数据中标注(label/annotation)相关信息/元数据的过程,让机器理解它们是什么。图3是对遥感图像上感兴趣目标的标注,用最小外接矩形框包住目标,并给目标赋予类别标签(如汽车、船等)。对遥感数据进行标注并创建遥感样本集是一项耗时耗力的任务,需要依赖人员专业知识和判读解译。同时准确的标注数据在训练人工智能模型时对于最终获得可靠的推理模型至关重要。
图3 DOTA数据集目标检测标注示例(来自DOTA 数据集)▼
当前遥感卫星和图像数据急剧增加,海量的卫星遥感数据需要被分析,例如哨兵二号卫星一天的数据量约10TB,有上千颗遥感卫星在不停的采集数据,使用人工解译提取海量遥感数据信息不现实,而深度学习/人工智能模型提供了自动化、大规模、高效的遥感数据分析解决方案,不过为了有效训练人工智能模型,需要大量标注数据来引导算法识别和解译遥感数据中的特定特征和模式,并最终形成遥感AI模型。大量和准确的标注数据是遥感AI模型生成的前提和基础。
03
总结
参考资料
(全文完)