google 发布了带有高度的建筑数据集(2016年至2023年)
google AI团队基于哨兵卫星数据,于9月19日发布了 Open Buildings 2.5D Temporal Dataset,该数据集包含了覆盖非洲、拉丁美洲、南亚和东南亚的5800万平方公里的区域,时间范围为2016年-2023年,分辨率为10米。
该数据集由一个GEE的图像集合组成,包含三种不同通道的栅格:建筑、建筑高度和建筑数量比例( building presence, building height, and fractional building counts)。
建筑物的提取(栅格)
该数据集是Google通过teacher—student模型来提取的。
这是机器学习中的一种知识蒸馏技术。这种方法通常用于将一个复杂的模型(教师)的知识转移到一个较小或较简单的模型(学生)中:
教师模型:通常是一个大型、复杂、性能优秀的模型。在高质量或高分辨率的数据上训练。
学生模型:通常是一个较小、较简单的模型。目标是学习教师模型的"知识",而不是直接从原始数据学习。
知识转移过程:教师模型处理高质量数据,学生模型尝试模仿教师模型的输出。
在Google的这个数据中,
教师模型使用高分辨率卫星图像。 学生模型使用低分辨率的哨兵2号图像。
实现建筑物的计数
上面一步,得到建筑物栅格数据,无法直接计数。google AI就在模型中添加一个额外的输出(称为"head"),用于直接预测给定区域内的建筑物数量。
训练方法是:通过标记每个建筑物的中心点来训练这个模型输出。不考虑建筑物的大小模型会,为每个建筑物预测一个固定的中心点。
在他们的官网上,我们就可以直接选择区域来计算该区域的建筑物数量:
建筑物的高度推测
建筑高度训练数据主要来自美国和欧洲的特定地区。数据准备方法是:
将高度数据与卫星图像对齐 可能需要将绝对高度转换为相对地面高度 将高度数据转换为栅格格式,与卫星图像像素对应
然后再代入现有的建筑检测模型中,多添加了一个输出头(output head),专门用于预测高度。
预测的高度估算的平均绝对误差为1.5米(真NB,连一层楼的高度都没有)。
相关链接:
论文地址:https://arxiv.org/abs/2310.11622
数据集地址:https://sites.research.google/gr/open-buildings/temporal/
数据集的在线交互地址:https://mmeka-ee.projects.earthengine.app/view/open-buildings-temporal-dataset
数据集官方介绍:https://research.google/blog/open-buildings-25d-temporal-dataset-tracks-building-changes-across-the-global-south/