摘要
高质量的土地利用数据集对于构建高性能的土地利用分类模型至关重要。由于土地利用的复杂性和空间异质性,数据集的构建过程既低效又昂贵。同时也会影响数据集的质量,进而影响模型的性能。随着以数据为中心的人工智能(Data-Centric Artificial Intelligence,DCAI)这一领域的兴起,有望其能够提供新的解决方案,优化数据集构建过程。因此,本研究提出了一个以数据为中心的土地利用数据集构建框架DCAI-CLUD(Data-Centric framework for the Construction of Land-Use Datasets)。
研究结果证明,基于该框架构建数据集并训练模型,数据标注的准确率和速率分别提高了5.93% 和 28.97%、数据集的基尼系数和非混合土地利用类别的样本比例分别提高了 3.27% 和 8.52%、土地利用分类模型的总体准确度(OA)和 Kappa 显著提高了 27.87% 和 58.08%。本研究首次将 DCAI 引入地理信息和遥感领域,并验证了其有效性。提出的框架能有效提高数据集的构建效率和质量,同步优化模型性能。基于所提出的框架,我们构建了10万数量级的中国主要城市的多源土地利用数据集 CN-MSLU-100K(China Multi-Source Land-use Dataset)。
01
引言
准确的土地利用分类是城市规划和城市可持续发展的重要基础,可以有效反映区域社会经济贡献,并探索土地利用变化对生态环境的影响。随着深度学习技术和时空地理数据的发展,基于机器学习模型的土地利用分类得到了广泛研究。
现有的土地利用分类研究很少描述数据集标注的细节。现有的数据标注方法可分为三类:手动、自动和半自动。手动标注方法耗时耗力。一些研究引入了一种结合自动模型标注的方法,有效地辅助了数据标注。然而,模型自动生成的标签的正确性取决于模型的性能,因此确保数据集的质量具有挑战性。半自动数据标注可以在数据采集效率和数据质量之间取得平衡。例如,使用机器学习模型对未标注数据进行预测可用于辅助人工标注。然而,如何采用半自动标注方法系统地优化标注过程,提高数据集的效率和质量,仍需进一步研究。
以数据为中心的人工智能(Data-centric Artificial Intelligence,DCAI)是人工智能领域的一个新兴概念,受到学术界和产业界的广泛关注。与以模型为中心的人工智能(Model-Centric Artificial Intelligence,MCAI)相比,DCAI 强调数据在人工智能系统中的中心地位。机器学习过程的很大一部分都花在了数据准备上。如果没有高质量的数据,即使是最好的机器学习模型也无法表现出色。
本研究基于 DCAI 的准则优化了土地利用数据集的构建流程,提出了一个以数据为中心的土地利用数据集构建框架DCAI-CLUD。然后从数据标注效率、数据集质量和模型精度三个方面验证了所提方法在提高数据集质量和模型性能方面的有效性,最终构建了不规则地块尺度土地利用数据集CN-MSLU-100K。
02
研究区域与数据
本研究选取中国的 81 个代表城市作为研究区域,在这些区域内选取并构建土地利用样本。这些城市覆盖了中国的所有行政级别,拥有多样化的空间形态、格局和景观,使数据集能够更好地代表中国城市地区。
图2. 研究区域覆盖的中国 81个主要城市,以及其中的中国实际城市区域(CPUA)和感兴趣区域(AOI)
遥感图像(Remote Sensing Imagery,RSI)数据下载自谷歌地球引擎(Google Earth Engine,GEE)。POI 数据集主要通过高德开放平台(https://lbs.amap.com/)提供的应用程序接口(API)获取。
地块的土地利用类别被分为五大一级类别和 22 个二级类别。由 56 名标注员组成的小组负责标注工作。在标注过程中,标注者被要求抽查 25% 的数据并相互核对,确保准确率超过 90%。最终,我们共获得了约 100,000 个数据,包括 40,682 个住宅区(Res)、6,286 个公共服务用地(Pub)、6,684 个商业区(Com)、24,498 个工业用地(Ind)和 21,411 个农业和自然用地(Agr)。
03
方法
本研究基于所提出的数据集构建方法别构建多个数据集,并使用这些数据集分别训练模型。为了评估数据集和模型的质量,从数据标注效率、数据集质量和模型精度三个维度建立了评价指标体系:
数据集构建效率维度,包括标注结果的准确率 Acc 和标注速度(个每小时) Rate。数据集质量维度,包括:(1)样本的类别不均衡程度度由基尼不纯度(基尼系数)Gini 来评估(公式 6)。在公式6中,ni 表示第 i 类样本的数量,N 表示所有样本的数量,K 表示类的数量。Gini 值越大,表示数据集中的类别分布越均衡;(2)非混合土地利用类别的样本百分比 Pnm;(3)城市地区地块的占比 Piu。最终对Gini、Pnm和Piu三个指标进行归一化后计算平均值,得出综合得分 Savg。对模型精度的评价指标包括总体准确度(OA)、Kappa系数和混淆矩阵。
04
结果
4.1. 基于地块位置和面积的样本筛选结果
本研究将纯人工标注的原始数据集 Dori 按照所提出按面积筛选方法进行筛选,获得了数据集 Ds,然后使用这两个数据集分别训练得到模型 Mori 和 Ms 。数据集和模型的评估结果见表1。结果表明,与 Dori 相比,Ds的 Gini 和 Piu 分别增加了 1.09% 和 19.26%。与 Mori相比,Ms的 OA 和 Kappa 分别增加了 4.92% 和 6.15%。
图4. 在采用不同样本过滤方法构建的数据集上训练的模型的混淆矩阵
进一步地,在Ds的基础上,根据空间位置进行筛选,得到样本Dsl。并训练模型Msl。结果(表1)表明,与D相比,Dsl使Gini、Pnm和 Piu 分别增加了 2.97%、0.38% 和 10.65%。与 Dori 相比,这些指标的变化分别为 +4.09%、-1.38% 和 +31.95%。在模型训练方面,与 Ms 相比,Msl 的 OA 和 Kappa 分别增加了 8.24% 和 20.29%,与 Mori 相比,总计增加了 13.56% 和 27.69%。
4.2. 基于人机协作的数据集构建结果
为了避免标注者能力差异造成的影响,本研究组织标注者们在同一时期分别采用不使用和使用预标注的方式进行数据标注,得到数据集 Dnp 和 Dp,并用它们来训练模型 Mnp 和 Mp。
在对样本进行预标记的基础上,进一步次进入所提出的混合土地利用类别样本过滤方法,从而得到数据集Dpm与模型Mpm。由于过滤了混合类别的样本,Dpm的 Acc、Rate和 Pnm 分别比 Dp提高了 5.83%、29.41% 和 18.14%。与 Mp 相比,Mpm的 OA 和 Kappa 分别提高了 16.10% 和 24.17%。混淆矩阵结果(图5)显示,与 Mp 相比,Mpm对 "公共服务用地"、"农业和自然用地"、"居住用地" 和 "工业用地" 的识别准确率分别提高了 28.72%、59.14%、17.16% 和 10.27%。其中,"公共服务用地" 和 "农业及自然用地" 的精度超过 90%。然而,"商业用地" 的精确度下降了 13.01%,19.75% 的样本被误划为 "工业用地"。
05
结论
为解决土地利用数据集构建过程中存在的效率低、数据质量差等问题,进而阻碍模型性能的提高,本研究首个将 DCAI 引入土地利用分类研究,提出了一种以数据为中心的数据集构建框架,命名为 DCAI-CLUD。此框架根据地块的大小和位置过滤掉低质量样本,通过人机协作优化数据集和模型。与基线方法相比,使用 DCAI-CLUD 构建的数据集质量得到有效提升,模型的OA和Kappa也分别显著提高了 27.87% 和 58.08%。
首次将 DCAI 引入地理建模研究是对地理科学的开创性知识贡献。本研究的结果再一次提醒相关研究人员:优化数据集是提高地理模型可用性的一种实用且有价值的方法,未来应进一步研究更多针对地理数据集的分析和优化方法。
这项研究的结果对于地理信息领域的研究人员和从业人员来说具有应用前景。所提出的方法可以帮助他们在短时间内快速获得大量高质量样本,并有效提高地理模型的性能。此外,通过分析标注者的行为特征得出的结论可以帮助管理员改进标注过程。最后,本研究构建的CN-MSLU-100K 数据集为地理科学领域提供了有价值的土地利用数据资源。
测试数据集和数据说明下载网址:
教学 | 手把手教:用兴趣点数据和自然语言处理技术开展土地利用分类
论文 | 通过时间序列社交媒体数据挖掘中国县域尺度城市功能模式