最新进展 | DCAI-CLUD:以数据为中心的土地利用数据集构建框架

文摘   2024-08-28 10:58   湖北  

摘要


高质量的土地利用数据集对于构建高性能的土地利用分类模型至关重要。由于土地利用的复杂性和空间异质性,数据集的构建过程既低效又昂贵。同时也会影响数据集的质量,进而影响模型的性能。随着以数据为中心的人工智能(Data-Centric Artificial IntelligenceDCAI)这一领域的兴起,有望其能够提供新的解决方案,优化数据集构建过程。因此,本研究提出了一个以数据为中心的土地利用数据集构建框架DCAI-CLUDData-Centric framework for the Construction of Land-Use Datasets)。

研究结果证明,基于该框架构建数据集并训练模型,数据标注的准确率和速率分别提高了5.93% 28.97%、数据集的基尼系数和非混合土地利用类别的样本比例分别提高了 3.27% 8.52%、土地利用分类模型的总体准确度(OA)和 Kappa 显著提高了 27.87% 58.08%。本研究首次将 DCAI 引入地理信息和遥感领域,并验证了其有效性。提出的框架能有效提高数据集的构建效率和质量,同步优化模型性能。基于所提出的框架,我们构建了10万数量级的中国主要城市的多源土地利用数据集 CN-MSLU-100KChina Multi-Source Land-use Dataset)。



01


引言


准确的土地利用分类是城市规划和城市可持续发展的重要基础,可以有效反映区域社会经济贡献,并探索土地利用变化对生态环境的影响。随着深度学习技术和时空地理数据的发展,基于机器学习模型的土地利用分类得到了广泛研究。

构建机器学习模型时,大量时间都花在了准备训练数据上。这些数据的质量直接影响模型的整体性能。因此,高质量的土地利用数据集是构建高性能土地利用分类模型的基础。土地利用数据的特点为数据集构建、数据集质量和模型训练带来了挑战(图1)。土地利用分类包括三个过程:数据采样、数据标注和模型训练。随着全球城市化进程的推进,城市面积不断扩大,土地利用类别也越来越复杂。

1. 构建土地利用分类模型的过程,以及由于土地利用数据的特殊性而面临的挑战

现有的土地利用分类研究很少描述数据集标注的细节。现有的数据标注方法可分为三类:手动、自动和半自动手动标注方法耗时耗力。一些研究引入了一种结合自动模型标注的方法,有效地辅助了数据标注。然而,模型自动生成的标签的正确性取决于模型的性能,因此确保数据集的质量具有挑战性。半自动数据标注可以在数据采集效率和数据质量之间取得平衡。例如,使用机器学习模型对未标注数据进行预测可用于辅助人工标注。然而,如何采用半自动标注方法系统地优化标注过程,提高数据集的效率和质量,仍需进一步研究。

以数据为中心的人工智能(Data-centric Artificial IntelligenceDCAI是人工智能领域的一个新兴概念,受到学术界和产业界的广泛关注。与以模型为中心的人工智能(Model-Centric Artificial IntelligenceMCAI)相比,DCAI 强调数据在人工智能系统中的中心地位。机器学习过程的很大一部分都花在了数据准备上。如果没有高质量的数据,即使是最好的机器学习模型也无法表现出色。

本研究基于 DCAI 的准则优化了土地利用数据集的构建流程,提出了一个以数据为中心的土地利用数据集构建框架DCAI-CLUD。然后从数据标注效率数据集质量模型精度三个方面验证了所提方法在提高数据集质量和模型性能方面的有效性,最终构建了不规则地块尺度土地利用数据集CN-MSLU-100K



02


研究区域与数据


本研究选取中国的 81 个代表城市作为研究区域,在这些区域内选取并构建土地利用样本。这些城市覆盖了中国的所有行政级别,拥有多样化的空间形态、格局和景观,使数据集能够更好地代表中国城市地区。

未标注的地块数据(也称为感兴趣区(Area of InterestAOI))来自中国最大的电子商务公司阿里巴巴,是基于路网数据使用几何算法生成的。本研究还使用了 Zhang 等人(2022 年)制作的中国实际城市区域(China Physical Urban Area,CPUA)数据,以计算城市区域内标注地块的百分比。图2显示了研究区域内四个代表性城市的 CPUA AOI 数据预览。

2. 研究区域覆盖的中国 81个主要城市,以及其中的中国实际城市区域(CPUA)和感兴趣区域(AOI

遥感图像(Remote Sensing ImageryRSI)数据下载自谷歌地球引擎(Google Earth EngineGEE)。POI 数据集主要通过高德开放平台(https://lbs.amap.com/)提供的应用程序接口(API)获取。

地块的土地利用类别被分为五大一级类别和 22 个二级类别。由 56 名标注员组成的小组负责标注工作。在标注过程中,标注者被要求抽查 25% 的数据并相互核对,确保准确率超过 90%。最终,我们共获得了约 100,000 个数据,包括 40,682 个住宅区(Res)、6,286 个公共服务用地(Pub)、6,684 个商业区(Com)、24,498 个工业用地(Ind)和 21,411 个农业和自然用地(Agr)。



03


方法


研究过程包括三个部分(图3):(1DCAI-CLUD的实现,包括一种基于地块位置和大小的样本筛选方法,以及一种"人机协作"式的数据集构建方法;(2DCAI-CLUD 的有效性评价。评估指标包含三个维度:数据标注、数据集和模型;(3)对标注者标注行为进行分析,旨在探索DCAI-CLUD中涉及的标注者主观因素的影响。

3. 研究技术路线。包括DCAI-CLUD 框架、DCAI-CLUD 的有效性评估以及数据标注过程统计

本研究基于所提出的数据集构建方法别构建多个数据集,并使用这些数据集分别训练模型。为了评估数据集和模型的质量,从数据标注效数据集质量模型精度三个维度建立了评价指标体系:

数据集构建效率维度,包括标注结果的准确率 Acc 和标注速度(个每小时) Rate数据集质量维度,包括:(1)样本的类别不均衡程度度由基尼不纯度(基尼系数)Gini 来评估(公式 6)。在公式6中,n表示第 类样本的数量,N 表示所有样本的数量,K 表示类的数量。Gini 值越大,表示数据集中的类别分布越均衡;(2)非混合土地利用类别的样本百分比 Pnm;(3)城市地区地块的占比 Piu。最终对GiniPnmPiu三个指标进行归一化后计算平均值,得出综合得分 Savg。对模型精度的评价指标包括总体准确度(OA)、Kappa系数和混淆矩阵。



04


结果


4.1.   基于地块位置和面积的样本筛选结果

本研究将纯人工标注的原始数据集 Dori 按照所提出按面积筛选方法进行筛选,获得了数据集 Ds,然后使用这两个数据集分别训练得到模型 Mori  Ms 。数据集和模型的评估结果见表1。结果表明,与 Dori 相比,Ds Gini Piu 分别增加了 1.09% 19.26%。与 Mori相比,Ms OA Kappa 分别增加了 4.92% 6.15%

1. 用不同样本过滤方法构建的数据集以及用这些数据集训练的模型的评价指标结果
混淆矩阵(图4)显示,由于样本类别的不平衡,Mori 对不同类别的分类准确率也显得极不平衡。鉴于居住用地样本数量最多,模型倾向于将更多样本预测为居住用地,以确保模型精度。与 Mori 相比,M的样本更多集中在城市地区,并过滤掉了细小和超大地块,使公共服务用地、农业和自然用地和商业区的识别准确率分别提高了17.11%64.27% 79.65%。其中,农业和自然用地的识别准确率提高最为明显。

4在采用不同样本过滤方法构建的数据集上训练的模型的混淆矩阵

进一步地,在Ds的基础上,根据空间位置进行筛选,得到样本Dsl。并训练模型Msl。结果(表1)表明,与D相比,Dsl使GiniPnm Piu 分别增加了 2.97%0.38% 10.65%。与 Dori 相比,这些指标的变化分别为 +4.09%-1.38% +31.95%。在模型训练方面,与 Ms 相比,Msl  OA Kappa 分别增加了 8.24% 20.29%,与 Mori 相比,总计增加了 13.56% 27.69%

混淆矩阵(图4)显示,与 Ms 相比,由于数据集的类别更加均衡,来自城市地区的样本数量增加,Msl  "公共服务用地""商业用地""居住用地" "工业用地 "的识别准确率分别提高了 23.33%154.84%4.93% 12.51%。其中,"商业用地"的识别准确率提高最为明显。

4.2.   基于人机协作的数据集构建结果

为了避免标注者能力差异造成的影响,本研究组织标注者们在同一时期分别采用不使用和使用预标注的方式进行数据标注,得到数据集 Dnp Dp,并用它们来训练模型 Mnp Mp

2 显示,与 Dnp相比,Dp的基尼系数提高了 12.90%,这是因为预标签减少了数据集中的类不平衡。虽然 Mp OA 下降了 5.01%,但与 Mnp相比,其 Kappa 提高了 2.00%。混淆矩阵结果(图5)显示,由于样本的类别不平衡,Mnp对每个类别的识别准确率都显得不平衡,其对 "公共服务用地""农业和自然用地 "以及 "商业区 "的识别准确率均低于 44%。相比之下,随着数据集的类别变得更加均衡,Mp对所有三个类别的识别准确率都提高到了 60% 以上。

2. 用不同标注方法构建的数据集以及用这些数据集训练的模型的评价指数结果

5. 在基于人机协作构建的数据集上训练的模型的混淆矩阵

在对样本进行预标记的基础上,进一步次进入所提出的混合土地利用类别样本过滤方法,从而得到数据集Dpm与模型Mpm。由于过滤了混合类别的样本,Dpm AccRate Pnm 分别比 Dp提高了 5.83%29.41% 18.14%。与 Mp 相比,Mpm OA Kappa 分别提高了 16.10% 24.17%。混淆矩阵结果(图5)显示,与 Mp 相比,Mpm "公共服务用地""农业和自然用地""居住用地 "工业用地的识别准确率分别提高了 28.72%59.14%17.16% 10.27%。其中,"公共服务用地 "农业及自然用地的精度超过 90%。然而,"商业用地的精确度下降了 13.01%19.75% 的样本被误划为 "工业用地"



05


结论


为解决土地利用数据集构建过程中存在的效率低、数据质量差等问题,进而阻碍模型性能的提高,本研究首个将 DCAI 引入土地利用分类研究,提出了一种以数据为中心的数据集构建框架,命名为 DCAI-CLUD。此框架根据地块的大小和位置过滤掉低质量样本,通过人机协作优化数据集和模型。与基线方法相比,使用 DCAI-CLUD 构建的数据集质量得到有效提升,模型的OAKappa也分别显著提高了 27.87% 58.08%

首次将 DCAI 引入地理建模研究是对地理科学的开创性知识贡献。本研究的结果再一次提醒相关研究人员:优化数据集是提高地理模型可用性的一种实用且有价值的方法,未来应进一步研究更多针对地理数据集的分析和优化方法。

这项研究的结果对于地理信息领域的研究人员和从业人员来说具有应用前景。所提出的方法可以帮助他们在短时间内快速获得大量高质量样本,并有效提高地理模型的性能。此外,通过分析标注者的行为特征得出的结论可以帮助管理员改进标注过程。最后,本研究构建的CN-MSLU-100K 数据集为地理科学领域提供了有价值的土地利用数据资源


参考文献

Hao Wu, Zhangwei Jiang, Anning Dong, Ronghui Gao, Xiaoqin Yan, Zhihui Hu, Fengling Mao, Hong Liu, Pengxuan Li, Peng Luo, Zijin Guo, Qingfeng Guan, Yao Yao*. DCAI-CLUD: a data-centric framework for the construction of land-use datasets[J]. International Journal of Geographical Information Science, 2024.


点击推送最下方阅读原文直达UrbanComp团队官网下载论文。

测试数据集和数据说明下载网址:

https://www.urbancomp.net/archives/cn-mslu-100k-land-use-classification-dataset-at-block-scale-for-multi-source-spatio-temporal-data-zh



你可能感兴趣


教学 | 基于多源数据融合的土地利用分类模型

教学 | 手把手教:用兴趣点数据和自然语言处理技术开展土地利用分类

论文 | 融合多模态数据的城市土地利用识别和不确定性分析

论文 | 时序电力数据可以用于城市功能结构识别吗?

论文 | 基于多源大数据和互相关语义信息挖掘的城市功能识别

论文 | 通过时间序列社交媒体数据挖掘中国县域尺度城市功能模式




UrbanComp位置智能和城市感知
中国地质大学(武汉)地理与信息工程学院姚尧老师课题组,UrbanComp@HPSCIL的科研发布公众号。研究方向为地理位置智能、时空数据挖掘和可计算城市科学。团队主页:https://www.urbancomp.net。
 最新文章