01
数据集介绍
数据标注过程与结果
CN-MSLU-100K是地块(或称社区、AOI)尺度的多级土地利用分类数据集,覆盖区域包括中国81个主要城市 (Zhang et al. 2022) ,研究区域总面积为983,215平方千米。由于这些城市具有不同的空间形态、格局和景观,因此数据集可以较好的描述中国城市的遥感景观,具有代表性。
CN-MSLU-100K数据说明书请点击推送最下方阅读原文,转到UrbanComp官网下载。
在标注任务准备阶段,为了适配地块(社区、AOI)尺度,我们集成了阿里内部的iTAG智能标注平台、宜搭平台和DataStudio平台,开发了AliLBS-CUG多源时空数据人机协作标注平台。
在数据标注阶段,我们基于Data Centric思想提出了一种人机协作的数据集构建框架。在该框架中,数据标注过程由人类专家和机器共同完成,目标是通过迭代来提升数据集的质量和模型的表现。这一框架的详细内容将会在我们即将发表的论文中进行全面阐述,敬请期待。
在数据验证阶段,我们采用了交叉检验方法,将不同志愿者之间的25%的数据用于验证,保证准确率范围在90%至95%之间。最终,我们得到了116,121条数据,其中包括居住用地44,588条、公共服务8,184条、商业服务9,065条、工业用地27,529条和农业与自然用地26,755条。
合作方
强大的云计算支持:阿里云作为阿里巴巴控股集团旗下的云计算平台,为处理大规模数据集和复杂算法提供了强大的计算能力,提供了高性能计算支持。
高精度测绘地图信息支持:阿里巴巴控股集团旗下的高德集团是全球领先的数字地图服务提供商之一。他们提供了高精度的测绘地图信息,为数据集标注提供了准确的地理位置和地理特征信息。
数据中台与行业前沿算法支持:阿里巴巴控股集团的数据中台(现经过业务拆解,被划分为爱橙科技等部门)是一个集数据管理、数据应用和数据服务于一体的平台,集成丰富的数据资源和数据服务。为本研究提供合作的的LBS团队在人工智能和机器学习领域拥有丰富的经验和技术实力,包括图像识别、自然语言处理等方面,为研究工作提供了有力支持。
此外,我们还要格外感谢岐伟所带领的LBS团队的每一位成员,他们的专业知识、耐心指导和帮助对我们的研究工作起到了至关重要的作用,我们对他们的支持深表感激!
测试集说明与下载地址
为了使大家更好地了解数据集的特点和适用性,我们决定开放一部分测试数据供大家使用。我们从每个类别中选择了部分数据作为测试数据集,并将其命名为CN-MSLU-DEMO-1K和10K。现在CN-MSLU-DEMO-1K完全开放供各位老师和同学使用!
DEMO-1K下载地址:
https://urbancomp.oss-cn-hangzhou.aliyuncs.com/CN-MSLU-DEMO-10K.zip
10K数据集的解压密码请在本微信公众号(UrbanComp位置智能和城市感知)发送“MSLU-10K密码”获取。
反馈与交流
我们欢迎您对研究的建议和交流!
若需要完整版数据进行研究,请联系项目负责人姚尧老师( yaoy@cug.edu.cn )。
02
基于DCAI思想的标注平台
AliLBS-CUG标注平台只是一个开始,未来的研究会对基于DCAI的平台进行进一步的研究,敬请期待!
03
感谢名单
我们从地质大学(武汉)的地理信息等相关专业召集了56名志愿者同学参与标注工作。在此,我们衷心感谢每一位志愿者同学的辛勤付出!
曾城泷 | 戴良洋 | 董安宁 | 樊明 |
范云鹏 | 冯羽彤 | 高荣徽 | 郭延铎 |
郭子豪 | 郭紫锦 | 韩佳澎 | 韩葳奇 |
胡志辉 | 胡子敬 | 黄坤 | 姜家政 |
江瑛 | 李贵程 | 李昊然 | 李建锋 |
李锦鲜 | 李思宇 | 梁琳 | 刘航甫 |
刘佳耀 | 刘宇骁 | 马跃恒 | 裘嘉楠 |
冉耘博 | 任斐然 | 尚青欣 | 汪玉笳 |
王斌 | 王慧纹 | 王芊卓 | 王兆歆 |
尉锐 | 武浩 | 夏迎兵 | 肖诗宇 |
熊凯路 | 徐苏琪 | 徐争 | 薛晨阳 |
杨明斯 | 喻承龙 | 张凯楠 | 张翔 |
赵传成 | 赵业博 | 周文海 | 周宇航 |
朱坤坤 | 朱恰 | 祝翰林 | 卓星语 |
04
参考文献
Wu, H., Jiang, Z., Dong, A., Gao, R., Yan, X., Hu, Z., … Yao, Y. (2024). DCAI-CLUD: a data-centric framework for the construction of land-use datasets. International Journal of Geographical Information Science, 1–24.
本论文推送点击这里。