【机器学习】Sustainable Cities and Society:应用多种机器学习模型识别城市活力因素并考察其空间依赖性

文摘   2024-11-23 22:13   安徽  

本推文来源:张某仙在学习ing

摘要

COVID-19 的爆发重新引发了关于城市活力及其影响因素的辩论。城市信息化导致生命力的内涵越来越复杂;然而,线性模型难以描述复杂的关系,而机器学习往往会忽略空间异质性。以南京为例,建立了城市信息箱,存储了六大类 71 个指标,并将活力划分为社会、经济、网络空间和文化旅游三个维度。分析变量的空间依赖性衰减规律以构建空间机器学习模型 (SML)。使用梯度提升回归树、随机森林和支持向量回归对关键影响因素的比较和交叉识别进行全面验证。结果表明,1) SML 比普通最小二乘法、空间误差、空间滞后和基本机器学习模型具有更好的拟合优度。2) 空间依赖性通常在 2.5 km² 范围内达到峰值;随后,不同变量的速率以不同的方式衰减。活力依赖于重要的空间依赖性:交通、形态、功能和地理。3) 影响城市活力的关键因素差异显著,仅关注点密度相同。本研究提供了一个可推广的研究框架,通过考虑空间异质性来推进城市研究。识别影响城市活力的因素,为空间优化增强城市活力、促进城市可持续发展提供理论指导。
引言

本研究试图填补该研究领域中发现的空白如下:本研究试图填补该研究领域中发现的空白,如下所示:(1) 更全面地识别活力,并阐明影响城市活力的因素重要性差异。
(2) 提供一种建立研究模块和存储城市信息的方法,可以解决这些错误并适应增加的样本要求;
(3) 分析空间衰减模式并建立可以参与机器学习的空间特征变量;
(4) 一个关键目标是提供一种可推广的方法,说明空间异质性如何参与机器学习到城市研究。

总体而言,在高度信息化的城市背景下,本研究提供了一种考虑机器学习和空间异质性的城市研究方法。Urban Vitality 是从我们方法的众多可能应用中挑选出来的案例研究。以中国南京为研究样本,对活力相关影响因素的重要性进行排名,为提高城市活力、促进人类活动和社会互动、吸引资本和人才的设计提供针对性的指导,所有这些都为城市的可持续发展做出了贡献。


数据与方法

第一步是建立合理有效的基础研究单位。我们优化了使用网格结合元胞自动机(CA)的概念划分研究区域的方法。通过不同大小的网格确定最佳网格尺度,以确保每个基础研究单位内的数据差异尽可能小。所有后续数据计算的结果都使用 GIS 方法放置在这些研究单位中。
其次,我们从社会活力 (SVI)、经济活力 (EVI)、网络空间活力 (CVI) 和文化旅游活力 (CTVI) 四个维度衡量城市活力。我们通过结合不同学者的研究,筛选出形态学、功能、交通、经济学、地理学和人口六类影响因素。利用多源数据的组合,深度挖掘计算了 71 个指标,并将它们与空间上对应的基本单位相匹配。
在第三步中,我们使用空间计量经济学模型 Arbia, 2006) 使用残差进行空间诊断,以分析空间依赖性的衰减过程。这有助于我们在机器学习模型中包括反映空间效应的空间特征变量 (SFV)。最后,我们构建了 3 种类型的机器学习模型来识别影响城市活力的因素,并分析空间依赖性在活力中的作用。


结果

3.1. 变量测试

3.1.1. 相关性

图 4-a 显示了通过 Pearson 相关分析获得的变量之间的线性关系。6 类因素与 4 个维度活力之间的关联程度和方向存在显著差异。活力与楼龄多样性和建筑高度在形态上呈显著正相关,与综合用地利用功能呈最强正相关,在交通中与公交站密度和停车位密度呈最强正相关,与经济中人均消费价格呈最强正相关,在地理上与建筑面积覆盖率呈最显著正相关,与 NVDI 呈最显著负相关类别。有关详细信息,请参阅补充表 S2。


3.1.2. 共线性和显著性

单因素回归分析的变量显著性如图 4-b 所示。住宅-生活服务双重功能土地利用和住宅-娱乐双重功能土地利用对所有响应变量均不显著 (p > 0.05),而所有其他因素至少在两个活力维度上都显著 (p < 0.05)。根据共线性测试结果,总共确定 9 个变量为共线 (VIF>10),见补充表 S3&S4。因此,我们将这些变量从输入变量中排除,以便进行后续的模型构建,最终确定的输入变量总数为 60,如补充表 S5 所示。SVI、EVI、CVI 和 CTVI 的回归分析显示,所有四个变量的 VIF 都小于 10,p 值< 0.05。这表明,对生命力进行多维度的多指标表征是必要的,并且生命力的不同维度都显著地相互影响。

3.2  空间诊断

图 5.分层聚类结果。(a) 社会活力聚类图和六大类影响因子;(b) 每个聚类中每个形态类别影响因子的分布;(c) 每个运输类别的影响因子跨集群的分布;(d) 每个种群类别的影响因子跨集群的分布。

图 8.模型 R² 分数比较:SVI、社会活力;EVI,经济活力;CVI,网络空间活力;CTVI,文旅活力。

图 9.OLS 要素变量的重要性排名。筛选规则是大于 0.01 的重要性因子。

BML (Basic machine-learning model)描述了城市活力与各种因素之间的非线性关系,而不考虑空间异质性。所有 BML 模型的 R² 分数都优于 OLS。图 10 说明了 BML 特征变量的重要性排序。SVI (Social vitality)通过非线性关系更多地受到交通类别因素的影响,其中 POI 密度表现出最大的影响,其次是建筑年龄多样性指数。对于 EVI(Economic vitality) 来说,最重要的因素是建筑密度,其次是公交站密度和车道可达性。在非线性关系描述中,大量运输类别因子对 CVI (Cyberspace vitality)很重要。POI 密度的重要性得分远大于其他因素,是影响 CVI 的最重要因素。CTVI 筛查产生 30 个因子,与 OLS 相比,数量显著增加。与 CVI 类似,POI 密度比其他因素重要得多。

图 10.无空间滞后项的非线性模型特征变量的重要性排序。筛选规则是大于 0.01 的重要性因子。后缀为 “_lag” 的特征变量是相应影响因子的空间特征变量。

3.4.2. 考虑空间异质性的模型结果

SLM (Spatial machine-learning model)模型考虑了空间异质性,远优于所有 OLS 模型;然而,它的 R² 分数在所有维度上都没有优于 BML (Basic machine-learning model)模型,如图 8 所示。这意味着,尽管线性关系在考虑空间异质性后可以更好地预测活力,但它仍然不能准确描述复杂关系。我们在 SLM(Spatial lag model) 回归模型中筛选了显著性大于 0.05 的因素,并根据各种系数对它们进行了排名,如图 11 所示。对于 SVI,它类似于 OLS 结果,其中功能因子代表了大多数重要因子,并且所有六类因子都参与了 SVI (Social vitality)的预测。混合站点、无办公室的混合三功能站点、人均消费价格、POI 密度和公交站密度对 SVI 有显著影响EVI(Economic vitality)  筛选产生了 24 个因素,其中最重要的是人均消费价格,其次是住宅用地、混合土地利用和公交站密度。地理类别在 CVI (Cyberspace vitality)预测中不显著。该系统中相对重要的因素包括无办公室的混合土地利用、POI 密度、人类住区足迹、最大建筑高度和公交车站密度。CTVI 筛查仅显示功能类别中的 3 个因素。

图 11.没有空间滞后项的线性模型特征变量的重要性排序。筛选规则是大于 0.01 的重要性因子。后缀为 “_lag” 的特征变量是相应影响因子的空间特征变量。

SML 模型是一种考虑空间异质性的非线性模型,在活力预测的所有四个维度中均具有最高的 R² 分数。与 BML (Basic machine-learning model) 不同,在添加 SFV 后,非线性模型预测活力的能力在活力的所有维度上都超过了 SLM。SVI 筛选的结果进一步减少到 6 个特征变量。存在三个类别 - 形态学、功能和经济 - 其中 5 个因素是 SFV,唯一的非 SFV (Spatial feature variables)是 POI 密度。尽管如此,SFV 对 POI 密度的重要性仍然高于 POI 密度的常规特征变量。最大建筑高度成为最重要的因素,平均建筑高度、平均房价和建筑密度也包括在内。对于 EVI (Economic vitality),筛选了 11 个特征变量,不存在地理因素。总体而言,其中 8 个变量是 SFV(Spatial feature variables),重要性较高的因素主要集中在运输和形态上。最大建筑高度是最重要的,其次是建筑密度。与 SVI 相比,EVI (Economic vitality)的形成需要由运输因素驱动。对于 CVI(Cyberspace vitality),筛选范围缩小到 7 个因素,包括四类:形态学、功能学、经济学和地理学有两个 SFV(Spatial feature variables),都属于地理类别。POI 密度对 CVI (Cyberspace vitality)最为重要。对于 CTVI(Cultural-tourism vitality),筛选产生了涵盖所有类别的 19 个变量,其中包含 5 个 SFV。这比 SLM (Spatial machine-learning model)结果复杂得多,并且与 OLS 相比 BML 的结果相似。有六个运输因素。与 CTVI 相关的人类活动更注重目标导向,关注目的地在其自身小尺度空间内的功能和自然资源丰富性,而交通决定了文化和旅游目的地的便利性和可达性,这是 CTVI 形成的前提。有关每个系统的具体排名,请参见图 12

图 12.SFV 中非线性模型特征变量的重要性排序。筛选规则是大于 0.01 的重要性因子。后缀为 “_lag” 的特征变量是相应影响因子的空间特征变量。

如图 13 所示,我们获得了四个活力维度的 SML 模型结果,比较了常规特征变量 (RFV) 和 SFV 的频率。筛选 SML 模型,共得到 21 个因子。其中有 16 个 RFV 和 15 个 SFV。涉及六类因素:形态学(3 个 RFV,3 个 SFV)、功能(1 个 RFV,2 个 SFV)、交通(7 个 RFV,4 个 SFV)、经济(2 个 RFV,2 个 SFV)、人口(1 个 RFV,1 个 SFV)和地理(2 个 RFV,3 个 SFV)。由此可见,每类因素的空间异质性都会对城市活力产生影响。在 21 个因素中,建筑密度和 POI 密度的组合频率最高。

图 13.SML 筛查结果中 SFV 与 RFV 的频率。

3.4.3. 主要影响因素

为了确保在研究空间异质性时考虑因素和活力之间的简单线性和复杂非线性关系,我们研究了 SLM 和 SML 模型结果的交集,如表 3 所示。显示了影响城市活力各个方面的关键因素。本表结果可为针对性增强活力策略提供参考。

讨论



GISer last
GISer last 公众号 主要以分享互联网数据资源为主。也分享过GIS、FME等技术教程方法。我个人对于大数据资源、可视化制作、地图制图等方面有很大兴趣,也会分享个人的一些应用和教程。
 最新文章