【论文分享】基于可解释机器学习的城市密度与多种健康风险之间的关联：美国城市社区研究

文摘 2024-11-29 12:05 上海

一直以来，关于城市密度与健康风险之间的关系，学界内存在不同的观点。本次我们给大家带来一篇SCI论文的全文翻译。该论文运用可解释机器学习的方法，来理解城市密度和健康风险之间的复杂关联，有助于回答城市密度与健康风险之间的关系和机制问题。

-----------欢迎大家关注公众号----------

【论文题目】

The association between urban density and multiple health risks based on interpretable machine learning: A study of American urban communities

【题目翻译】

基于可解释机器学习的城市密度与多种健康风险之间的关联：美国城市社区研究

【期刊信息】

Cities, Volume 153, October 2024, 105170

【作者信息】

Zerun Liu，纽约大学坦登工程学院，:zl3280@nyu.edu；

Chao Liu，同济大学建筑与城市规划学院城市规划系，liuchao1020@gmail.com。

【论文链接】

https://doi.org/10.1016/j.cities.2024.105170

【关键词】

城市密度、可解释机器学习、公共卫生、建成环境、慢性病、人口密度。

【摘要】

随着城市的日益复杂，城市已成为前所未有的复杂系统。本文旨在开发可解释的机器学习(ML)方法来解开复杂的关联。在对美国城市社区的案例研究中，我们应用可解释的机器学习方法，识别城市密度与多种健康风险之间的关系。我们从人口、建成环境和活动三个维度定义城市密度，并根据身体疾病、心理疾病和健康负担的分类来衡量多种健康风险。首先，我们进行聚类分析，以控制社会经济变量并选择研究样本。接着，我们构建多个机器学习模型，包括多元线性回归、决策树、随机森林和极端梯度提升。我们采用可解释的方法来解析模型，如特征重要性、部分依赖图、个体条件期望和夏普利加性解释，以识别重要因素、非线性关系以及变量之间的交互作用。结果显示，可解释的机器学习方法在效率和透明度方面具有明显优势。我们的研究发现，城市密度与多种健康风险之间的关系非常复杂。各种健康风险之间的相似性和差异性提供了关于关键因素、阈值和病理特征的宝贵证据，可以指导城市的健康和可持续发展。

【前言】

随着全球城市人口的不断增加，城市密度最近引起了广泛关注。一般而言，城市密度是指在城市特定区域内人、建筑和活动的集中程度。城市密度体现了城市空间的物理和文化特征，并在经济和社会中具有重要意义，是量化和衡量城市的有效工具（Bettencourt et al., 2007）。然而，关于城市密度的一个争议性讨论在于，尽管高密度有助于提高效率、多样性以及促进资源共享，但城市的紧凑性却可能降低个体生活质量，因为这会导致疾病、污染和犯罪的增加（Glaeser et al., 2001; Pan et al., 2013）。最近的研究，尤其是在疫情期间的研究，加剧了这一矛盾。证据表明，尽管密集的城市地区拥有更好的医疗条件和基础设施系统，但其高活动强度、频繁的人际流动和紧密的社会接触却导致病例的迅速激增。然而，目前尚没有统一且令人信服的研究来说明城市密度的机制和规律。

事实上，关于城市密度影响的辩论自城市诞生之初就已经存在。作为城市化的产物，空间密度的概念源于城市诞生以来的聚集属性。最初，密集的城市中心是创新和财富集中的关键，促进了从农村到城市社会的转变（Becker et al., 1999; Bettencourt & West, 2010; Bettencourt et al., 2007; Milgram, 1974）。然而，工业革命带来了人口的快速增长和密集的、常常不健康的生活条件，突显了控制城市发展的必要性。这导致了1848年公共卫生法的出台，标志着政府管理城市规划的开始（Townshend & Lake, 2009）。19世纪和20世纪见证了现代城市规划的兴起，以及由埃比尼泽·霍华德提出的田园城市运动，旨在平衡城市设施与绿地，以应对城市蔓延（Howard, 1902）。这一运动强调了控制城市蔓延和管理城市密度的重要性。进入21世纪，城市化和全球化的加剧带来了新挑战，要求在确保宜居性、效率和可持续性的同时，妥善应对城市的增长。然而，目前对现代城市中城市密度的角色以及如何适当地引导密集城市区域的发展，仍然缺乏明确和一致的结论。

在物理学、经济学、社会学、地理学、建筑学和城市规划等多个领域，密度的概念具有重要意义。其定义因领域而异，这种变化在城市研究中尤为明显，其含义可能存在显著差异。广义上，密度涵盖了社会互动、经济活动、能量流动、生态环境、文化、历史等多方面的整合。从狭义上说，特别是从城市规划和建设的实践角度来看，城市密度通常指人口密度和建筑密度，这些通常与土地利用、可达性、道路网络等一同讨论（Carlino et al., 2007; Dovey & Pafka, 2014）。最近的研究揭示了社会关系密度和人口密度如何影响城市中创意的高效产生和生产力的提升（Pan et al., 2013）。越来越多的学者关注网络内部的互动和人类流动的空间聚集（Gonzalez et al., 2008; Levinson, 2012; Louf & Barthelemy, 2014; Simini et al., 2012）。亟需一个通用模型来解释覆盖人口、建成环境和流动性的密度如何与城市发展相关，从财富和创新到犯罪和疾病。因此，在本研究中，我们从三个方面衡量城市密度：人口密度（单位空间如区域和房间内的人口分布强度）、建成环境密度（城市空间的开发强度）和活动密度（活动和设施的空间分布强度）。综合考虑这些方面，我们能够全面衡量和理解城市。

在关于城市密度的广泛研究中，关注健康风险的研究尤为引人注目。健康风险被定义为不良健康结果的概率，涵盖了可能对个体身心健康造成危害的广泛因素（WHO, 2009）。一般而言，健康风险可分为三类：（1）身体疾病，包括慢性病如心脏病、癌症和糖尿病，以及流感和艾滋病等传染病；（2）心理疾病，包括抑郁症和精神分裂症；（3）健康负担，指显著的公共卫生危害，增加患上多种疾病的概率，如肥胖、睡眠不足、焦虑、吸烟和饮酒。已有文献证明，健康风险可以源自多种因素，包括遗传易感性、环境因素、社会经济条件、生活方式和行为。显然，城市密度与所有这些方面密切相关，因此有必要调查和解释其与多种健康风险的关联。

然而，关于城市密度与健康风险之间的关系，存在不同的观点。一些研究得出结论，密集的城市地区可能因为资源有限和空间拥挤而导致健康问题。另一些研究则认为，城市内部的密度能够带来更多的生活便利和丰富的设施，从而改善健康和医疗保健。此外，许多研究者认为这种关系是复杂的或非线性的。然而，尚未有统一明确的结论来描述城市密度与健康风险之间的关联。因此，在本研究中，我们旨在识别城市密度与多种健康风险之间的复杂关系。利用可解释的机器学习，我们衡量多维度的城市密度，并比较其与各种健康风险的关联，从而全面洞察城市密度与健康风险的关系。所采用的可解释机器学习方法对于检测复杂和非线性关系具有重要价值，适用于其他旨在揭示非线性关系的研究工作。

本研究从以下几个方面为以往的理论和文献做出了贡献：研究结果将拓宽不同健康风险之间的比较，深化对城市密度的理解；所采用的方法将促进可解释机器学习的发展及其应用；方法的创新在于将这些模型应用于独特剖析和阐明不同维度的城市密度对健康的影响。这一应用提供了对推进城市健康研究和实践至关重要的见解。总体而言，我们的研究将有助于城市地区健康问题的方法论和知识的进展，并支持城市密度控制实践，从而促进城市的健康、宜居和可持续发展。

研究流程如图1所示。在以美国为基础的案例研究中，我们在普查区层级探索各种健康风险。借助e K-means聚类算法，通过分组选择研究样本以控制社会经济因素。为了识别密度指标与多种健康风险之间的非线性关联，我们为选定样本构建了多个机器学习模型，包括多元线性回归（MLR）、决策树（DT）、随机森林（RF）和极端梯度提升树（XGBoost）。然后，我们在全球和局部尺度上采用可解释的方法来揭示影响密度测量的关键因素，描述其复杂的关系，并了解不同因素之间的相互作用。该案例研究的结果提供了关于不同健康风险比较、城市密度潜在机制以及可解释机器学习适用方法的初步结论。

本文的组织结构如下：第2节回顾了城市密度及其与各种健康风险的关联文献。第3节描述了本研究中使用的方法论和数据，包括数据处理的详细信息。第4节展示了案例研究的结果，借助可解释的机器学习分析，我们阐明了关键驱动因素，描述了非线性关系，识别了关键阈值，并揭示了各种特征之间的交互作用。在第5节中，我们讨论了这些分析的主要发现，探讨潜在的深层原因。最后，第6节总结了我们的假设和本研究的贡献。

图1. 研究流程

【文献综述】

为了有效比较现有文献，我们根据多样性和全面性的原则选择了几项关键研究，涵盖了不同类型的健康风险、地区和方法论。表1总结了这些研究，重点突出了研究地区、健康结果、密度因素、方法论、主要发现以及城市密度与健康风险之间的关联。尽管在不同健康风险方面取得了许多前沿发现，但仍缺乏普遍一致的结论。结果各异，显示出正向、负向、非线性、超线性和多维的关系。这种差异可能归因于健康风险类型、地理区域、假设关系和方法论的不同。

首先，不同国家和地区的多种健康风险产生了不同的结果。对于慢性疾病，许多学者已揭示密度因素的显著影响，特别是人口密度。对于典型的慢性疾病，包括心脏病、高血压、糖尿病，也得出了类似的结论，即人口密度的增加会导致发病率的降低（Griffin et al., 2013; Konishi et al., 2020）。然而，一些研究在密集城市地区得出了相反的结论（Li et al., 2022; Yang & Hsieh, 1998），指出环境因素对这些疾病有累积效应。在传染病方面，人口密度和POI密度在发病率和死亡率中起着主导作用。传染病的爆发通常在密集人口区域更早发生。但结论较为复杂，不同地区和案例之间存在显著差异（Yip et al., 2021; Li, Peng, et al., 2021; Hu et al., 2021; Zhang, 2020; Mollalo Z. Liu and C. Liu et al., 2020）。关于心理疾病，开放空间和人口密度受到越来越多的关注，这些被证明是影响人们对环境的感受的重要因素（Gruebner et al., 2017; Melis et al., 2015）。对于典型的健康负担，如肥胖、焦虑和睡眠减少，大多数研究表明，人口密度、开放空间和社区内的人群密集程度显著影响了城市居民的行为，导致复合的累积健康结果（Ewing et al., 2003; Lopez, 2007; Rundle et al., 2007）。显然，大多数研究仅关注某些特定的健康风险，鲜有对各种健康风险进行全面研究的案例。来自不同地区的多种健康风险的研究结果相对混乱，缺乏全面比较和清晰线索。因此，有必要在同一地区对各种类型的健康风险进行综合比较研究。

尽管现有研究认为城市密度因素与健康风险之间的关系是多面的，并因地区而异，但已有三种主要假设描述了城市密度与健康结果之间的关联：（1）正线性关系，表明城市密度的增加与健康风险的上升相关，而较低的密度则与较少的健康问题相关；（2）负线性关系，意味着较高的城市密度可以降低健康风险，而较低的密度可能会增加健康风险；（3）非线性关系，指非常低和非常高的城市密度都可能对健康产生负面影响。历史上，研究主要集中于线性关系，忽视了城市密度对健康影响的复杂性。最近的研究，特别是在中国，探讨肥胖和步行便利性的问题（Lu et al., 2017; Yin et al., 2022），提倡采用非线性视角。然而，关于这些关系的深入理解仍然存在空白，尤其是在解释机制和相互作用方面。本研究旨在填补这一空白，增强我们对城市密度与健康风险之间微妙关系的理解。

阻碍以往研究深入探索模型机制和复杂关联的最大挑战之一是方法论。大量的数据、多样的数据结构和因素之间的复杂关系超出了传统方法的处理能力。一般统计方法如相关分析和空间分析无法有效处理多个来源的数据，也无法揭示非线性关系。机器学习的出现使得处理大规模和多样化的数据成为可能，并能够在复杂结构中检测出意想不到的规律。然而，在这种黑盒模型中解释决策过程的困难成为人们对机器学习方法的主要抱怨之一。为了克服这一缺点，提高黑箱模型的透明度，在相关应用中引入了可解释方法。

可解释机器学习方法，也称为解释性算法，旨在将复杂计算模型转化为人类可理解的格式（Bi et al., 2020; Molnar, 2022）。根据解释发生的不同阶段，可解释性可以分为可解释模型和针对不可解释模型的后解释方法（Molnar, 2022）。常见的可解释模型，也称为白箱模型，主要包括线性回归、逻辑回归、规则拟合、朴素贝叶斯和K近邻。由于这些模型背后的算法相对简单，决策过程可以轻松识别。然而，其他黑箱模型如集成学习和神经网络则过于复杂，难以用简单语言描述。因此，需要额外的方法来展示复杂模型中的特定层次。针对这些黑箱模型设计了两类可解释方法：全局模型无关方法和局部模型无关方法（Molnar, 2022）。全局可解释性关注所有可能的输入和输出及其之间的关系，从而解释全局视角。局部可解释性则集中于对特定样本的理解，即更个性化、独特和局部的视角。排列特征重要性（Permuted feature importance）、部分依赖图（partial dependence plot，PDP）、个体条件期望（individual conditional expectation，ICE）和全局代理模型（individual conditional expectation）被广泛用于全局解释。至于局部可解释性，模型无关的局部解释（local interpretable model-agnostic explanations ，LIME）和夏普利加性解释（SHAP）在一般研究中最为流行。上述可解释方法已应用于多个领域，包括交通、医学、临床诊断、疾病预测和环境检测，通常与集成树算法结合使用。考虑到不同解释方法的优缺点，综合使用多种方法可能是进行全面研究的最佳选择。

总体而言，大多数现有研究仅关注特定健康问题，并对城市密度与健康风险之间的关联得出不一致的结论。在多种健康风险的综合研究和对复杂关系的解释方面存在研究空白。本研究旨在利用先进的可解释机器学习方法和多来源数据填补这些研究空白。它利用可解释的机器学习技术揭示城市密度与各种健康风险之间的复杂关联，特别关注美国大都市区的案例研究。研究结果可以帮助城市规划者和决策者揭示城市密度机制的更多细节，从而促进可持续和健康的发展。最终，本研究能够扩展城市密度和公共健康领域的理论与实证研究。

表1. 相关研究方法综述

【方法和数据】

3.1 数据和变量

我们在美国本土的普查区层面收集数据，阿拉斯加州和夏威夷州被排除在外，因为它们独特的环境条件和人口动态与大陆州不符。普查区是为进行普查而设计的，通常具有相对一致的人口规模、特征和生活环境，这对进行密度研究非常有利。此外，作为最小的地理实体，普查区能够提供大量关于人口、环境、经济和公共健康的数据。本研究共收集了超过700,000个普查区的数据。

在本研究中，我们从政府、开放平台和社会组织收集了健康风险、城市密度和社会经济数据的多个数据集。根据健康风险的不同类别，我们关注七个最具影响力的案例：冠心病（CHD）、癌症（皮肤癌除外）、糖尿病、流行性哮喘、COVID-19、肥胖、睡眠减少和心理健康问题。COVID-19数据由约翰斯·霍普金斯大学（JHU）发布，并在一个COVID-19数据项目中收集（Dong et al., 2020）。其他健康数据则来自2018年由疾病控制与预防中心（CDC）和罗伯特·伍德·约翰逊基金会（RWJF）资助的PLACE项目（Centers for Disease Control and Prevention, 2016-2022）。

为了涵盖人口密度、建成环境密度和活动密度三个维度，我们结合2010年普查与2014-2018年美国社区调查（ACS）收集人口数据，从国家土地覆盖数据库（NLCD）总结建成环境数据（Philippa Clarke, 2001-2016），并基于开放街景（OSM）中的兴趣点（POI）数据计算活动密度（Foundation: Cambridge, 2020）。我们通过熵方法综合多维度密度因素来计算综合城市密度指标。此外，我们还从年龄、贫困、收入和少数群体的角度监测社会经济数据，这些数据来自疾病控制与预防中心提供的有毒物质和疾病登记处（ATSDR）社会脆弱性指数（SVI）数据库（Geospatial Research, 2021）。所有数据及相应变量列在表2中。

表2. 变量和数据源汇总

3.2 研究区域选择

为了控制社会经济变量，专注于密度因素的影响，我们采用分组方法进行样本选择。聚类分析是一种无监督的模式识别技术，可以有效地将目标分为同质的聚类，从而识别出显著的相似性。K-means聚类是最常见且高效的聚类算法之一。因此，我们应用K-means分析进行最优社会经济聚类，使用肘部法则来确定理想的聚类数量。尽管聚类算法对数据敏感且略显主观，但我们仔细审查特征分布，以验证不同聚类结果的适用性。更多细节见附录1。图2展示了美国（不包括阿拉斯加州和夏威夷州）的连续聚类结果。最终，我们选择了标记为“cluster_2”的14,304个普查区作为我们的研究样本，这些区域主要位于城市地区，具有高度城市化、活跃的经济活动、发达的生活环境以及相对一致的收入和消费水平。

图2. 聚类结果(选择标签“Cluster2”作为研究区域)

3.3 模型构建

本文探讨多种方法，以阐明多种健康风险发生率（因变量）与城市密度因素（自变量）之间的相关性。我们首先使用前向逐步多元线性回归模型（MLR）构建重要变量的模型。意识到数据中缺乏完美的线性关系后，我们随后开发了更复杂的机器学习（ML）模型。作为一种非参数树结构模型，决策树（DT）可以逐步解释决策规则和后结果。分类与回归树（CART）在回归任务中更为可行和适用，因此在本研究中应用了该方法。然而，DT在稳定性、泛化能力、效率和预测复杂连续值方面存在局限性。因此，我们引入了随机森林（RF）模型和极端梯度提升（XGBoost）模型的集成算法，以降低过拟合的风险和对极端数据的敏感性，提高泛化能力和效率，并增强模型的鲁棒性（图3）。

图3. 模型构建框架

3.4 可解释机器学习

尽管机器学习模型的准确性和能力得到了极大提升，但我们对其内部工作详细决策过程知之甚少。幸运的是，许多可解释的方法已经被开发出来，以解释结果是如何产生的。本文关注特征重要性、部分依赖图（PDP）、个体条件期望（ICE）和夏普利值等方法。特征重要性的常用度量包括模型基础特征重要性、排列特征重要性和SHAP值特征重要性。其中，模型基础特征重要性在很大程度上依赖于模型使用的算法，这使得不同模型之间的比较变得困难。因此，本研究选择了排列特征重要性和SHAP值特征重要性。通过随机打乱单个特征，排列特征重要性将每个特征的重要性定义为模型得分的下降。夏普利值源于合作博弈论，夏普利加性解释（SHAP）基于经典的夏普利值，通过计算所有特征的平均边际贡献来解释模型输出。对于局部样本，夏普利值可以展示特征影响的程度和方向；对于全局模型，通过求取特征绝对夏普利值的平均值，可以为特征对结果的贡献提供支持性证据。PDP显示特定特征的平均边际效应，通过边际化其他估计值反映输入和输出之间的线性或非线性关系。ICE展示了目标与一个实例特征之间的依赖关系，可以视为PDP的分解。同时，SHAP依赖图作为PDP的替代，考虑特征交互作用，与此同时，SHAP依赖图作为PDP的替代方案，通过考虑特征相互作用，从减去主要个体效应中获得更详细的见解。

【结果】

4.1 统计结果

为了进一步探索复杂关系并识别多维度密度因素的影响，我们构建了多个模型，包括多元线性回归（MLR）、决策树、随机森林和XGBoost，以研究健康风险发生率（因变量）与多维度密度因素（自变量）之间的相互作用。通过网格搜索和交叉验证的方法，我们确定了每个模型的最佳参数，并在训练数据集上进行了训练。我们通过平均绝对误差（MAE）、均方误差（MSE）、均方根误差（RMSE）和决定系数（R-Square）等指标比较不同模型的性能。表3展示了我们训练模型的结果。从简单的多元线性回归和决策树模型到更复杂的随机森林和XGBoost模型，预测准确性持续提高。慢性疾病的误差明显小于传染病和心理健康问题。然而，过于复杂的模型通常容易过拟合，从而降低泛化能力。在我们的研究中，随机森林模型在适应不同健康风险的准确性和泛化能力之间达到了最佳平衡。因此，我们选择训练好的随机森林模型作为后续解释分析的基础。

表3. 正向逐步多变量线性回归模型结果

4.2 机器学习解释

为了理解机器学习模型的决策过程，我们采用全局和局部解释方法来解释我们的最佳模型。具体而言，置换特征重要性、部分依赖图（PDP）、个体条件期望（ICE）和夏普利值分析被用于本研究，以帮助我们揭示关键因素、发现非线性关系，并理解变量之间的相互作用（表4）。

表4. 决策树模型的结果

4.2.1 关键因素

基于训练好的随机森林模型的结果，我们利用排列特征重要性和夏普利值来测量多维度因素的重要性。排列特征重要性通过检测替换每个特征过程中对模型性能的干扰来洞察每个特征的全局贡献（Altmann et al., 2010）。而夏普利值的汇总则可以从每个样本引入局部视角，其中绝对夏普利值的平均值反映了特征对结果变量的贡献，每个点可以表示特定样本中每个特征的具体贡献。结果显示，不同方法输出的重要特征排名几乎相同，使得结果更具说服力。相似的健康风险表现出相似性。对于冠心病、糖尿病和癌症等慢性疾病，人口密度大和高强度是主要特征。样本的夏普利值分布显示，人口密度较高的点更均匀地集中在y轴附近，表明高人口密度的正负影响并不显著。高强度的点大多位于y轴的左侧，显示出较高强度对发生率的负面影响。但兴趣点（POI）密度在流行性哮喘中发挥了更大作用，POI密度较高的点更可能位于y轴的右侧。对于传染病，最重要的特征是人口密度和POI密度，这与肥胖的结果相似。而特征值较高的点多位于负向区域。失眠和心理健康问题则与开放空间、人口密度和拥挤程度更相关。开放空间和人口密度的特征值较高的点仍然主要位于负向区域，这与拥挤程度相反（图4）。

图4. 特征重要性分析结果

4.2.2 非线性关系

此外，我们绘制了每种健康风险的主要特征的部分依赖图（PDP）和个体条件期望（ICE），以帮助我们直观捕捉非线性关系。ICE反映了每个给定特征的边际效应。PDP可以视为所有样本的ICE的平均值。我们从图中观察到一些有趣的结果。对于冠心病、糖尿病和癌症等慢性疾病，随着人口密度的增加，发生率首先下降，然后减缓，最后在结束时略有上升。在人口密度的阈值内，有一些值得注意的数字。当人口密度<2000时，下降趋势显著；当人口密度在2000到4000之间时，下降趋势逐渐减缓；而转折点出现在约4000时。随着人口密度的进一步增加，发生率轻微上升，但当人口密度超过6000时，这一增长趋势几乎消失。对于高强度，发生率随着高强度比例的增加而下降，拟合线趋向线性，在0.4附近出现不明显的凹陷。对于流行性哮喘，人口密度和POI密度均与发生率呈正相关关系，并表现出轻微下降的趋势。相比之下，COVID-19的发生率与人口密度和POI密度呈负相关，下降趋势在达到一定密度后减缓。肥胖率与人口密度和POI密度之间可以观察到更显著的负相关关系。对于失眠，人群密度和POI密度与发生率呈正相关，而开放空间则产生负面影响。同样，心理健康问题的发生率随着开放空间的增加而下降，但这一减小趋势并不明显且力度不足（图5）。

图5. PDP和ICE结果

4.2.3 特征的交互作用

然而，因素不可能独立作用。更常见的是，不同特征之间的交互作用也会对模型预测产生贡献。为了揭示决策过程的细节，我们使用夏普利值计算主要因素对预测结果的依赖贡献。x轴表示所选特征的真实值，y轴表示所选特征对结果的SHAP值贡献。当模型呈现完美线性关系时，SHAP依赖图将显示出完美的线性关系，即某个x值对应唯一的y值。然而，实际模型通常呈现扩散趋势，这意味着当x值一致或接近时，y值却可能大相径庭。垂直波动由模型的不可预测成分、数据噪声和特征交互作用组成。前两者难以有效捕捉并解释。因此，有必要在预测结果中考虑特征之间的交互作用。基于SHAP交互分析的结果，我们筛选出最活跃的因素，并使用颜色表示交互特征的真实值，以帮助研究人员更好地观察垂直波动，揭示特征的作用和交互效应（表5）。

表5. 随机森林模型的结果

对于冠心病、糖尿病和癌症等慢性疾病，随着人口密度的增加，发生率的预测首先下降，然后上升。随着高强度比例的增加，发生率的预测则下降。人群密度和POI密度是人口密度最具交互作用的特征。在特定的人口密度范围内，较高的人群密度和POI密度对应于较低的发生率（表6）。对于流行性哮喘，人口密度和POI密度与发生率呈正相关，高强度成为这两个主要因素的最具交互性特征。

表6. XGBoost模型的结果

COVID-19则呈现出相反的趋势，人口密度和POI密度与发生率均呈负相关。肥胖的发生率显示出类似但更加显著的下降趋势，其中高强度发挥了最具交互作用的角色，并与主要特征呈现一致的变化趋势。

对于心理健康，开放空间的整体趋势并不明显。在低比例开放空间的范围内，心理健康问题的预测比例急剧下降，随后趋于稳定，随后在高值范围内略有上升。人口密度的影响则表现出整体先上升后下降的趋势。随着人口密度的增加，心理健康问题的预测比例增加，但当人口密度增加到某一值后，预测的心理健康问题比例开始下降，下降趋势逐渐放缓。根据SHAP依赖贡献图的颜色分布，与开放空间交互作用最显著的因素是高强度。颜色越接近蓝色，表明高强度开发的比例越大。在相同x区间内不同y值的点的颜色分布被分析和比较。在低开放空间区间，高密度开发的比例变化最为明显，从高到低，这表明高密度开发比例与开放空间比例的组合导致心理健康问题预测的急剧下降。与人口密度交互作用最显著的因素也是高强度。在较低的人口密度范围内，较高的高强度开发比例对应较高的预测值，而在高人口密度范围内的变化趋势并不显著。

对于失眠，人群密度与失眠比例呈正相关，但开放空间的增长与失眠的下降相关。POI密度在低密度范围内呈现出急剧下降的趋势，随后逐渐上升。通过检查最具交互作用的特征，我们可以推测，在低POI密度范围内，开放空间作为主导因素发挥作用（图6）。

图6. SHAP相关性图结果

【讨论】

在本研究中，我们应用了可解释的机器学习方法于城市区域，发展了有效的技术，扩展了在城市研究中的潜在应用。这项研究是将多种健康风险（包括慢性疾病和传染病、健康负担以及心理健康）结合起来的早期努力之一。我们展示了城市密度与公共健康之间的显著关联。然后，我们提供了证据，表明城市密度与健康风险之间的相关性是复杂且非线性的，这与之前的研究结果一致（Stevenson & Gleeson, 2019）。特别是，置换特征重要性、部分依赖图（PDP）、个体条件期望（ICE）和夏普利值的方法展示了关键影响特征、非线性趋势、关键阈值和特征交互的更多细节。

与其他统计方法和传统机器学习模型相比，可解释的机器学习在模型决策过程的透明性和易理解性上具有明显优势。首先，可解释的机器学习方法如特征重要性帮助我们高效地筛选关键因素。尽管本研究未涵盖广泛的城市密度指标，但按重要性排序特征有助于消除冗余。此外，PDP、ICE和SHAP等可解释机器学习方法在描绘非线性和复杂关系方面发挥了关键作用。许多与健康相关的研究者强调影响系统的复杂性，这通常是非线性的（Ahmad et al., 2018; Rudin, 2019; Stiglic et al., 2020）。通过采用适当的可解释机器学习方法，无法通过一般统计方法推导或传统机器学习方法解释的非线性关系能够生动清晰地表现出来。越来越多的研究者意识到因果理论的局限性，特别是在公共健康和城市研究等领域（Batty, 2016; Stevenson & Gleeson, 2019）。可解释机器学习中的SHAP方法为特征交互提供了更多细节，揭示了超越直接和简单因果关系的细致规则和机制。

值得注意的是，我们发现了多种健康风险的一些普遍和特殊特征，支持并补充了其他研究。关于身体疾病，长期慢性疾病如冠心病、癌症和糖尿病表现出高度相似性。人口密度和高强度因素在影响发生率方面发挥了重要作用。随着人口密度的增加，发生率先倾向于下降，然后再上升。而高强度与发生率呈负相关。许多先前的研究发现，人口密度与典型慢性疾病之间存在负相关关系，例如日本和大都市统计区的心脏病分析（Griffin et al., 2013; Konishi et al., 2020）、多伦多的糖尿病（Glazier et al., 2014）。一些研究揭示了在密集人口区域慢性疾病的上升趋势，如台湾的癌症（Yang & Hsieh, 1998）、武汉的心血管疾病（Li et al., 2022）和上海的肺癌（Wang et al., 2022）。造成这种差异的原因有很多，其中尺度和区域的选择可能起着主导作用。慢性疾病与人口密度之间的下降趋势主要在相对低密度区域的较大尺度中被检测到，而慢性疾病与人口密度之间的正相关关系通常存在于相对密集的区域。这两类低密度与高密度研究的结合强烈暗示了我们研究结果的可靠性。关于高强度的直接结论较少。短期慢性病状况，如流行性哮喘，以及传染病如COVID-19，更多地受到人口密度和POI密度等因素的影响。流行性哮喘与密度因素呈负相关，而COVID-19则呈正相关。但两者在密度增加时都表现出斜率的减小。与此一致的是，关于COVID-19传播的许多证据表明，密集区域往往出现早期和快速的爆发（Yip et al., 2021; Li, Peng, et al., 2021; Hu et al., 2021; Zhang, 2020; Mollalo et al., 2020），这与我们的发现一致。在洛杉矶进行的类似研究也显示，增加的人口密度与健康问题的减少相关（Kim et al., 2021）。此外，高密度范围内的变化不容忽视，这在某种程度上表明密度与传染病之间存在超线性关系。关于健康负担，肥胖与人口密度和POI密度呈负相关。大量关于肥胖的研究已经证明了这一点（Ewing et al., 2003; Lopez, 2007; Rundle et al., 2007）。相反，失眠与POI密度和人群密度呈正相关，而开放空间的扩展则会导致失眠的减少。以往研究已证明，树冠覆盖率较高且噪声暴露较低的情况下，短时间睡眠的可能性降低。心理健康方面的关系并不明显。人口密度和开放空间在低范围内表现出较大的影响，但在其余范围内的波动较小。尽管SHAP依赖和交互分析的结果提供了更多特征影响的证据，表明不同因素之间的交互可能导致多种范围内的不同趋势，但目前的结果并不足以清楚识别出主导因素。

【结论】

在本文中，一种基于机器学习的用于理解非线性和复杂关联的方法已经在美国大都市地区的案例中得到了发展和验证，提出了几种可解释的方法来解释机器学习模型的决策过程。通过综合研究多种健康风险及其与城市密度的关系，本研究获得了一些有价值的发现，有助于回答城市密度与健康风险之间的关系和机制问题。

我们的工作可以为至少两种观点提供令人信服的证据。首先，我们证明了城市密度与健康风险之间的关联不是社会经济学的副产品。城市密度本身确实显著影响人类健康。其次，我们发现健康问题与环境之间的相互作用程度可能是区分关系模式的重要线索。相互作用程度的增加可能导致密度指标的负面影响。具体而言，对于不同类型的疾病，长期慢性疾病与密度因素呈负相关关系，其中高强度开发空间所占比例更大；而健康负担、心理健康问题等短期传染病与城市密度呈正相关关系，其中人口和活动相关密度因素占主导地位。对于同类型疾病，如慢性疾病、长期积累较多的冠心病、糖尿病、癌症等疾病，相对于流行性哮喘等短期积累较少的疾病，随着密度的增加，呈现出更多的负向趋势，在此过程中，高强度对POI密度的结果有影响。此外，人口密度因子具有明显的调谐点，是非线性关系。虽然特征之间的相互作用可以在一定程度上解释波动，但我们无法确定它们是来自现实还是模型的误解

显然，这些讨论的发现只是冰山一角。这项研究存在局限性。首先，虽然我们从人口、建成环境和活动的角度来定义城市密度，但由于数据的可用性，我们忽略了一些关键指标，如就业密度、土地利用多样性、道路网络和社会联系密度。其次，样本仅限于美国的大都市地区，数据只是从几个开放来源收集的。需要更多的研究来比较区域差异，包括动态因素，并调查广泛的健康问题。此外，其背后的机制值得在人类行为、生物学、医学等领域进行更深入的思考。未来的研究可能受益于临床实验的设计和实施。我们采用了多种可解释的方法来解释机器学习模型的决策过程。

-----------关注公众号----------

立方数据学社

公众号持续分享各类开源城市数据！目前已分享几百种数据！