一直以来,关于城市密度与健康风险之间的关系,学界内存在不同的观点。本次我们给大家带来一篇SCI论文的全文翻译。该论文运用可解释机器学习的方法,来理解城市密度和健康风险之间的复杂关联,有助于回答城市密度与健康风险之间的关系和机制问题。
-----------欢迎大家关注公众号----------
【论文题目】
The association between urban density and multiple health risks based on interpretable machine learning: A study of American urban communities
【题目翻译】
基于可解释机器学习的城市密度与多种健康风险之间的关联:美国城市社区研究
【期刊信息】
Cities, Volume 153, October 2024, 105170
【作者信息】
Zerun Liu,纽约大学坦登工程学院,:zl3280@nyu.edu;
Chao Liu,同济大学建筑与城市规划学院城市规划系,liuchao1020@gmail.com。
【论文链接】
https://doi.org/10.1016/j.cities.2024.105170
【关键词】
城市密度、可解释机器学习、公共卫生、建成环境、慢性病、人口密度。
【前言】
事实上,关于城市密度影响的辩论自城市诞生之初就已经存在。作为城市化的产物,空间密度的概念源于城市诞生以来的聚集属性。最初,密集的城市中心是创新和财富集中的关键,促进了从农村到城市社会的转变(Becker et al., 1999; Bettencourt & West, 2010; Bettencourt et al., 2007; Milgram, 1974)。然而,工业革命带来了人口的快速增长和密集的、常常不健康的生活条件,突显了控制城市发展的必要性。这导致了1848年公共卫生法的出台,标志着政府管理城市规划的开始(Townshend & Lake, 2009)。19世纪和20世纪见证了现代城市规划的兴起,以及由埃比尼泽·霍华德提出的田园城市运动,旨在平衡城市设施与绿地,以应对城市蔓延(Howard, 1902)。这一运动强调了控制城市蔓延和管理城市密度的重要性。进入21世纪,城市化和全球化的加剧带来了新挑战,要求在确保宜居性、效率和可持续性的同时,妥善应对城市的增长。然而,目前对现代城市中城市密度的角色以及如何适当地引导密集城市区域的发展,仍然缺乏明确和一致的结论。
在物理学、经济学、社会学、地理学、建筑学和城市规划等多个领域,密度的概念具有重要意义。其定义因领域而异,这种变化在城市研究中尤为明显,其含义可能存在显著差异。广义上,密度涵盖了社会互动、经济活动、能量流动、生态环境、文化、历史等多方面的整合。从狭义上说,特别是从城市规划和建设的实践角度来看,城市密度通常指人口密度和建筑密度,这些通常与土地利用、可达性、道路网络等一同讨论(Carlino et al., 2007; Dovey & Pafka, 2014)。最近的研究揭示了社会关系密度和人口密度如何影响城市中创意的高效产生和生产力的提升(Pan et al., 2013)。越来越多的学者关注网络内部的互动和人类流动的空间聚集(Gonzalez et al., 2008; Levinson, 2012; Louf & Barthelemy, 2014; Simini et al., 2012)。亟需一个通用模型来解释覆盖人口、建成环境和流动性的密度如何与城市发展相关,从财富和创新到犯罪和疾病。因此,在本研究中,我们从三个方面衡量城市密度:人口密度(单位空间如区域和房间内的人口分布强度)、建成环境密度(城市空间的开发强度)和活动密度(活动和设施的空间分布强度)。综合考虑这些方面,我们能够全面衡量和理解城市。
在关于城市密度的广泛研究中,关注健康风险的研究尤为引人注目。健康风险被定义为不良健康结果的概率,涵盖了可能对个体身心健康造成危害的广泛因素(WHO, 2009)。一般而言,健康风险可分为三类:(1)身体疾病,包括慢性病如心脏病、癌症和糖尿病,以及流感和艾滋病等传染病;(2)心理疾病,包括抑郁症和精神分裂症;(3)健康负担,指显著的公共卫生危害,增加患上多种疾病的概率,如肥胖、睡眠不足、焦虑、吸烟和饮酒。已有文献证明,健康风险可以源自多种因素,包括遗传易感性、环境因素、社会经济条件、生活方式和行为。显然,城市密度与所有这些方面密切相关,因此有必要调查和解释其与多种健康风险的关联。
然而,关于城市密度与健康风险之间的关系,存在不同的观点。一些研究得出结论,密集的城市地区可能因为资源有限和空间拥挤而导致健康问题。另一些研究则认为,城市内部的密度能够带来更多的生活便利和丰富的设施,从而改善健康和医疗保健。此外,许多研究者认为这种关系是复杂的或非线性的。然而,尚未有统一明确的结论来描述城市密度与健康风险之间的关联。因此,在本研究中,我们旨在识别城市密度与多种健康风险之间的复杂关系。利用可解释的机器学习,我们衡量多维度的城市密度,并比较其与各种健康风险的关联,从而全面洞察城市密度与健康风险的关系。所采用的可解释机器学习方法对于检测复杂和非线性关系具有重要价值,适用于其他旨在揭示非线性关系的研究工作。
本研究从以下几个方面为以往的理论和文献做出了贡献:研究结果将拓宽不同健康风险之间的比较,深化对城市密度的理解;所采用的方法将促进可解释机器学习的发展及其应用;方法的创新在于将这些模型应用于独特剖析和阐明不同维度的城市密度对健康的影响。这一应用提供了对推进城市健康研究和实践至关重要的见解。总体而言,我们的研究将有助于城市地区健康问题的方法论和知识的进展,并支持城市密度控制实践,从而促进城市的健康、宜居和可持续发展。
研究流程如图1所示。在以美国为基础的案例研究中,我们在普查区层级探索各种健康风险。借助e K-means聚类算法,通过分组选择研究样本以控制社会经济因素。为了识别密度指标与多种健康风险之间的非线性关联,我们为选定样本构建了多个机器学习模型,包括多元线性回归(MLR)、决策树(DT)、随机森林(RF)和极端梯度提升树(XGBoost)。然后,我们在全球和局部尺度上采用可解释的方法来揭示影响密度测量的关键因素,描述其复杂的关系,并了解不同因素之间的相互作用。该案例研究的结果提供了关于不同健康风险比较、城市密度潜在机制以及可解释机器学习适用方法的初步结论。
本文的组织结构如下:第2节回顾了城市密度及其与各种健康风险的关联文献。第3节描述了本研究中使用的方法论和数据,包括数据处理的详细信息。第4节展示了案例研究的结果,借助可解释的机器学习分析,我们阐明了关键驱动因素,描述了非线性关系,识别了关键阈值,并揭示了各种特征之间的交互作用。在第5节中,我们讨论了这些分析的主要发现,探讨潜在的深层原因。最后,第6节总结了我们的假设和本研究的贡献。
【文献综述】
首先,不同国家和地区的多种健康风险产生了不同的结果。对于慢性疾病,许多学者已揭示密度因素的显著影响,特别是人口密度。对于典型的慢性疾病,包括心脏病、高血压、糖尿病,也得出了类似的结论,即人口密度的增加会导致发病率的降低(Griffin et al., 2013; Konishi et al., 2020)。然而,一些研究在密集城市地区得出了相反的结论(Li et al., 2022; Yang & Hsieh, 1998),指出环境因素对这些疾病有累积效应。在传染病方面,人口密度和POI密度在发病率和死亡率中起着主导作用。传染病的爆发通常在密集人口区域更早发生。但结论较为复杂,不同地区和案例之间存在显著差异(Yip et al., 2021; Li, Peng, et al., 2021; Hu et al., 2021; Zhang, 2020; Mollalo Z. Liu and C. Liu et al., 2020)。关于心理疾病,开放空间和人口密度受到越来越多的关注,这些被证明是影响人们对环境的感受的重要因素(Gruebner et al., 2017; Melis et al., 2015)。对于典型的健康负担,如肥胖、焦虑和睡眠减少,大多数研究表明,人口密度、开放空间和社区内的人群密集程度显著影响了城市居民的行为,导致复合的累积健康结果(Ewing et al., 2003; Lopez, 2007; Rundle et al., 2007)。显然,大多数研究仅关注某些特定的健康风险,鲜有对各种健康风险进行全面研究的案例。来自不同地区的多种健康风险的研究结果相对混乱,缺乏全面比较和清晰线索。因此,有必要在同一地区对各种类型的健康风险进行综合比较研究。
尽管现有研究认为城市密度因素与健康风险之间的关系是多面的,并因地区而异,但已有三种主要假设描述了城市密度与健康结果之间的关联:(1)正线性关系,表明城市密度的增加与健康风险的上升相关,而较低的密度则与较少的健康问题相关;(2)负线性关系,意味着较高的城市密度可以降低健康风险,而较低的密度可能会增加健康风险;(3)非线性关系,指非常低和非常高的城市密度都可能对健康产生负面影响。历史上,研究主要集中于线性关系,忽视了城市密度对健康影响的复杂性。最近的研究,特别是在中国,探讨肥胖和步行便利性的问题(Lu et al., 2017; Yin et al., 2022),提倡采用非线性视角。然而,关于这些关系的深入理解仍然存在空白,尤其是在解释机制和相互作用方面。本研究旨在填补这一空白,增强我们对城市密度与健康风险之间微妙关系的理解。
阻碍以往研究深入探索模型机制和复杂关联的最大挑战之一是方法论。大量的数据、多样的数据结构和因素之间的复杂关系超出了传统方法的处理能力。一般统计方法如相关分析和空间分析无法有效处理多个来源的数据,也无法揭示非线性关系。机器学习的出现使得处理大规模和多样化的数据成为可能,并能够在复杂结构中检测出意想不到的规律。然而,在这种黑盒模型中解释决策过程的困难成为人们对机器学习方法的主要抱怨之一。为了克服这一缺点,提高黑箱模型的透明度,在相关应用中引入了可解释方法。
可解释机器学习方法,也称为解释性算法,旨在将复杂计算模型转化为人类可理解的格式(Bi et al., 2020; Molnar, 2022)。根据解释发生的不同阶段,可解释性可以分为可解释模型和针对不可解释模型的后解释方法(Molnar, 2022)。常见的可解释模型,也称为白箱模型,主要包括线性回归、逻辑回归、规则拟合、朴素贝叶斯和K近邻。由于这些模型背后的算法相对简单,决策过程可以轻松识别。然而,其他黑箱模型如集成学习和神经网络则过于复杂,难以用简单语言描述。因此,需要额外的方法来展示复杂模型中的特定层次。针对这些黑箱模型设计了两类可解释方法:全局模型无关方法和局部模型无关方法(Molnar, 2022)。全局可解释性关注所有可能的输入和输出及其之间的关系,从而解释全局视角。局部可解释性则集中于对特定样本的理解,即更个性化、独特和局部的视角。排列特征重要性(Permuted feature importance)、部分依赖图(partial dependence plot,PDP)、个体条件期望(individual conditional expectation,ICE)和全局代理模型(individual conditional expectation)被广泛用于全局解释。至于局部可解释性,模型无关的局部解释(local interpretable model-agnostic explanations ,LIME)和夏普利加性解释(SHAP)在一般研究中最为流行。上述可解释方法已应用于多个领域,包括交通、医学、临床诊断、疾病预测和环境检测,通常与集成树算法结合使用。考虑到不同解释方法的优缺点,综合使用多种方法可能是进行全面研究的最佳选择。
总体而言,大多数现有研究仅关注特定健康问题,并对城市密度与健康风险之间的关联得出不一致的结论。在多种健康风险的综合研究和对复杂关系的解释方面存在研究空白。本研究旨在利用先进的可解释机器学习方法和多来源数据填补这些研究空白。它利用可解释的机器学习技术揭示城市密度与各种健康风险之间的复杂关联,特别关注美国大都市区的案例研究。研究结果可以帮助城市规划者和决策者揭示城市密度机制的更多细节,从而促进可持续和健康的发展。最终,本研究能够扩展城市密度和公共健康领域的理论与实证研究。
表1. 相关研究方法综述
【方法和数据】
3.1 数据和变量
在本研究中,我们从政府、开放平台和社会组织收集了健康风险、城市密度和社会经济数据的多个数据集。根据健康风险的不同类别,我们关注七个最具影响力的案例:冠心病(CHD)、癌症(皮肤癌除外)、糖尿病、流行性哮喘、COVID-19、肥胖、睡眠减少和心理健康问题。COVID-19数据由约翰斯·霍普金斯大学(JHU)发布,并在一个COVID-19数据项目中收集(Dong et al., 2020)。其他健康数据则来自2018年由疾病控制与预防中心(CDC)和罗伯特·伍德·约翰逊基金会(RWJF)资助的PLACE项目(Centers for Disease Control and Prevention, 2016-2022)。
为了涵盖人口密度、建成环境密度和活动密度三个维度,我们结合2010年普查与2014-2018年美国社区调查(ACS)收集人口数据,从国家土地覆盖数据库(NLCD)总结建成环境数据(Philippa Clarke, 2001-2016),并基于开放街景(OSM)中的兴趣点(POI)数据计算活动密度(Foundation: Cambridge, 2020)。我们通过熵方法综合多维度密度因素来计算综合城市密度指标。此外,我们还从年龄、贫困、收入和少数群体的角度监测社会经济数据,这些数据来自疾病控制与预防中心提供的有毒物质和疾病登记处(ATSDR)社会脆弱性指数(SVI)数据库(Geospatial Research, 2021)。所有数据及相应变量列在表2中。
表2. 变量和数据源汇总
3.2 研究区域选择
图2. 聚类结果(选择标签“Cluster2”作为研究区域)
3.3 模型构建
3.4 可解释机器学习
【结果】
4.1 统计结果
表3. 正向逐步多变量线性回归模型结果
4.2 机器学习解释
表4. 决策树模型的结果
4.2.1 关键因素
图4. 特征重要性分析结果
4.2.2 非线性关系
图5. PDP和ICE结果
4.2.3 特征的交互作用
表5. 随机森林模型的结果
对于冠心病、糖尿病和癌症等慢性疾病,随着人口密度的增加,发生率的预测首先下降,然后上升。随着高强度比例的增加,发生率的预测则下降。人群密度和POI密度是人口密度最具交互作用的特征。在特定的人口密度范围内,较高的人群密度和POI密度对应于较低的发生率(表6)。对于流行性哮喘,人口密度和POI密度与发生率呈正相关,高强度成为这两个主要因素的最具交互性特征。
表6. XGBoost模型的结果
COVID-19则呈现出相反的趋势,人口密度和POI密度与发生率均呈负相关。肥胖的发生率显示出类似但更加显著的下降趋势,其中高强度发挥了最具交互作用的角色,并与主要特征呈现一致的变化趋势。
对于心理健康,开放空间的整体趋势并不明显。在低比例开放空间的范围内,心理健康问题的预测比例急剧下降,随后趋于稳定,随后在高值范围内略有上升。人口密度的影响则表现出整体先上升后下降的趋势。随着人口密度的增加,心理健康问题的预测比例增加,但当人口密度增加到某一值后,预测的心理健康问题比例开始下降,下降趋势逐渐放缓。根据SHAP依赖贡献图的颜色分布,与开放空间交互作用最显著的因素是高强度。颜色越接近蓝色,表明高强度开发的比例越大。在相同x区间内不同y值的点的颜色分布被分析和比较。在低开放空间区间,高密度开发的比例变化最为明显,从高到低,这表明高密度开发比例与开放空间比例的组合导致心理健康问题预测的急剧下降。与人口密度交互作用最显著的因素也是高强度。在较低的人口密度范围内,较高的高强度开发比例对应较高的预测值,而在高人口密度范围内的变化趋势并不显著。
对于失眠,人群密度与失眠比例呈正相关,但开放空间的增长与失眠的下降相关。POI密度在低密度范围内呈现出急剧下降的趋势,随后逐渐上升。通过检查最具交互作用的特征,我们可以推测,在低POI密度范围内,开放空间作为主导因素发挥作用(图6)。
图6. SHAP相关性图结果
【讨论】
与其他统计方法和传统机器学习模型相比,可解释的机器学习在模型决策过程的透明性和易理解性上具有明显优势。首先,可解释的机器学习方法如特征重要性帮助我们高效地筛选关键因素。尽管本研究未涵盖广泛的城市密度指标,但按重要性排序特征有助于消除冗余。此外,PDP、ICE和SHAP等可解释机器学习方法在描绘非线性和复杂关系方面发挥了关键作用。许多与健康相关的研究者强调影响系统的复杂性,这通常是非线性的(Ahmad et al., 2018; Rudin, 2019; Stiglic et al., 2020)。通过采用适当的可解释机器学习方法,无法通过一般统计方法推导或传统机器学习方法解释的非线性关系能够生动清晰地表现出来。越来越多的研究者意识到因果理论的局限性,特别是在公共健康和城市研究等领域(Batty, 2016; Stevenson & Gleeson, 2019)。可解释机器学习中的SHAP方法为特征交互提供了更多细节,揭示了超越直接和简单因果关系的细致规则和机制。
值得注意的是,我们发现了多种健康风险的一些普遍和特殊特征,支持并补充了其他研究。关于身体疾病,长期慢性疾病如冠心病、癌症和糖尿病表现出高度相似性。人口密度和高强度因素在影响发生率方面发挥了重要作用。随着人口密度的增加,发生率先倾向于下降,然后再上升。而高强度与发生率呈负相关。许多先前的研究发现,人口密度与典型慢性疾病之间存在负相关关系,例如日本和大都市统计区的心脏病分析(Griffin et al., 2013; Konishi et al., 2020)、多伦多的糖尿病(Glazier et al., 2014)。一些研究揭示了在密集人口区域慢性疾病的上升趋势,如台湾的癌症(Yang & Hsieh, 1998)、武汉的心血管疾病(Li et al., 2022)和上海的肺癌(Wang et al., 2022)。造成这种差异的原因有很多,其中尺度和区域的选择可能起着主导作用。慢性疾病与人口密度之间的下降趋势主要在相对低密度区域的较大尺度中被检测到,而慢性疾病与人口密度之间的正相关关系通常存在于相对密集的区域。这两类低密度与高密度研究的结合强烈暗示了我们研究结果的可靠性。关于高强度的直接结论较少。短期慢性病状况,如流行性哮喘,以及传染病如COVID-19,更多地受到人口密度和POI密度等因素的影响。流行性哮喘与密度因素呈负相关,而COVID-19则呈正相关。但两者在密度增加时都表现出斜率的减小。与此一致的是,关于COVID-19传播的许多证据表明,密集区域往往出现早期和快速的爆发(Yip et al., 2021; Li, Peng, et al., 2021; Hu et al., 2021; Zhang, 2020; Mollalo et al., 2020),这与我们的发现一致。在洛杉矶进行的类似研究也显示,增加的人口密度与健康问题的减少相关(Kim et al., 2021)。此外,高密度范围内的变化不容忽视,这在某种程度上表明密度与传染病之间存在超线性关系。关于健康负担,肥胖与人口密度和POI密度呈负相关。大量关于肥胖的研究已经证明了这一点(Ewing et al., 2003; Lopez, 2007; Rundle et al., 2007)。相反,失眠与POI密度和人群密度呈正相关,而开放空间的扩展则会导致失眠的减少。以往研究已证明,树冠覆盖率较高且噪声暴露较低的情况下,短时间睡眠的可能性降低。心理健康方面的关系并不明显。人口密度和开放空间在低范围内表现出较大的影响,但在其余范围内的波动较小。尽管SHAP依赖和交互分析的结果提供了更多特征影响的证据,表明不同因素之间的交互可能导致多种范围内的不同趋势,但目前的结果并不足以清楚识别出主导因素。
【结论】
我们的工作可以为至少两种观点提供令人信服的证据。首先,我们证明了城市密度与健康风险之间的关联不是社会经济学的副产品。城市密度本身确实显著影响人类健康。其次,我们发现健康问题与环境之间的相互作用程度可能是区分关系模式的重要线索。相互作用程度的增加可能导致密度指标的负面影响。具体而言,对于不同类型的疾病,长期慢性疾病与密度因素呈负相关关系,其中高强度开发空间所占比例更大;而健康负担、心理健康问题等短期传染病与城市密度呈正相关关系,其中人口和活动相关密度因素占主导地位。对于同类型疾病,如慢性疾病、长期积累较多的冠心病、糖尿病、癌症等疾病,相对于流行性哮喘等短期积累较少的疾病,随着密度的增加,呈现出更多的负向趋势,在此过程中,高强度对POI密度的结果有影响。此外,人口密度因子具有明显的调谐点,是非线性关系。虽然特征之间的相互作用可以在一定程度上解释波动,但我们无法确定它们是来自现实还是模型的误解
显然,这些讨论的发现只是冰山一角。这项研究存在局限性。首先,虽然我们从人口、建成环境和活动的角度来定义城市密度,但由于数据的可用性,我们忽略了一些关键指标,如就业密度、土地利用多样性、道路网络和社会联系密度。其次,样本仅限于美国的大都市地区,数据只是从几个开放来源收集的。需要更多的研究来比较区域差异,包括动态因素,并调查广泛的健康问题。此外,其背后的机制值得在人类行为、生物学、医学等领域进行更深入的思考。未来的研究可能受益于临床实验的设计和实施。我们采用了多种可解释的方法来解释机器学习模型的决策过程。
-----------关注公众号----------