论文标题:VulnerabilityMap: An Open Framework for Mapping Vulnerability among Urban Disadvantaged Populations in the United States
作者:Lin Chen, Yong Li, Pan Hui
发表:Proceedings of the Thirty-Third International Joint Conference on Artificial Intelligence(IJCAI 2024)
论文链接:https://doi.org/10.24963/ijcai.2024/797
公开数据集链接:https://github.com/LinChen-65/VulnerabilityMap
导读
城市在快速发展的同时,也成为了不平等的温床,尤其对于那些在城市边缘生活的弱势群体来说,面临的社会经济风险不断加剧。本文提出的“VulnerabilityMap”(脆弱度地图)框架,旨在全面剖析美国城市中弱势群体面临的多重冲击与压力。通过大规模数据的整合和分析,研究团队构建了基于多源数据的多维度指标,以详细刻画这些群体的脆弱性,为AI模型预测和政策干预提供了支撑。最终,该框架通过机器学习模型实现了对于城市居民脆弱度特征的准确预测,并通过解释性分析揭示了将弱势群体囿困于脆弱境地的复杂社会因素。
背景
伴随着全球化进程的加速,城市为人们提供了丰富的机会与生活便利,但也让大量的边缘化群体在城市中挣扎求生。这些弱势群体往往在收入、种族、教育等多个方面处于劣势,并长期面临社会结构性的不平等问题。特别是城市快速增长对基础设施带来的压力,使得住房和资源分配更加紧张,进一步限制了这些群体的上升通道。此外,突发的公共卫生事件和气候灾害等短期冲击,与暴力犯罪和社会隔离等长期压力叠加,形成了脆弱群体面临的多重风险。
为填补现有研究中对于城市弱势群体脆弱度缺乏系统性框架的空白,本研究构建了“VulnerabilityMap”框架,以大规模的多源数据为支撑,全面剖析了城市中不平等现象的根源。通过对人口普查数据、线下出行记录和在线社交数据等多源数据的整合,该框架不仅能够细致刻画社会脆弱性,还可以捕捉到不同时空层面的动态变化。
方法
脆弱度维度构建
为了精准识别并深入剖析城市弱势群体所面临的复杂社会经济风险,本文将城市生活风险划分为两个主要类别:短期冲击(Shock)和长期压力(Stress)。
1.短期冲击(Shock):短期冲击指的是那些通常突然发生、且在较短时间内产生显著影响的事件。本研究中,COVID-19疫情和城市热岛效应作为代表性的短期冲击被纳入分析。通过对疫情初期的病例和死亡数的统计,以及城市热岛效应对社区居民的影响数据,能够识别出弱势社区在面对突发事件时的脆弱性差异。这些短期冲击往往揭示了社区在应对重大事件时的抗风险能力。
2.长期压力(Stress):长期压力则指那些影响缓慢积累,长期作用于居民生活的压力源。为了系统性地分析这些压力,本文基于马斯洛需求层次理论,将长期压力细分为三类:生理压力、社交压力和自我实现压力,如图1所示。
生理压力(Physiological Stress):此类压力聚焦于满足基本生存需求的挑战,包括健康状况、犯罪率、空气污染等对个体生活安全和健康直接相关的因素。例如,医疗资源的可达性、空气质量和社区犯罪率等都会影响居民的日常安全感和生活质量。
社交压力(Social Stress):社交压力涉及个体在社会中所需的归属感和支持网络。具体的分析指标包括社会资本、经历的隔离程度、志愿服务参与度等。特别是在经济不平等的背景下,弱势群体的社交网络往往局限于特定的区域或社交阶层,使他们缺乏资源与支持,增加了其面临的社会隔离和心理压力。
自我实现压力(Self-Actualization Stress):该层次的压力关注个体在社会中自我实现的能力和机会,涉及志愿服务、政治参与等与自我价值提升相关的活动。对于弱势群体而言,缺乏自我实现的机会往往会导致自尊心受挫,进一步加剧社会边缘化。
图1 马斯洛需求理论启发的居民压力分类
通过以上分类,形成如图2所示的城市居民多维度脆弱度框架,不仅能从宏观上识别城市中弱势群体面临的多重压力源,还能够从微观层面深入了解不同压力层次对个体生活的具体影响。这一分类方法的运用使得研究能够精细化地描绘出弱势群体的脆弱性特征,为后续的社会干预和政策制定提供了可靠的数据支持和理论基础。
图2 城市居民多维度脆弱度框架
脆弱度指数计算
为便于数据的跨维度对比,本研究设计了一套脆弱度指数计算流程,具体步骤如下:
排序:首先,将每个社区的各维度指标按不平等程度进行排序。例如,社区的低收入率、受教育程度、犯罪率、空气污染指数等变量都是不平等的重要衡量标准。对于每一个指标,按照指标取值从小到大将所有社区排序,为每个社区分配一个排序编号。这个排序步骤确保所有数据能够在同一标准下进行对比分析。
标准化:由于各维度数据的范围差异很大,且每个指标的方向也不同(即,高值可能代表高脆弱性,也可能代表低脆弱性),本研究首先采用了z-score方法将所有排序值转换为标准正态分布,再统一调整所有指标的方向,使得高值均表示更高的脆弱性。例如,在“收入”指标上,团队对其排序进行反转,使得低收入代表更高脆弱度。
综合指数计算:在完成各指标的标准化和方向调整后,将各个标准化的脆弱性分数相加,生成一个综合脆弱度指数。
这一综合指数在平衡各维度差异的基础上,通过将各个维度的脆弱性数据整合为一个总分,反映一个社区在整体脆弱度上的相对位置。通过将复杂的多维度脆弱性特征总结为一个易于理解和比较的综合指标,全面展示不同社区的脆弱性水平,为政策制定提供了清晰的参考依据。
数据获取与对齐
为了构建全面可靠的居民脆弱度分析框架,本研究从多种数据源中收集信息,包括官方人口普查数据、科技公司发布的数据和研究人员自行收集的数据。在数据源选择过程中,团队遵循以下三个主要标准:
开放性:数据源需具备开放许可,确保研究框架可供广泛的研究社群使用。
精细度:数据需能细化至社区或县级,便于精确的跨社区对比和深入分析。
时效性:数据收集从2000年开始,确保能够观察到约20年的变化趋势,为脆弱性分析提供连续的时间窗口。
由于数据类型和分辨率各异,本文设计了如图3所示的标准化的数据处理流程,将不同数据整合成统一格式,便于后续分析。具体过程如下:
人口和社区数据处理:以美国社区调查(ACS)的人口普查数据为主要数据源,提取种族、收入、教育等关键特征,同时补充社区环境信息,如污染源和社区设施数量。
线下移动数据处理:通过SafeGraph数据集获得不同社区居民的出行记录,提取居民访问各类设施的频率,以反映社区的流动性特征和资源获取难易度。
在线社交数据处理:通过Facebook和Twitter等线上社交平台的数据,提取居民的兴趣、社会联系、情感波动等信息,揭示线上社交环境中的不平等现象。
图3 标准化数据处理流程
结果
脆弱度综合指数的可视化验证
本研究首先对所构建的脆弱度综合指数进行了地理可视化。如图4显示,美国居民脆弱度分布存在显著的空间不均衡现象。具体而言,西南部的弱势社区聚集较多,这些社区通常位于新墨西哥州和亚利桑那州等低GDP区域;而东北部的纽约、波士顿和华盛顿特区等发达城市周边则集中了大量的低脆弱度社区。这表明,经济水平较低的地区往往伴随着更高的脆弱性,同时,地理邻近性并不总能确保脆弱性水平的相似性,一些高脆弱性社区可能与低脆弱性社区毗邻而居,这揭示了显著的区域内不平等现象。
图4 脆弱度综合指数的空间分布
脆弱度综合指数的有效性分析
本研究通过对比脆弱度综合指数界定的“最脆弱社区”和“最优势社区”,进一步考察了所设计指数的有效性。如图5结果显示,最脆弱社区不仅情绪波动较大、情绪较为负面,而且更易受到城市热岛效应和空气污染的影响。此外,这些社区在志愿服务和政治参与等自我实现活动中的参与度明显较低,表明脆弱社区居民难以获得更广泛的社会支持和成长机会。
一个有趣的观察是,在经济连通性较低的脆弱社区中,虽然这些社区的外部资源有限,但其内部的社会支持网络反而更为紧密。这种现象可能是由于脆弱社区的居民流动性受限,更多依赖于内部的家庭关系和紧密的朋友网络。然而,这种紧密的支持网络同时也限制了他们接触外部资源的机会,形成了“内聚但封闭”的社交结构。
图5 脆弱度综合指数与居民受城市压力或冲击影响程度的相关性
基于框架训练AI模型的表现
基于所构建的VulnerabilityMap数据框架,本研究尝试训练机器学习模型预测脆弱度指数。结果显示,该模型在所有脆弱度结果变量上的预测表现都较为优异,特别是在空气污染、情绪波动和参与志愿活动等指标上的预测准确度较高(R²值超过0.7)。
特征重要性分析揭示了不同脆弱性结果背后最具影响力的因素,如图6所示。例如,社区的犯罪率和空气污染指数在情绪波动的预测中表现出较高的重要性,暗示环境安全和健康因素直接影响了居民的情绪状态。而在预测社会隔离程度时,人口不平等指数和社交连接度等社交特征起到了决定性作用。这种特征重要性分析不仅有助于理解脆弱性形成的核心驱动因素,也为政策干预提供了数据支撑。
图6 机器学习模型界定影响各维度脆弱度的重要因素
结语
本研究创建的“VulnerabilityMap”框架为分析和应对城市弱势群体的脆弱性提供了全新的工具。通过整合多源数据并构建多维度脆弱性指标,该框架不仅能为学术研究提供有力支持,还可应用于政策制定和城市管理。未来,VulnerabilityMap有望为创建更加包容和公平的城市社会提供坚实的数据支持与科学依据,助力联合国可持续发展目标的实现。