论文解读 |【IJCAI 2024】脆弱度地图VulnerabilityMap：刻画美国城市弱势群体脆弱度的开放框架

文摘 2024-11-17 17:47 北京

论文标题：VulnerabilityMap: An Open Framework for Mapping Vulnerability among Urban Disadvantaged Populations in the United States

作者：Lin Chen, Yong Li, Pan Hui

发表：Proceedings of the Thirty-Third International Joint Conference on Artificial Intelligence（IJCAI 2024）

论文链接：https://doi.org/10.24963/ijcai.2024/797

公开数据集链接：https://github.com/LinChen-65/VulnerabilityMap

导读

城市在快速发展的同时，也成为了不平等的温床，尤其对于那些在城市边缘生活的弱势群体来说，面临的社会经济风险不断加剧。本文提出的“VulnerabilityMap”（脆弱度地图）框架，旨在全面剖析美国城市中弱势群体面临的多重冲击与压力。通过大规模数据的整合和分析，研究团队构建了基于多源数据的多维度指标，以详细刻画这些群体的脆弱性，为AI模型预测和政策干预提供了支撑。最终，该框架通过机器学习模型实现了对于城市居民脆弱度特征的准确预测，并通过解释性分析揭示了将弱势群体囿困于脆弱境地的复杂社会因素。

背景

伴随着全球化进程的加速，城市为人们提供了丰富的机会与生活便利，但也让大量的边缘化群体在城市中挣扎求生。这些弱势群体往往在收入、种族、教育等多个方面处于劣势，并长期面临社会结构性的不平等问题。特别是城市快速增长对基础设施带来的压力，使得住房和资源分配更加紧张，进一步限制了这些群体的上升通道。此外，突发的公共卫生事件和气候灾害等短期冲击，与暴力犯罪和社会隔离等长期压力叠加，形成了脆弱群体面临的多重风险。

为填补现有研究中对于城市弱势群体脆弱度缺乏系统性框架的空白，本研究构建了“VulnerabilityMap”框架，以大规模的多源数据为支撑，全面剖析了城市中不平等现象的根源。通过对人口普查数据、线下出行记录和在线社交数据等多源数据的整合，该框架不仅能够细致刻画社会脆弱性，还可以捕捉到不同时空层面的动态变化。

方法

脆弱度维度构建

为了精准识别并深入剖析城市弱势群体所面临的复杂社会经济风险，本文将城市生活风险划分为两个主要类别：短期冲击（Shock）和长期压力（Stress）。

1.短期冲击（Shock）：短期冲击指的是那些通常突然发生、且在较短时间内产生显著影响的事件。本研究中，COVID-19疫情和城市热岛效应作为代表性的短期冲击被纳入分析。通过对疫情初期的病例和死亡数的统计，以及城市热岛效应对社区居民的影响数据，能够识别出弱势社区在面对突发事件时的脆弱性差异。这些短期冲击往往揭示了社区在应对重大事件时的抗风险能力。

2.长期压力（Stress）：长期压力则指那些影响缓慢积累，长期作用于居民生活的压力源。为了系统性地分析这些压力，本文基于马斯洛需求层次理论，将长期压力细分为三类：生理压力、社交压力和自我实现压力，如图1所示。

生理压力（Physiological Stress）：此类压力聚焦于满足基本生存需求的挑战，包括健康状况、犯罪率、空气污染等对个体生活安全和健康直接相关的因素。例如，医疗资源的可达性、空气质量和社区犯罪率等都会影响居民的日常安全感和生活质量。
社交压力（Social Stress）：社交压力涉及个体在社会中所需的归属感和支持网络。具体的分析指标包括社会资本、经历的隔离程度、志愿服务参与度等。特别是在经济不平等的背景下，弱势群体的社交网络往往局限于特定的区域或社交阶层，使他们缺乏资源与支持，增加了其面临的社会隔离和心理压力。
自我实现压力（Self-Actualization Stress）：该层次的压力关注个体在社会中自我实现的能力和机会，涉及志愿服务、政治参与等与自我价值提升相关的活动。对于弱势群体而言，缺乏自我实现的机会往往会导致自尊心受挫，进一步加剧社会边缘化。

图1 马斯洛需求理论启发的居民压力分类

通过以上分类，形成如图2所示的城市居民多维度脆弱度框架，不仅能从宏观上识别城市中弱势群体面临的多重压力源，还能够从微观层面深入了解不同压力层次对个体生活的具体影响。这一分类方法的运用使得研究能够精细化地描绘出弱势群体的脆弱性特征，为后续的社会干预和政策制定提供了可靠的数据支持和理论基础。

图2 城市居民多维度脆弱度框架

脆弱度指数计算

为便于数据的跨维度对比，本研究设计了一套脆弱度指数计算流程，具体步骤如下：

排序：首先，将每个社区的各维度指标按不平等程度进行排序。例如，社区的低收入率、受教育程度、犯罪率、空气污染指数等变量都是不平等的重要衡量标准。对于每一个指标，按照指标取值从小到大将所有社区排序，为每个社区分配一个排序编号。这个排序步骤确保所有数据能够在同一标准下进行对比分析。
标准化：由于各维度数据的范围差异很大，且每个指标的方向也不同（即，高值可能代表高脆弱性，也可能代表低脆弱性），本研究首先采用了z-score方法将所有排序值转换为标准正态分布，再统一调整所有指标的方向，使得高值均表示更高的脆弱性。例如，在“收入”指标上，团队对其排序进行反转，使得低收入代表更高脆弱度。
综合指数计算：在完成各指标的标准化和方向调整后，将各个标准化的脆弱性分数相加，生成一个综合脆弱度指数。

这一综合指数在平衡各维度差异的基础上，通过将各个维度的脆弱性数据整合为一个总分，反映一个社区在整体脆弱度上的相对位置。通过将复杂的多维度脆弱性特征总结为一个易于理解和比较的综合指标，全面展示不同社区的脆弱性水平，为政策制定提供了清晰的参考依据。

数据获取与对齐

为了构建全面可靠的居民脆弱度分析框架，本研究从多种数据源中收集信息，包括官方人口普查数据、科技公司发布的数据和研究人员自行收集的数据。在数据源选择过程中，团队遵循以下三个主要标准：

开放性：数据源需具备开放许可，确保研究框架可供广泛的研究社群使用。
精细度：数据需能细化至社区或县级，便于精确的跨社区对比和深入分析。
时效性：数据收集从2000年开始，确保能够观察到约20年的变化趋势，为脆弱性分析提供连续的时间窗口。

由于数据类型和分辨率各异，本文设计了如图3所示的标准化的数据处理流程，将不同数据整合成统一格式，便于后续分析。具体过程如下：

人口和社区数据处理：以美国社区调查（ACS）的人口普查数据为主要数据源，提取种族、收入、教育等关键特征，同时补充社区环境信息，如污染源和社区设施数量。
线下移动数据处理：通过SafeGraph数据集获得不同社区居民的出行记录，提取居民访问各类设施的频率，以反映社区的流动性特征和资源获取难易度。
在线社交数据处理：通过Facebook和Twitter等线上社交平台的数据，提取居民的兴趣、社会联系、情感波动等信息，揭示线上社交环境中的不平等现象。

图3 标准化数据处理流程

结果

脆弱度综合指数的可视化验证

本研究首先对所构建的脆弱度综合指数进行了地理可视化。如图4显示，美国居民脆弱度分布存在显著的空间不均衡现象。具体而言，西南部的弱势社区聚集较多，这些社区通常位于新墨西哥州和亚利桑那州等低GDP区域；而东北部的纽约、波士顿和华盛顿特区等发达城市周边则集中了大量的低脆弱度社区。这表明，经济水平较低的地区往往伴随着更高的脆弱性，同时，地理邻近性并不总能确保脆弱性水平的相似性，一些高脆弱性社区可能与低脆弱性社区毗邻而居，这揭示了显著的区域内不平等现象。

图4 脆弱度综合指数的空间分布

脆弱度综合指数的有效性分析

本研究通过对比脆弱度综合指数界定的“最脆弱社区”和“最优势社区”，进一步考察了所设计指数的有效性。如图5结果显示，最脆弱社区不仅情绪波动较大、情绪较为负面，而且更易受到城市热岛效应和空气污染的影响。此外，这些社区在志愿服务和政治参与等自我实现活动中的参与度明显较低，表明脆弱社区居民难以获得更广泛的社会支持和成长机会。

一个有趣的观察是，在经济连通性较低的脆弱社区中，虽然这些社区的外部资源有限，但其内部的社会支持网络反而更为紧密。这种现象可能是由于脆弱社区的居民流动性受限，更多依赖于内部的家庭关系和紧密的朋友网络。然而，这种紧密的支持网络同时也限制了他们接触外部资源的机会，形成了“内聚但封闭”的社交结构。

图5 脆弱度综合指数与居民受城市压力或冲击影响程度的相关性

基于框架训练AI模型的表现

基于所构建的VulnerabilityMap数据框架，本研究尝试训练机器学习模型预测脆弱度指数。结果显示，该模型在所有脆弱度结果变量上的预测表现都较为优异，特别是在空气污染、情绪波动和参与志愿活动等指标上的预测准确度较高（R²值超过0.7）。

特征重要性分析揭示了不同脆弱性结果背后最具影响力的因素，如图6所示。例如，社区的犯罪率和空气污染指数在情绪波动的预测中表现出较高的重要性，暗示环境安全和健康因素直接影响了居民的情绪状态。而在预测社会隔离程度时，人口不平等指数和社交连接度等社交特征起到了决定性作用。这种特征重要性分析不仅有助于理解脆弱性形成的核心驱动因素，也为政策干预提供了数据支撑。

图6 机器学习模型界定影响各维度脆弱度的重要因素

结语

本研究创建的“VulnerabilityMap”框架为分析和应对城市弱势群体的脆弱性提供了全新的工具。通过整合多源数据并构建多维度脆弱性指标，该框架不仅能为学术研究提供有力支持，还可应用于政策制定和城市管理。未来，VulnerabilityMap有望为创建更加包容和公平的城市社会提供坚实的数据支持与科学依据，助力联合国可持续发展目标的实现。

数据科学与智能实验室

本公众号为清华大学电子系数据科学与智能实验室的公众账号，主要推送实验室重要通知、日常活动、文章导读、前沿分享等资讯，敬请关注。

活动预告 |【第47次技术研讨会】Physics-informed AI for Complex Systems

论文解读 |【ICWSM 2024】基于多角色合作大模型智能体的立场检测

论文解读 |【NeurIPS 2024】基于混合语言模型的科学文本引用预测

活动预告 |【第46次技术研讨会】Spatial Embodied Intelligence

论文解读 |【IJCAI 2024】从像素看发展：基于卫星图像的欠发达区域路网识别与社会经济关联性分析

论文解读｜【Nature Communications】复杂网络韧性的深度学习预测方法

论文解读 |【IJCAI 2024】脆弱度地图VulnerabilityMap：刻画美国城市弱势群体脆弱度的开放框架

收集20+时空数据集，超1.3亿样本点，清华研究团队基于生成式AI，提出3种城市复杂系统建模方法

城市科学与计算研究中心近期活动速览来啦!

【会议回顾】CNCC | 第三届“AI+复杂系统”技术论坛：赋能科学应用

玩转「智能体魔方」！清华推出AgentSquare模块化搜索框架，开启AI智能体高速进化时代

论文解读 |【IJCAI 2024】基于卫星图像识别的城中村识别与监测

活动预告 |【第45次技术研讨会】Reinforced LLM Reasoning

论文解读 |【SIGIR 2024】建模用户疲倦的序列推荐

论文解读 |【KDD 2024】UniST：基于提示学习的通用城市时空预测模型

论文解读 |【KDD 2024】基于重整化群的复杂网络长时动力学预测

虚幻5加持，清华发布首个「真实开放环境具身智能平台」与基准测试集EmbodiedCity！

论文解读 |【KDD 2024】基于拓扑与动力学生成式数据增强的复杂网络系统韧性预测

AI能否让复杂系统变简单｜CNCC第三届“AI+复杂系统”技术论坛

论文解读 |【KDD 2024】基于预训练语言模型“群体-个体”微调端测适配的用户意图预测

城市科学与计算研究中心九月活动速览来啦！

【会议回顾】研究中心多项研究成果在KDD 2024发表

活动预告 |【第44次技术研讨会】World Model

清华城市科学与计算研究中心招募AI方向科研实习生

论文解读 | 【KDD2024】CDGON: 一种用于灾后城市人口流动性恢复预测的物理启发神经常微分方程

论文解读 |【KDD 2024】OpenDiff：基于公开数据与扩散模型的移动网络流量生成

论文解读 | 【ACL 2024】EconAgent : LLM智能体驱动的宏观经济模拟

选课通知｜清华-美团联合课程《大数据技术的应用与实践》课程号：80231143

喜迎新学期，欢聚新起点——城市科学与计算研究中心八月活动速览来啦！

论文解读 |【KDD 2024】ReStruct: LLM驱动的异质图元结构发现

精彩回顾 | 第二届国际城市科学大会在清华大学成功举办

ADL153《时空数据智能》开启报名

活动预告 | 第二届城市科学大会注册通知

活动预告 |【第43次技术研讨会】LLM for Interdisciplinary Research

活动预告 |【第42次技术研讨会】Agent and Embodied AI

前沿导读 | 大模型通用推理

活动预告 |【第41次技术研讨会】AI for Urbanization and Sustainable Development

WWW 2024 Tutorial 报告: 基于大模型智能体的社会模拟仿真

活动预告 |【第40次技术研讨会】Multi-modal Large Language Model

论文解读 |【ICLR 2024】基于扩散模型参数生成的时空少样本学习

仅需 5% 训练样本达到最优性能，清华大学研究团队发布条件去噪扩散模型 SPDiff，实现长程人流移动模拟

活动预告 |【第39次技术研讨会】LLM for Computational Social Science

论文解读 |【SIGSPATIAL 2023】融合多尺度人类移动动力学增强传染病空间传播预测

论文解读 |【SIGSPATIAL 2023】基于知识增强扩散模型的城市人流量生成

城市科学与计算研究中心十二月活动速览来了~

论文解读 |【SIGSPATIAL 2023】通过街景卫星图像识别建成环境疾病传播风险

活动预告 |【第38次技术研讨会】Urban Data Generation

【会议回顾】课题组多项研究成果在ACM SIGSPATIAL 2023发表

城市科学与计算研究中心十一月活动速览

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉