论文解读 |【SIGSPATIAL 2023】通过街景卫星图像识别建成环境疾病传播风险

文摘   其他   2024-01-04 13:00   北京  


通过街景卫星图像识别建成环境疾病传播风险



城市建成环境(Built Environment)是人类为保证正常城市功能的运行所构建的一系列物理要素,涵盖建筑设施、道路桥梁、公园绿地等各类城市基础设施。在高度城市化的今天,全球超过55%的人口居住于城市中,被城市建成环境所包围。因此,城市建成环境已成为人类健康的环境决定性因素(Environmental Determinant of Health),并受到城市规划、公共卫生等领域研究者的广泛关注。
清华大学电子工程系城市科学与计算研究中心近日在 ACM SIGSPATIAL 2023 发表论文《Devil in the Landscapes: Inferring Epidemic Exposure Risks from Street View Imagery》,提出利用街景卫星图像预测疾病传播风险的全新框架,基于人口流动仿真构建城市疾病传播网络,并融合传染病数学模型与图神经网络,将传统领域知识嵌入到深度学习模型的设计中,实现了知识-数据协同驱动的研究范式。此外,模型还通过构建辅助任务显式预测街景图像中影响疾病传播的相关特征占比,通过多目标学习的方法进一步引入领域知识,提升预测性能。该研究建立了从传播风险定义到预测的完整框架,藉由公开可得的海量街景数据为缺乏大规模传染病检测能力的地区提供了新的疫情风险评估手段。
· 文章题目:Devil in the Landscapes: Inferring Epidemic Exposure Risks from Street View Imagery
· 作者:韩振宇,席彦新,夏彤,刘宇,李勇 
· 会议:ACM SIGSPATIAL 2023
· DOI: https://doi.org/10.1145/3593589
· 论文链接:https://arxiv.org/abs/2311.09240 
· 开源代码:https://github.com/tsinghua-fib-lab/EpidemicGCN


PART/ 01 引言


城市建成环境作为城市活动的物质基础,影响着全体居民的健康。大量现有研究关注城市建成环境对非传染性慢性疾病的影响,如高血压、糖尿病、哮喘、超重等 [1,2],而忽视了建成环境对传染性疾病的影响。随着新冠疫情爆发,城市传染病防控的地位愈发重要。近期研究发现城市形态 [3]、住房条件 [4]、交通流量 [5]、绿地可达性 [6] 等城市建筑环境特征均与新冠发病率有密切联系。但由于发病率受多种复杂因素影响,现有研究无法揭示由于城市建成环境设计导致的内禀传播风险。同时,上述研究往往采用基于人口普查或问卷调研的方式收集建筑环境数据,其高昂的社会代价也阻碍了细粒度、大规模的研究应用。
针对以上问题,我们藉由诸如街景、卫星数据等公开可得的地理标记图像(Geo-Tagged Imagery)提取建成环境相关特征,构建了疾病传播风险预测的完整框架。本文工作为缺乏大规模传染病检测能力与人口普查数据的地区提供了疫情风险预警的新手段。具体地,本研究:

· 通过政策可感的传染病模型定义了城市建成环境的内禀传播风险,其与政策干预强度、观测时间、人口密度等因素无关 

· 通过人口移动模型构建区域疫情传播网络,刻画城市疾病传播的空间关联性

·  将疾病传播常微分方程模型与图神经网络结合,实现知识-数据协同驱动的模型设计,以建模复杂的疾病传播规律 

·  设计多任务学习损失函数显式预测图像中传染相关特征占比,引入先验知识提高视觉模型的表征提取能力


PART/ 02 问题定义


本研究将疾病传播风险预测建模为如下问题:

对任意目标区域,给定模型M与一系列地理标记图像。定义疾病传播风险预测问题,其中为目标区域v的疾病传播风险

传统研究往往将传染疾病发病率(Prevalence)作为区域疾病传播风险的代理变量。但发病率受疾病观测时间、防控政策强度等因素影响,无法反应建成环境内禀的传播风险。为此,本研究采用一种基于模型的传播风险定义。具体地,研究基于考虑隔离机制的传染病模型SIR-X [7] 进行改进,加入政策强度参数以解耦防控政策的影响:

其中,为易感人群数量,为感染者数量,为康复者数量,为隔离者数量。为区域总人口。分别为疾病感染率与康复率,而分别代表自我隔离与医院隔离率。为政策强度时间序列,采用Oxford COVID-19 Government Response Tracker数据作为真值。通过在每日新增感染数据上拟合此常微分方程(Ordinary Differential Equation,ODE)模型,可以得到矫正后的参数。基于此,可估计基本传染数(Basic Reproduction Number,R_0):
基本传染数刻画了在所有人均可被感染的情况下,每个感染者造成新增感染者的数量,是疾病传播领域刻画传染病烈度的重要指标。根据上述定义,与以下三个因素均无关:第一 政策干预。在上述ODE方程中,政策干预对疾病传播的影响被两项建模;第二 人口密度。人口因素被所建模;第三 观测时间。为一个不随时间变化的常数。基于此,本研究根据城市中不同区域的分布定义低风险、中风险、高风险区域,构建分类任务框架。


PART/ 03 模型设计


3.1 研究挑战

通过地理标记图像预测疾病传播风险有如下挑战。首先,传染病的传播受人类移动行为影响,往来密切的社区传播风险也更加相似。区域间人类移动行为无法仅从图像中进行推断,为刻画传染病的空间关联带来挑战。其次,与高血压、糖尿病等非传染性疾病不同,感染传染病后一段时间往往会自行康复。这需要模型能够建模传染病发展的不同阶段,避免传播风险的过高估计。最后,传统计算机视觉模型缺乏传染病相关的领域知识,在特征提取过程中难以有效挖掘疾病传播相关的特征。


3.2 模型框架

针对上述挑战,我们构建了如图1所示的模型框架。我们将城市中不同区域的疾病传播关联以图的形式建模,图中每个节点代表一个区域。节点特征通过任意CV模型从地理标记图像中进行提取,而边权重采用重力模型进行仿真。重力模型通过考虑任意两个区域的人口数量与距离,对其人口流动进行估计。在此之上,我们利用图神经网络算法实现每个区域疾病传播风险的预测。

图1 模型框架

具体地,对于任意CV模型,给定地区v的全部地理标记图像集合。图中节点的特征记为,则有
.
而对于边权重,根据重力公式仿真的人口流动确定:
,
其中为区域人口,为两区域间距离。为重力模型的经验参数。根据上述过程,我们初步构建了基于图的模型框架。

3.3 图神经网络设计

考虑到传染病发展的内在规律,我们将传染病数学模型与图神经网络进行结合,将专家知识融入到模型设计中。具体地,我们基于最经典的SIR模型对疾病传播过程的描述,将每个地区v的人群划分为易感者、感染者、康复者三类,分别通过节点特征定义其初始表征
,,
其中为可学习权重矩阵,为偏置矩阵,函数。
SIR模型的公式如图2左侧所示,其核心在于易感者与感染者的二阶传播过程与感染者的一阶康复项。类比SIR模型中的传播与康复过程,我们改进了图神经网络的消息传递函数,如图2右侧所示。其中,传染过程由
项所描述,其中为目标节点v的邻域,为可学习传播矩阵。通过将目标节点易感者表征向量与邻域感染者表征向量之和拼接并通过线性变换,实现目标节点感染状态的更新。类似地,康复过程由项所描述,仅由目标节点自身的感染者表征决定。

图2 SIR常微分方程模型与EpiGCN消息传递函数对比


经过图卷积过程后,将三个表征向量进行拼接,经过线性变换与Softmax函数后得到传播风险的最终预测:
 



3.4 多任务学习损失函数设计

为了使CV模型能够更有效地提取图像中的疾病传播风险,我们设计了一个辅助任务提供额外监督信号,进一步引入领域知识帮助模型学习。具体地,通过在地理标记图像上预训练的语义分割模型,可推理出图像中每个像素所属的类别,如图3所示。

图3 街景语义分割示意


统计图片中同类像素的占比,可为每张图片生成一个元素占比向量。通过训练一个简单的随机森林模型并进行SHAP分析,判断各类元素对疫情风险预测的重要性,如图4所示。

图4 SHAP分析筛选重要语义特征


在本研究中,我们筛选其中有意义的元素作为辅助任务的真值,并令CV模型显式预测这些元素占比,构建辅助任务损失函数如下:
其中为通过语义分割模型计算出的辅助任务真值,而为模型辅助任务的预测输出。模型辅助任务的预测通过在CV Backbone后添加一个MLP旁路实现。
而对于主预测任务,我们采用如下所示的交叉熵损失函数:

其中为区域对应的以one-hot编码的疫情传播风险真值,为模型预测各个风险的概率。参考 [8] 中所提出的平衡不均匀样本的损失函数改进,我们引入平衡各个类别的权重。
最终,训练任务的总损失函数为上述两个任务的加权平均:


PART/ 04 实验验证


本研究收集了英格兰地区6512个MSOA共20万张街景图像、32万张3m分辨率的卫星图像对疾病传播风险进行预测。MSOA为英国的细粒度人口统计区划单位,其平均人口为8000人、平均面积为20 km2 。同时,MSOA也是英国公开可得的疫情数据最小空间单位。本研究基于2020年9月1日至2021年4月30的疫情曲线推断疫情传播风险,此段时间是英国第二波疫情爆发窗口,且均采用精度较高的核酸检测,从而最大程度保证了疫情统计数据的准确性。基于上述政策可感的传染病模型与疫情曲线,我们推断了每个MSOA的疫情传播风险,如表1所示。

表1 MSOA传播风险统计


在模型设计上,我们采用基于ImageNet预训练权重初始化的ResNet18作为CV Backbone,并利用Cityscapes预训练的ViT-Adapter作为语义分割模型,提取上述辅助任务所需的各类图像元素的占比。
模型预测结果如表2所示。通过对比基于特征的基线模型(采用HOG特征与GIST特征的BOF模型、直接采用语义分割占比的RF模型、SceneParse模型)、经过适配的有监督CV模型(Pyramid Architecture的ResNet18、Isotropic Architecture的ViT-B/32)、无监督街景/卫星经济指标预测模型(Urban2vec、READ、PG-SimCLR)等广泛基线模型,本研究所提出的EpiGCN模型在weighted F1/Precision/Recall上实现了至少12.9%/9.12%/6.36%的提升,并通过一系列消融实验验证了所提出改进的性能增益。

表2 疫情传播风险预测性能(表中为5次实验平均结果;加粗处为最佳性能,下划线处为最佳基线,*为p<0.01下超越最佳基线模型)


为了进一步验证所提出的多任务学习方法,我们设计了额外实验,在排除GCN相关模块的情况下验证其对纯CV模型预测性能的增益。ResNet18是一个参数量较小(约11M)的Pyramid Architecture模型,而ViT-B/32则是参数量适中(约86M)的Isotropic Architecture模型。实验发现,所提出的多任务学习方法对两者的预测能力均有一定提升。其中模型规模较小的ResNet18在weighted F1上获得了8.5%的提升,并过了模型规模更大的ViT-B/32的表现。这表明通过辅助任务引入领域知识可以有效提升CV模型的特征提取能力,学习到更有效的表征。

表3 多任务学习框架验证(表中为5次实验平均结果)


所提模型对多种地理标记图像均有较强的适用性。对于缺乏街景图像的中低收入国家,可通过公开可得的卫星图像对区域疫情风险进行评估。同时,结合街景与卫星图像也可获得更加准确的估计。

表4 EpiGCN在多种地理标记图像下的预测表现(表中为5次实验平均结果)


最后,我们着重验证了模型的泛化性能,为模型的实际应用奠定了基础。具体地,我们将英国的MSOA按照行政大区进行划分,并测试了在单一区域数据训练、其他区域数据进行推理的性能表现。实验发现,仅用单一区域的样本(占全部样本的7.5%)训练的EpiGCN模型,即可超越在全量样本上训练的最佳基线模型。更为重要的是,这一性能是在模型完全没有接触过的新地区上实现的。对于缺乏大规模疫情检测能力的中低收入国家,可通过在其他国家数据上预训练的模型实现本国疫情传播风险的推断,为最大化发挥有限防疫资源提供了决策支持。

表5 EpiGCN泛化性能验证(表中为5次实验平均结果;加粗位置超越最佳基线模型表现)


PART/ 05 结论


本研究提出了基于街景卫星图像识别建成环境疫情传播风险的完整框架。考虑到传染病的传播特征,通过知识-数据协同驱动的思路提高了模型的预测性能与泛化能力,从而支撑缺乏大规模疫情检测能力地区的精准疫情防控。

参考文献

[1] Yang, Jun, et al. "The Tsinghua–Lancet Commission on Healthy Cities in China: unlocking the power of cities for a healthy China." The Lancet 391.10135 (2018): 2140-2184. 
[2] Bai, Yuqi, et al. "Healthy cities initiative in China: progress, challenges, and the way forward." The Lancet Regional Health–Western Pacific 27 (2022). 
[3] Rader, Benjamin, et al. "Crowding and the shape of COVID-19 epidemics." Nature medicine 26.12 (2020): 1829-1834. 
[4] Morawska, Lidia, et al. "How can airborne transmission of COVID-19 indoors be minimised?." Environment international 142 (2020): 105832. 
[5] Ku, Donggyun, et al. "Safe traveling in public transport amid COVID-19." Science advances 7.43 (2021): eabg3691. 
[6] Spotswood, Erica N., et al. "Nature inequity and higher COVID-19 case rates in less-green neighbourhoods in the United States." Nature Sustainability 4.12 (2021): 1092-1098. 
[7] Maier, Benjamin F., and Dirk Brockmann. "Effective containment explains subexponential growth in recent confirmed COVID-19 cases in China." Science 368.6492 (2020): 742-746. 
[8] Cui, Yin, et al. "Class-balanced loss based on effective number of samples." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019.

数据科学与智能实验室
本公众号为清华大学电子系数据科学与智能实验室的公众账号,主要推送实验室重要通知、日常活动、文章导读、前沿分享等资讯,敬请关注。
 最新文章