本期摘自“PKU韧性城市研究室”平台的推文内容(供稿:韩颂,编辑:安梦琪,审校:李嘉颖,指导教师:汤俊卿)。对于项目论文感兴趣的读者,可直接在文后扫码进行全文在线阅读/下载。
📍论文标题:
Urban Visual Intelligence: Uncovering Hidden City Profiles with Street View Images
📍论文作者:
Zhuangyuan Fan
Department of Geography, The University of Hong Kong
Fan Zhang
Department of Civil and Environmental Engineering, The Hong Kong University of Science and Technology
Becky P. Y. Loo
Department of Geography, The University of Hong Kong
Carlo Ratti
Senseable City Lab, Department of Urban Studies and Planning, Massachusetts Institute of Technology
📍发表期刊:
PNAS-Proceedings of the National Academy of Sciences of the United States of America(美国国家科学院院刊)
📍发表日期:
26 June 2023
📍DOI:
https://doi.org/10.1073/pnas.2220417120
📍研究关键词:
Urban Studies-城市研究;Socioeconomic Status-社会经济状况;Built Environment-建成环境;Computer Vision-计算机视觉;Sustainable Development Goals-可持续发展目标
我们证明,通过计算机视觉模型从街景图像中提取的城市特征可以有效估计隐形的邻里社区社会经济地位,如出行行为、贫困状况、健康结果和行为以及犯罪。具体来说,仅使用街景特征的模型可以估计高达83%的车辆行驶里程差异、64%的暴力犯罪事件和68%缺乏身体活动的人群的差异。这些结果优于使用其他常用数据(如兴趣点、人口和人口统计学)的模型。随着街景数据和现成的计算机视觉算法的日益普及,这种方法可以帮助以更精细的时空分辨率估计与可持续发展目标相关的城市现象。
城市科学的一个长期研究方向是探索如何通过城市的表象来理解城市。然而,目前尚不清楚的是,城市居民的日常生活在多大程度上可以用城市环境的视觉线索来解释。本文将计算机视觉模型应用于美国80个县的2700万张街景图像。通过街景图像识别的显著城市特征,例如街道设施、人行道、建筑立面和植被,然后利用这些特征的空间分布,来预测其附近社区的社会经济概况。我们的研究结果表明,仅这些城市特征就可以解释高达83%的出行行为,62%的贫困状况,64%的犯罪行为和68%的健康行为的方差。这些结果优于仅基于兴趣点(POI)、人口和其他人口统计数据的模型。此外,结合从街景图像中捕获的城市特征可以将这些其他模型的解释性能提高5%到25%。本文提出的“城市视觉智能(urban visual intelligence)”是一个发现潜在的城市概况,推断和综合城市信息与计算机视觉和街景图像的过程。这项研究为未来城市视觉方面相关的研究奠定了基础。
深入研究城市环境对于了解城市及其内在生活至关重要。城市环境是一个复杂系统,可以通过许多可测量的指标来研究,包括土地利用多样性、建筑密度、街道网络连通性、绿化以及食品和零售业务。利用这些测量,研究人员广泛建立了城市环境与城市居民日常生活之间的联系。如,餐馆密度和评级被显示为有效预测日间人口、就业和年龄的指标,道路网络的空间同质性暗示了城市的GDP和人口增长,目的地的可达性与旅行强度强烈相关,住房和农田的大小可用于推断家庭贫困水平,公园的可达性是城市健康的一致预测指标。
虽然现有研究通常将以土地利用和城市功能为基础的衡量标准作为估计社区社会经济地位的关键变量。然而,我们尚未意识到所有城市功能都有其视觉对应物。从18世纪早期的“会说话的建筑”理论到近期的工作,如Kevin Lynch的《城市的形象》,都一致认为城市可以通过其外观来理解。研究人员已经广泛测试了视觉属性对犯罪、旅行行为和健康行为的影响。与此同时,规划实践逐渐纳入了建筑立面、街道人行道和街道树木的分区代码,以指导城市的总体外观。然而,一个重要的问题仍然没有回答:“城市的外观与邻里社会经济状态的多个方面有何联系?”
随着技术进步,特别是高性能计算和街景图像的普及,研究人员现在有了新的方式来探究我们如何通过城市的外观理解其更深层的社会经济特征。最近的研究利用计算机视觉,即让计算机分析街景图片来识别和解读城市的各种特征,以预测收入水平、投票倾向、健康状况、房价以及人们对安全的感知。我们的研究与这些工作有共同的兴趣点,但我们专注于回答两个问题:首先,考虑到地方政府在不同环境下收集了大量数据以捕捉城市生活的全貌,这些社会经济特征中哪些可以通过分析街景图像的客观特征更准确地估计。其次,我们探讨了通过图像相比于传统的基于功能的方法能多好地推断这些社会经济特征。
为了回答这些问题,我们收集了来自美国七个大都市区的80个县中的2700万张谷歌街景图像。通过运用深度学习的计算机视觉算法,我们从这些图像中提取出了如树木、人行道、汽车、建筑立面等城市特征,分析了这些特征在城市中的分布情况,以此来预测社区层面的贫困、健康、犯罪和交通状况。这些问题的选择主题既是基于先前研究中建筑环境与社会经济状态之间联系的证据,也与联合国的可持续发展目标相呼应。
我们的方法展示了使用计算机视觉算法通过公开可获取的街景图像数据来估计贫困、暴力犯罪、健康行为和出行方式偏好的可能性。然而,我们发现街景图像在解释不同社会经济变量时的能力是不同的。例如,在所有研究地点中,出行方式偏好的预测准确率最高,而像癌症和心理健康这样的健康结果仅通过图像数据的解释能力较弱。值得注意的是,在大多数情况下,利用街景图像分析在模型拟合上优于传统的利用兴趣点分布的方法。此外,当我们将公开的调查数据(如种族、年龄和人口密度)与街景图像特征结合时,我们发现街景图像能够为模型额外增加5%到25%的准确率。
我们的研究通过量化城市视觉特征与城市生活的多个重要方面之间的联系,为城市规划理论提供了实证证据。这项工作不仅突显了城市外观在公民生活中的重要性,还为使用图像数据来综合和推断城市信息、支持及时政策干预的未来研究奠定了基础。
在这项研究中,我们从横跨9个州的七个美国都市区收集了谷歌街景图像(见表1)。这些选定的都市区在人口规模和地理环境上各不相同。图1展示了整体数据和实验结构。我们通过对2700万张谷歌街景图像应用计算机视觉算法,提取了街景特征(street view features, SVFs),算法将图像中的每个像素分配到一个特定的语义类别。在所有类别中,我们专注于那些捕捉到户外环境相关特征的类别,并将它们组合成一系列变量:街道家具、人行道、立面、窗户和开口、道路、天空、草地、灌木、树木、人、自行车和车辆。这些变量测量了每个类别的像素占整个图像总像素的比例。
表1. 大都市区的描述以及有关数据集的一些统计数据
图1.数据和方法
(A)特征提取程序的示意图:该研究在七个选定的大都市地区沿街道网络收集了GSV和POI数据。对于每个样本GSV,我们采用图像分割模型提取了图像的像素级标签,从而构建了SVFs.(B)利用从POI、SVFs和其他人口统计变量构建的特征,建立模型来估计一系列邻里社会经济变量(Y),比较了模型结果以评估SVF的估计能力。选择Y是基于城市生活的四个主要方面:健康、交通、犯罪和贫困。
【使用街景特征(SVF)估算健康、犯罪、交通和贫困情况】
我们利用街景特征(SVF)来估算健康、犯罪、交通和贫困的统计数据。总体而言,SVF最好地估算了与交通相关的城市参数:当估算独自驾车出行的人口比例时,测试集上的模型拟合R²达到了87%,而估算使用公共交通出行的人口比例时,R²达到了82%。模型R²在缺乏体育活动的人口比例(LPA)上达到68%(图2B),在暴力犯罪上达到64%,在收入低于200%贫困线的个体比例上达到62%。相比之下,我们发现模型在成年人口中患有癌症、糖尿病和心理健康问题的比例上表现出相对较低的R²。在测试集上,CT(census tract)级别的R²最佳估计分别为48.1%、59.3%和62%。这些结果在各个都市区普遍一致。
图2.使用空间视觉特征(SVF)来估计健康、犯罪、交通和贫困情况
(A)模型拟合度R2比较的散点图。仅使用SVF的模型通常在估计大多数变量时优于使用POI特征的模型(CBG级别的相关性ρ=0.840;P值<0.001。阴影表示95%的置信区间)。我们将45度线绘制为参考。所显示的结果是随机种子重复模型十次后的平均测试结果。(B)使用SVF估计与交通相关的变量的R2。SVF可以解释CT和CBG级别估计的模型方差高达87%和85%。(C)使用SVF估计与健康相关的变量的R2。SVF可以解释CT和CBG级别估计的模型方差高达68%和65%。(D)比较在CBG和CT级别使用SVF和POI特征的模型拟合度R2。总体而言,CT级别的模型显示出比CBG级别模型更好的拟合度(平均差异为6.8%,P值<0.001)。
【在预测城市社会经济状况方面,SVF的表现优于POI数据】
为了验证SVF的预测能力,我们使用POI数据作为对照进行了模型比较。通过对比SVF和POI模型在CBG(census block group)级别的表现,结果显示,在124个CBG级别的案例中,有110个案例中SVF的表现优于POI,在CT级别的124个案例中,有97个案例表现优于POI。由于两组模型的R²值存在线性关系,可能会质疑这两组数据集是否有信息重叠。为了解决这个问题,我们进行了一个实验,将两组数据合并到一个模型中,并计算特征组的重要性。结果显示,平均而言,SVF对于预测与交通相关的综合行为贡献更大。
为了进一步证明我们结果的稳健性,我们比较了CBG和CT级别的模型结果。结果表明,在CT级别,模型的R²值通常高于CBG级别,这可能是因为CT的规模比CBG大,因此表现出较低的异质性。作为参考,我们还展示了仅使用POI数据的模型估计结果,发现CT和CBG级别估计之间存在类似的趋势。
【在预测城市社会经济状况方面,SVF的性能超越了动态人口数据】
有人可能会好奇,POI分布和SVF能否提供与人口密度相似的信息。如果是这样,仅使用与人口相关的因素能否达到相似的模型表现?实际上,我们的研究发现,建筑立面的平均比例与人口密度之间存在强烈的相关性。除了居住人口密度外,近期的研究还分析了白天人口、每个地理位置的访客数量、犯罪、交通和与健康相关的活动之间的关系。基于此,我们构建了一系列模型,以测试仅用动态人口特征能多好地预测本研究涵盖的城市方面。动态人口由白天(访问)人口、人口密度、夜间(居住)人口和居住密度描述。
图3显示,对于大多数模型来说,SVF和POI特征都是比动态人口特征更强的估计因子。然而,我们观察到人群特征与车辆行驶相关参数密切相关:在估计波士顿和纽约市的VMT时达到了83%的R2。相比之下,人口特征在估计健康相关参数方面预测性能可忽略不计。
图3 模型拟合R2比较:SVF、POI和动态人口
(A)使用人口和仅使用POI特征的模型之间的R2比较。平均而言,CT级模型(Y ∼ {POI})的R2约高出9.8%(t检验;P值<0.005),相较于模型(Y ∼ {DynamicPopulation})的R2。(B)使用人口和仅使用SVF特征的模型之间的R2比较。平均而言,模型(Y ∼ {SVF})的R2约高出22.8%(t检验;P值<0.005),相较于模型(Y ∼ {DynamicPopulation})的R2。我们将45度线标注为参考线。线上方的任何点都表示模型在人口估计功能上优于模型。
【超越传统指标——SVF为交通、健康、贫困和犯罪估算提供了更多信息】
在美国,人口统计因素如年龄和种族与社区福祉紧密相关已被广泛研究。例如,最近的研究显示,COVID-19的死亡率和感染率与种族不平等有关。老龄化也是与癌症和糖尿病等健康结果相关的核心因素之一。人们的出行方式选择可能与他们的地理位置高度相关。在这里,我们收集了基本人口统计信息,探讨SVF是否可以改善对交通、健康、贫困和犯罪。
图4显示了两个主要发现。首先,当预测交通、贫困和犯罪时,使用SVF的模型表现优于单独的人口统计特征。然而,在估计物理活动不足(%LPA)和身体健康状况方面,SVF的表现超过了人口统计特征。相反,对于如癌症和糖尿病等疾病,人口统计特征是更好的预测因子。这些结果反映了年龄和种族与常见疾病的强相关联,而SVF在捕捉这种差异方面的能力有限。其次,与单独使用人口统计特征相比,添加SVF后模型的预测能力提高了5%到25%。预测步行和骑行出行、活动不足、身体健康问题和暴力犯罪数量的模型获得了最显著的提升。这些变量都与人类活动的强度相关,这与现有研究中声称人类活动与城市环境之间存在深刻联系的观点相一致。
图4.对所有城市生活指标进行多变量分析
深蓝色条形表示当模型仅考虑SVF时的R2。灰色条形表示当模型仅考虑位置、人口、年龄和有色人种时的R2。浅蓝色条形表示在前一模型基础上添加SVF后额外获得的R2。每个模型结果都显示了误差条。平均而言,通过将SVF添加到模型中,我们能够将模型R2增加5%至25%。年龄表示65岁以上人口的百分比。POC表示非白人种群的百分比。
这项研究通过计算机视觉工具对城市生活的理解作出了三个主要贡献。首先,评估了SVF在揭示更广泛社区社会经济统计信息方面的价值。以往利用计算机视觉工具的城市研究往往只关注如财富、犯罪或健康等有限的结果。然而,城市生活的福祉涉及更广泛的行为状态、选择和结果,而这些方面的并行考察在以前的研究中显著缺失。我们的研究发现,SVF在预测出行行为方面表现最佳,但在估计某些健康结果,如癌症、糖尿病和心理健康问题方面表现最差,这一结果在不同的城市环境中都是一致的。鉴于这些疾病与成人死亡率密切相关,规划官员应该更加关注这些领域的详细数据收集。
其次,通过将SVF的预测能力与其他常用的城市测量方法相比较,我们得出结论,SVF的表现超过了POI和动态人口等数据源。我们的结果表明,建筑环境的整体“外观”可能包含比功能、居住和访客活动密度更多的信息。
最后,细分和跨上下文可比的数据对联合国人居署的可持续发展目标监测至关重要。考虑到街景图像的空间-时间分辨率和全球覆盖范围,以前的研究已经提出使用计算机视觉工具和街景图像来补充劳动密集型的数据收集方法。在这些研究的基础上,通过比较使用SVF与仅使用年龄、人口和有色人种变量的模型,我们发现,添加SVF到预测模型中获得的信息量在城市生活的不同方面有所不同。
本研究可作为未来“城市视觉智能”领域研究的基础研究方法。随着可用的计算机视觉工具和城市数据的增加,研究人员可以进一步从城市的图像和视频中提取语义含义。这些工具和数据使城市研究能够捕捉城市中的大规模微观变化,综合城市中的隐藏信息,并推断未来趋势。此外,当今实践中的规划策略仍然主要围绕土地用途和功能。城市视觉外观的研究进展可以进一步影响未来的规划方法,并将城市的“外观”带入可操作的规划策略。
我们的研究结果应该根据其局限性来解释。我们只在谷歌街景覆盖的地区获取街景图片,其中可能遗漏了私人和高收入地区。此外,可持续发展目标提到的其他重要社会经济因素,如健康食品的可及性、教育成果、卫生设施和交通事故,也值得进一步探讨。本研究的方法可以应用于这些目标变量,以揭示使用SVF测量城市的潜力和局限性。
研究地点:
这项研究覆盖了美国的七个大都市区,表1展示了这些地区的信息。
SVFs提取:
通过谷歌街景API下载街景全景图,我们获取每个全景图的四个切片,这些切片根据相对于街景车辆的摄像机方向和俯仰角来确定。平均而言,每个CBG(研究中最小的单位)包含超过700个图像样本。
我们使用在MIT ADE20K场景解析数据集上训练的语义分割模型来对街景图像中的每个像素进行分类。原始数据集包含150个类别,我们从中选择38个类别,并将它们分组为13种街景特征(SVF)。以下方程用于计算四张切片图像中特征i的比例,以创建全景视图:
其中,是在方向j上被分类为特征i的像素数量,是方向j上图像切片的总像素数量。
POI数据测量:
兴趣点数据包括不同类型POI的总数、距离最近的轨道交通站的距离,以及每人可达的公园区域。每个POI位置包括纬度、经度、地点名称、地址和NACIS代码等参数。根据两位数的NACIS代码,我们将POI分为九个类别,包括零售、餐饮住宿、艺术与娱乐、教育设施、金融机构、交通设施、卫生保健中心、建筑和制造业。
针对社区的社会经济变量:
依赖变量来源于四个主要来源:疾病控制与预防中心的500城市项目的健康指标、2017年全国家庭出行调查的车辆出行习惯、2015至2019年美国社区调查的其他出行习惯,以及每个城市开放数据网站的犯罪数据。
使用SVF预测社区社会经济概况:
为了估计社区的社会经济统计数据,我们使用Python包scikit-learn训练LASSO回归模型。为了避免模型过拟合,我们将数据分为80%的训练集和20%的测试集,并进一步将训练集分为五个随机样本分组进行交叉验证。这个过程使用不同的随机种子重复十次,以确定测试集的平均性能。相同的过程在CBG和CT级别重复,以确保我们的结果是稳健的。此外,我们还将POI和SVF纳入同一组模型,并计算置换重要性以展示SVF和POIs的不同贡献。
这是一篇论述街景大数据之于城市研究的优越性方面的文章,论述严谨详实,观点鲜明。通过对比分析,从多角度论述街景数据特征的优势,论据充分,层次分明,说服力强。核心观点是:以街景视觉特征捕获城市信息,可为研究者挖掘城市隐藏信息、测度城市人群行为差异及理解城市提供更精准的方法。文章的方法论突破了传统城市研究依赖于定性分析和有限量化数据的局限,引入了计算机视觉工具作为数据获取和分析手段,通过从街景图像中自动提取街道家具、人行道、车辆等元素的信息,研究者能够获得关于城市环境和社区经济状况的更丰富和细致的数据。运用街景图像数据来解释出行行为、贫困状况、犯罪及健康行为,其解释性能高于通常运用的POI、人口和其他统计数据模型,这为城市规划者和决策者提供了一种新的工具,以更科学的方式理解城市问题,制定干预措施,并评估政策效果。文章思路清晰,可读性高,由于篇幅所限,译者对文章进行了提炼概括,原文中还包含更详细的研究方法及数据介绍,建议感兴趣的读者阅读原文。
本期感谢PKU韧性城市研究室平台提供的干货内容
推文修改来源:论文荐读丨《PNAS》城市视觉智能:通过街景图像揭示隐藏的城市轮廓
北京大学韧性城市研究室为自然资源部陆表系统与人地关系重点实验室下设分室,隶属于北京大学城市规划与设计学院,由汤俊卿助理教授负责。主要从事城市韧性与城市灾害的综合研究,聚焦人地关系中“灾害风险-人类活动-城市系统”复杂耦合机制,促进数据驱动的安全城市与可持续科学发展,助力打造宜居、韧性、智慧的未来城市。
博士交流 | 学术规划 | 资讯分享 | 科研提升 | 申请经验
TechArt Research学究科研社,专注于建筑|城市|景观|交互|艺术|工程|计算机|机器人等跨学科领域的学术交流与教学合作。自2019年由Cambridge剑桥大学、UCL伦敦大学学院、MIT麻省理工学院、Harvard哈佛大学等多位名校学者共同创立品牌。持续汇聚美国藤校、英国G5等海内外名校博士/博士后/讲师/教授,研发前沿教学模式及课题内容,竭力为热爱学术的学员们带来优质的科研资源、创造得天独厚的教育空间。
TechArt将继续分享前沿学术知识与优质科研资源,为热爱学术的小伙伴们提供满满福利!