论文分享|超过十万条微博数据揭示小区环境如何影响居民在COVID封控期间的情绪

文摘   2024-04-18 22:20   湖北  

本次分享合作专家Sustainable Cities and Society(可持续城市与社会)发表的文章《Investigating the Civic Emotion Dynamics during the COVID-19 Lockdown: Evidence from Social Media》,欢迎大家阅读交流。

导读

图1.该文章插图摘要展示其数据和方法论

2022年疫情再次爆发时,上海在 "零COVID "政策下实施了严格的 "全城静态管理",引发了一场社交媒体的公共情绪浪潮。本研究从空间正义视角出发,从社交媒体中提取的公民情绪,研究负面情绪的时空异质性与微观建成环境间的复杂关系。
学术创新:国内外已有许多研究表明,优质环境(例如绿化)可以缓解居民在 COVID-19 隔离期间的心理压力。本研究认为,在严格封控下,当人类流动性受到严重限制时,建筑环境和其他常见的情绪决定因素的作用可能会发生变化或逆转。这背后的假设是:高质量环境通常伴随着高价格”,当优质居住区的居民因为严格封控而暂时失去“高房价换来的优质环境和城市服务便利性时,可能相对更容易产生负面情绪“。
为了验证以上假设,我们以上海2022年春的“全域静态管理”为案例,抓取了2022年2月至7月期间,超过10万条微博帖子,以捕捉封城前/期间/后的市民情绪。
应用自然语言处理(NLP)对独特的“无助”情绪以及其他负面情绪进行评分,并利用空间回归模型来研究负面情绪产生的相关社会经济、房价房租、以及建成环境因素。

该研究提出了三个“与现有研究不同的”新发现:

1)优质环境(例如,更高的主观感知绿色、更多的天空视野)在封锁前和封锁后伴随着较轻的负面情绪,但在严格封锁期间,却与更剧烈的消极情绪相关。这表明当高房价地区居民失去了他们为优质环境溢价支付的城市设施和优美环境便利性时,他们可能会变得更加脆弱;

2)社会人口属性对负面情绪的影响在三个封锁阶段存在显著差异,与前人研究发现的隔离期间老人更不容易产生负面情绪不同,在上海封控期间,老年人密度更高的社区伴随着显著更强烈的负面情绪。这潜在反应了老年人及其家属在无法获得紧急医疗服务时,承受的压力更大

3)房价和租金与负面情绪呈现皆然不同的相关性,且高房价伴随着低消极情绪,间接反映了相对于房租,房价更直接与社会资源丰富度相关,也意味着居民社会经济地位和幸福感之间存在复杂的相互作用。

该研究通过数据驱动,有效地追溯了本地居民呼声,并揭示了公民情感,为面对未来危机时促进社会可持续性的更以人为本的城市管理策略提供了信息。地方情绪与复杂的社会经济属性之间的相关性具有明显的空间异质性和时间动态性,这有力地证明了空间正义的紧迫性和重要性。
这种数据驱动的方法可追溯当地的声音,并揭示封锁措施下的负面情绪。这项研究有助于人们了解面对公共卫生危机时的城市复原力和情感福祉,为可持续的城市规划和政策制定提供见解,从而建设具有复原力的城市。

图2. COVID-19 封控期间的上海

图3. 文章预览版(最终成文以官网为准): https://www.sciencedirect.com/science/article/pii/S2210670724002312

研究背景

2022 年,COVID-19 在中国再次爆发,成为一场突如其来的公共卫生危机,尤其是在上海这样的大都市。今年 4 月,上海根据中央政府的 "零 COVID "政策实施了严格的 "全市静态管理"。对人员流动的空前严格限制导致所有 "非必要 "的生产和商业活动(如超市、商场和快递服务)暂停,使许多市民难以满足日常供应需求,包括食品和药品等生活必需品(Burki, 2022; Kirby, 2022; Wang et al., 2022)。因此,尽管上海在封锁前的几年里对疫情进行了精确控制,但封锁期间的失控状态完全扭转了舆论的风向(Burgess, 2022; Bernardini, 2023)。当市民的基本需求受到挑战时,对食物短缺的恐慌、对被感染的恐惧、对被隔离的愤怒迅速蔓延,引发了互联网上公众投诉的爆炸式增长(Xiao et al., 2023)。

创新点

首先,以往的研究主要考察了适度隔离措施下的心理影响(Basso et al., 2024),而对更极端的封锁措施的心理影响很少进行研究。我们假设,当人的流动性被严格限制到无法满足日常需求的程度时,负面情绪的驱动因素(如建筑环境、社会经济、人口属性)的影响程度会有所不同,甚至会表现出相反的效果。我们可以合理地假设,那些能够享受到更多城市设施(如绿地)的居民可能会产生更强烈的负面情绪,因为他们失去了 "曾经优越的优质环境",而他们为此付出了高昂的代价,这加剧了他们的负面情绪(如愤怒)。

其次,大多数研究表明,隔离带来的负面心理影响包括恐惧、焦虑、困惑和愤怒(Brooks et al., 2020; Spano et al., 2021)。基于作者的真实经历以及社交媒体帖子中的证据,我们认为,"无助感",即无法保护自己或无法有效满足需求(例如由于严格的人员流动限制而导致的日常用品和医疗需求无法有效满足)的感觉,至少在上海的封锁中是独特且不可忽视的。然而,目前的负面情绪提取框架并未对这一独特概念进行研究。

为了验证这两个假设,我们以 2022 年上海封锁为案例,研究了在极端限制人员流动和严格城市管理下的公民情绪动态。研究提出了两个问题:1)在最严封锁措施的三个阶段(即高峰前、高峰中和高峰后),负面情绪尤其是社交媒体上的 "求助无门 "情绪在空间和时间上发生了怎样的变化?2) 负面情绪的决定因素(即建筑环境、住房经济、社会人口和大流行病传播属性)在这三个阶段中有多大程度的偏差?本研究通过考察严格管理下的公民情感健康状况,为高密度城市地区的治理提供了重要参考,从而在公共卫生危机面前促进社会的可持续发展。
数据和方法

文献综述表明,代表环境、经济和社会层面的指标与大流行病的传播动态相结合,可能会对生活质量产生影响。我们进一步假设,在不同严格程度的隔离措施下,上述情绪驱动因素的影响会出现显著差异。例如,在适度的流动限制条件下,生活在高质量环境(如拥有更多绿地)中的居民会更快乐,但反之,由于失去了花钱买来的优质环境,他们可能更容易产生负面情绪。也就是说,我们明确测试了当一个人的行动受到严格限制,日常需求得不到满足时,极端封锁情况对个人心理健康的负面影响。下图框架强调了人类经历的多个层面之间复杂(非线性)的相互作用及其对心理健康结果的集体影响(图4)。

图4. 概念框架,改编自 Qiu 等人(2022)

选择上海市中心区域作为案例研究对象,因为该区域的微博签到密度最高。在分析的空间单元方面,值得注意的是,在封锁期间,根据 "全市静态管理 "政策,日常用品的发放、COVID-19的强制检测和检测结果的发布都主要在行政边界层面(街道)进行。因此,本研究以上海市中心的 118 个行政街道为空间单位进行分析。

研究方法包括四个方面(图 4)。首先,收集 2022 年 2 月至 7 月上海市中心范围内的地理位置微博。其次,训练一个 NLP 模型,从原始微博数据中识别出九种情绪,并精确量化情绪值,包括自定义的 "无助感"。第三,收集建筑环境、住房经济和人口普查维度的数据作为潜在的自变量。最后,建立普通最小二乘法(OLS)和空间回归模型,检验负面情绪与独立变量之间的相关性,揭示它们之间的关联。
图5. 方法和工作流程

我们使用 Python 网络爬虫来收集上海市中心(2022 年 2 月 1 日至 7 月 31 日)的微博帖子,以涵盖封锁期间及以后的时间。每个帖子都有三类信息(即内容、协调和日期)。首先,通过检查帖子 ID 和内容,仔细检查帖子数据集是否有重复条目,并及时删除冗余内容。随后,消除 HTML 标记和 URL 等噪音,并对表情符号和特殊字符进行规范化处理。第三步是仔细检查数据集是否有缺失或空值。最后,根据发布月份对微博数据进行分类,以便进行情感分析。为此,约 88% 的微博帖子仍然是有效和干净的数据。

对公民情绪变化的初步分析显示,负面情绪在封锁措施最严格的 4 月份达到顶峰。由于我们的目的是揭示负面情绪的驱动因素在不同程度的限制措施下可能产生的负面影响,因此我们选择了 3 月、4 月和 5 月进行深入分析(共 37,382 个有效帖子),以捕捉封锁高峰前、封锁高峰中和封锁高峰后的情绪变化。

自然语言处理(NLP)中基于词库的情感分析的标准方法是将文本数据中的单词与情感词库进行匹配(Wang et al., 2022)。这些词会被分配一个情感分数 (Hartmann et al., 2023),用于量化文本情感。NRC 情感词典是一个与 8 种基本情感和 2 种情绪相关的词表:快乐、信任、惊喜、期待、厌恶、悲伤、恐惧、愤怒、积极和消极(Mohammad & Turney, 2010; 2013)。为了捕捉无助感,我们手动提取了 556 个关键词作为定制的 "无助感情绪词典",并将其注释为 NRC 情绪词典格式。我们通过Jieba(中文分词算法组件)将中文句子精确切割成词,并通过两个情绪词库(NRC-情绪词库和自制无助情绪词库)检索出每条微博中包含的所有情绪词的总数。然后对所有微博的情感进行形式化处理(如图5)。最后,我们按月计算每个行政边界(街道)内所有帖子负面情绪值的算术平均值,以方便后续负面情绪与自变量之间的空间相关性研究。
6. 情绪值之间的计算关系与负面情绪的价值计算
鉴于缺乏对封锁期间情绪影响因素的研究,我们从网络抓取和相关文献中重新考虑了四类自变量数据:建筑环境、住房经济、社会人口和大流行病传播。

建筑环境属性:我们从现有数据集(Qiu et al., 2022)中获取了对居住区的主观感知,包括感知到的绿化和宜居性,以及客观提取的街景特征视图指数,包括建筑、树木和植物视图。此外,还获得了宏观层面的信息,包括建筑年份、容积率、容积率、绿地率等。此外,还从大众点评网和高德地图中收集了 POI 密度、地铁站和学校的可达性等邻里属性,以描述便利设施密度和服务可达性(Qiu et al., 2022)。

住房经济:2022 年上海房价交易数据(22902 条)来自安居客(https://shanghai.anjuke.com,2022 年 5 月访问),其中包括房价和物业管理费;2022 年 5 月上海房屋租金数据(18670条)来自链家网(https://sh.lianjia.com,2022 年 5 月访问)。为避免不同面积房屋的影响,这三个住房经济指标的单位统一为 "人民币/平方米"。

社会人口:普查数据来源于第七次全国人口普查。为了对人口数据进行归一化处理,我们计算了各类人口占总人口的比例,以增强不同人口基数之间的可比性(Fu & Zhai, 2021)。

病毒传播:上海封锁期间每天的 COVID-19 上海本地确诊病例和本地无症状病例摘自上海市统计局 (https://sh.bendibao.com/news/202233/249111.shtm,2024 年 2 月访问)。

对于每组属性,我们尽可能保留可用变量,同时进行方差膨胀因子(VIF)检验和皮尔逊相关性分析,以研究多重共线性问题。图6 展示了最终模型中选定自变量的空间分布。
图7. 选定内生变量的空间分布
*注释
内生变量:是统计学和计量经济学中的一个重要概念,通常指在一个经济模型中的变量,其值由模型内的因素所决定,即这些变量的变化可以被模型中的其他变量解释。内生变量的值是模型内部生成的,因此它们受到模型中其他变量的影响。这与外生变量相对,外生变量的值是由模型外部因素决定,不受模型内部变量的直接影响。

多重共线性:是指回归模型中两个或多个解释变量(自变量)之间存在高度相关关系的情况。多重共线性会影响回归模型的稳定性和可靠性,因为它导致回归系数的估计变得不精确。为了诊断和处理多重共线性问题,常用的两种方法是方差膨胀因子(Variance Inflation Factor, VIF)检验和皮尔逊相关性分析。

我们首先将所有选定的自变量与每个月的数据进行 OLS 模型拟合,以了解它们的解释力,从而构建基线模型。对 OLS 回归残差(Sannigrahi et al., 2020)进行 Moran's I 检验(Li et al., 2022),以检测空间依赖性,同时使用 Python 的 PySal 软件包(Rey & Anselin, 2010)运行鲁棒拉格朗日乘数(RLM)诊断(H. Yuan & Liu, 2021),以识别应纳入的特定空间效应。

Moran's I 检验表明,所有月度 OLS 残差都存在显著的空间交互作用,这表明 OLS 估计值存在偏差,空间回归将是首选,而 RLM 诊断则主张采用带空间滞后模型(SLM)的 OLS。因此,我们使用与基线 OLS 相同的变量进行了 SLM回归。此外,我们还在基线模型的基础上构建了地理加权回归模型(GWR),以捕捉空间异质性问题。比较了 OLS、SLM 和 GWR 的总体拟合优度(R2)和解释变量系数。

*注释

普通最小二乘法(Ordinary Least Squares,简称OLS):是回归分析中最常用的参数估计方法之一。OLS 模型通过最小化误差项的平方和来拟合数据,从而估计线性回归模型中的参数。其基本目标是找到一组系数(参数),使得模型预测值与实际观测值之间的差异(即残差平方和)最小。

残差:是模型的一个重要组成部分,它们是实际观测值与模型预测值之间的差异。理解残差的性质对于评估回归模型的有效性、正确性和假设检验至关重要。

Moran's I检验:可以帮助识别空间自相关性。如果回归残差显示出显著的空间自相关,这可能表明模型中遗漏了重要的空间效应或空间结构,这可能导致模型估计偏误。

鲁棒拉格朗日乘数(Robust Lagrange Multiplier, RLM)诊断:是一种用于空间回归模型中的统计检验,主要用于检测模型中可能存在的特定空间效应(可能包括空间自相关、空间异质性和空间依赖等现象)。

结论

初步分析包括 2022 年横跨六个月的三个阶段:封锁前(2 月和 3 月)、封锁中(4 月和 5 月)以及封锁后(6 月和 7 月)。情绪变化与上报事件数量的联合分析(图8)表明,负面情绪的起伏总体上与确诊疫情的数量和封锁限制的程度相关。值得注意的是,无助情绪的模式也与一般负面情绪的模式一致,验证了我们对无助情绪的定义和提取是有效的。

图8. (a) 负面情绪数量 (b) 新确诊病例数(资料来源:上海统计局,https://sh.bendibao.com/)

由于三月、四月和五月的负面情绪值最高,代表了整个极端封锁高峰期的三个关键阶段(之前、期间和之后/缓解),因此以下空间分析将重点关注这三个月(图 9)。首先,从 3 月到 5 月,微博发帖量从 17450 条减少到 10358 条,再减少到 9574 条,呈显著下降趋势,这表明公民分享情感和观点的积极性降低了。其次,三个月内的帖子明显集中在中心城区,这表明这些地区的人们更加活跃,或者说那里的情绪反应更加紧张。
图9. 微博帖子的情绪分布(正面:1,负面:-1)

在封锁前夕(3月),当人类的流动性没有受到极端限制时,我们发现居住在绿化感知较好的社区的居民与较低的负面情绪值相关,这与之前以中等隔离情况为背景的研究一致(Guo et al., 2022; Spano et al., 2021)。

在最严格的封锁期中(4月),解释变量(例如建筑环境和人口统计)对负面情绪的直接影响被封锁严重性的压倒性影响所掩盖。换句话说,在极端封锁期间存在一些看不见的/潜在的变量,未来的研究可以对其进行进一步的调查。此外,在微博上删除与治理政策极端对立的声音和观点(Bernardini, 2023; Burgess, 2022)也可能导致模型拟合度下降。显著的变量包括前一天确认的COVID-19病例数、女性人口比例、感知绿度、住房价格、住宅区建造年份、兴趣点(POIs)密度以及到最近地铁站的距离。

作为封锁的缓解阶段(5月),这可能是因为当居民的日常生活逐渐恢复正常时,建筑环境和人口属性无法捕捉的潜在变量所产生的噪音和干扰减少了,从而获得了更好的解释力。显著变量包括女性人口比例、常住人口(即湖口)比例、绿化感知、住房租金、住房价格以及与市(区)中心的距离。绿色感知越高,负面情绪越低,这证实了在考虑空间效应的情况下,绿地可能有助于改善情绪健康。

总体而言,SLM 模型表现良好,本文的讨论和解释基于 SLM 的结果。图10 描述了三个月的SLM模型系数,其直接影响可解释为弹性。

10. 空间滞后模型系数
一些建筑环境质量指标在 3 月和 4 月间表现出相反的迹象,5 月绿色感知恢复到封锁前的水平,这证实了我们的假设,即在严格的封锁条件下,居住在较好社区环境中的居民可能更容易受到负面情绪的影响。此外,建筑年份(CstrYr)也是影响最大的因素之一。在所有三个封锁阶段,较高的房屋租金(Rent_sq)和房屋价格(Price_sq)都与较低的负面情绪相关。老年人口的存在与负面情绪的产生之间的动态相关性也证实了我们的假设,即情绪决定因素可能会根据检疫措施的严格程度表现出不同的作用,甚至是相反的作用。女性人口比例(%_Female)持续显示出对负面情绪的缓解作用。常住人口百分比(%_Hukou)在三月份与负面情绪呈正相关,在 4 月和 5月出现了反转。在三个阶段中,COVID-19 病例数比前一天增加 1%(Yest_CVD)与较高的负面情绪(0.34%/0.17%/0.09%)持续相关。

本文以上海封锁期间的公民情绪为案例,检验了以下假设:当人的流动性和日常需求得不到满足时,公民情绪与描述建筑环境、生活条件和社会人口的负面情绪决定因素之间的相关性可能会出现不同程度的差异,甚至表现出反向效应。我们呼吁在公共卫生危机期间制定更有针对性和以人为本的治理政策,在后流行病时代优先考虑城市恢复力(Chu et al., 2021)、城市正义和可持续发展。

城市感知计算
认识世界和改造世界,张岩博士和志愿者团队搭建的非盈利城市科学分享平台,欢迎加好友学术交流。
 最新文章