当危险来袭:追踪美国对威胁的集体反应的语言工具

文摘   2024-10-15 13:36   美国  

『柏拉图说』是由南京大学计算传播学实验中心的成员们于20224月发起的论文精读与推介活动,我们将定期推送新闻传播学TOP期刊最新内容、新闻传播学前沿及相关量化研究方法论文。我们致力于深耕传播学领域,紧跟专业研究热点,延伸学术视角,拓展群体智慧。

柏拉图说 论文推介第 145 

Choi, V. K., Shrestha, S., Pan, X., & Gelfand, M. J. (2022). When danger strikes: A linguistic tool for tracking America’s collective response to threats. Proceedings of the National Academy of Sciences, 119(4), e2113891119.

摘要

在当今广阔的数字环境中,人们不断接触到威胁性语言,这种语言吸引注意力并激活人脑的恐惧回路。然而,迄今为止,我们缺乏识别威胁性语言及追踪其对人群影响的工具。为填补这一空白,我们开发了一种威胁字典,这是一种计算导出的语言工具,用于索引来自大众传播渠道的威胁水平。我们展示了该测量方法与美国历史上客观威胁的收敛效度,包括暴力冲突、自然灾害和病原体爆发(如COVID-19疫情)。此外,这个字典还提供了对美国社会文化规范、政治态度和宏观经济活动变化的预测性见解。通过分析超过100年的报纸数据,我们发现威胁的变化与更严格的社会规范和集体主义价值观、对现任美国总统的更强支持、民族中心主义和保守主义的增强、股票价格的下跌以及创新能力的降低相关。数据还表明,威胁性语言是具有传播性的。总的来说,威胁语言是一个强有力的工具,可以帮助研究人员和政策制定者了解公众每日接触到的威胁性语言,并揭示美国历史上有趣的社会模式。

研究目标

为了解威胁通过大众传播渠道(如新闻或社交媒体)传播的含义,本研究创建了一种计算语言工具,用于索引文本中的威胁水平。本研究具体目标是:1)开发并验证一种计算导出的测量工具,使用自然语言处理(NLP)方法以识别威胁相关内容;2)追踪威胁在过去100年美国历史中的波动;3)考察这些变化的威胁水平如何提供对美国文化规范、政治态度和宏观经济活动变化的预测性见解。

研究实施

1.开发威胁词典

为了开发一种跟踪传达威胁的形式、频率和强度的语义测量工具,我们采用了一种基于字典的方法。为生成威胁字典,我们采用了一种称为词嵌入模型(WEMs)的技术。这些模型远远超出人类的词汇检索能力,它们接收大量文本数据,并编码输入单词之间的数百万个细粒度语义连接。

为了确保识别出在多种传播环境中表达的威胁词,我们使用了一组WEM,每个模型分别在独特的语料库上进行预训练:1)维基百科文章,2)推特帖子,3)Common Crawl的随机网页样本(GloVe)。维基百科提供了百科全书式的内容,而推特帖子则是社交媒体上的实时互动。第三个模型基于Common Crawl的多样化网页元数据,代表了在广泛语境中使用的语言。通过这三种WEM,我们扩展了词汇采样的范围,提高了提取在各种传播渠道中常见的威胁词的能力。

2.检验威胁词典的收敛有效性

通过展示威胁词使用模式随时间变化与美国历史上人们面临的重大威胁的真实时刻之间的对应关系来检验威胁字典的收敛有效性。将威胁字典应用于1900年至2020年的时间戳新闻文章,计算了威胁字典术语在新闻文章中的出现率,按月和按年在州和国家层面进行统计,并根据相应的文章页面出版数量对总计数进行了调整,产生了主要时间序列数据集,用于追踪过去一个世纪美国历史中的威胁水平变化。

首先基于从Newspapers.com计算出的威胁指数,检查了过去100年美国历史中的威胁水平的长期描述趋势。现有理论和许多学者的数据驱动工作认为威胁水平在历史上处于下降状态。由于普通最小二乘估计与时间序列数据容易产生自相关残差,我们采用了具有最优自回归综合滑动平均(ARIMA)误差的模型。1900年至2020年间美国威胁水平的逐渐下降仍然显著,解释了ARIMA调整后系列方差的98%。

ARIMA模型也有助于进行预测,因为它们捕捉系列中的自相关和非线性趋势。应用之前确定的ARIMA参数,我们对威胁系列进行了未来20年的预测(2020年至2040年)。与线性预测值的近似不同,基于ARIMA的预测的平均预测表明,未来几十年威胁水平可能会上升,反映出过去八年威胁水平的正趋势。然而,广泛的预测区间表明,这一趋势不确定,需谨慎解读,尤其是因为不可预测的未来事件可能影响这些预测。

3. 通过展示威胁字典与实际生命威胁事件的收敛性来验证字典

关注三个社会生态威胁领域,这些威胁在历史上无差别地危及人类生命:暴力冲突、自然灾害和病原体爆发。当这些集体危险在美国历史的某个时间或区域增加时,预期相关的威胁词在大众传播渠道中的使用也会增加。我们的基准数据来自美国自1900年以来参与军事冲突的时间点、1953年至2020年联邦应急管理局(FEMA)关于严重自然灾害案例的报告,以及1980年至2014年主要传染病导致的地区死亡率数据。特别是在2020年初,随着COVID-19疫情严重性的加剧,我们分析了来自每个美国州的每日24万条推特帖子。这一数据集使我们能够考察与不断升级的COVID-19疫情相关的实时威胁动态。

研究结果

①战争与冲突

在所有冲突中,我们发现各州报纸中威胁水平的截距在冲突发生时相对于其之前的轨迹显著增加(见图2)。将结果放入背景中分析,第一次世界大战开始时,报纸中威胁语言的使用水平比预期值增加了0.43点。第二次世界大战开始时,威胁水平增加了0.15点。珍珠港袭击导致威胁水平增加了0.16点。朝鲜战争开始时,威胁值跳升至0.30点。当国会通过决议增加在越南的军事存在时,威胁水平上升了0.18点;海湾战争开始时增加了0.36点。9·11恐怖袭击使威胁水平上升了0.16点。在伊拉克战争开始时,威胁水平增加了0.21点。

②自然灾害

收集了FEMA在过去60年内每个州的MDD数量的月度数据,并进行了多层次回归分析,数据按州进行嵌套。此分析是在州级别进行的,MDD的数量可能因每个州的生态脆弱性而有所不同。我们发现,每个州的MDD数量增加与当地报纸中出现的威胁词数量呈正相关(B = 0.003,P < 0.001,95% CI [0.002, 0.004],R² = 0.24)。

③病原体

考察了报纸中的威胁语言是否与病原体相关死亡率的增加有关。通过将所有主要传染病(如肝炎、HIV/AIDS、腹泻病、下呼吸道感染、脑膜炎和结核病)的死亡率合并来计算每个州的年度平均死亡率。结果显示,威胁词与传染病死亡率的增加呈正相关(B = 0.10,P < 0.001,95% CI [0.07, 0.12],R² = 0.37)。

考察了威胁字典是否能够捕捉COVID-19疫情严重程度的增长。随着COVID-19病例(事件率比 [IRR] = 1.02,95% CI [1.01, 1.02],P < 0.001)和死亡人数(IRR = 1.02,95% CI [1.02, 1.03],P < 0.001)的增加,推文中的威胁词也相应增加。平均而言,每增加10倍的阳性病例,推文中的威胁词数量增加4%;每增加10倍的死亡人数,威胁词数量增加5%。

考察了威胁语言是否具有传染性。运行了负二项回归,并测试推文中威胁词数量是否可以预测其转推率,同时控制了多种推特协变量,如用户的关注者数量、推文中的URL和用户的认证状态。我们发现,包含更多威胁词的COVID-19推文获得了更多转推(IRR = 1.18,95% CI [1.15, 1.21],P < 0.001)。平均而言,在推文中添加一个威胁词将其预期转推率提高了18%,这表明威胁词在社交媒体上的传染特性。

测试了我们的威胁度量是否在超越道德–情感度量的基础上预测转推率。我们重复了相同的分析过程,并使用先前研究中的相同协变量,同时将威胁词和道德–情感词的测量作为模型的预测变量。在控制道德–情感词的影响后,向推文中添加一个威胁词将其预期转推率提高了15%(IRR = 1.15,95% CI [1.12, 1.19],P < 0.001)。表明引发潜在威胁的语言线索具有吸引人注意的修辞优势,并能传播给更多人。

4.从美国报纸索引100年威胁数据以进行国家相关的历史分析

考察威胁水平的变化如何与文化规范(文化紧密性和集体主义)、政治变化(对现任美国总统的支持、共和党认同和反移民态度)以及宏观经济活动(美国股市变化和创新率)的变化相关。

为此分析,我们解决了时间序列数据结构的一些常见问题特征,包括序列依赖性和滞后预测误差,这可能导致虚假发现。为此,我们拟合了ARIMA模型,以测试这些关系的线性近似,并对解决这些时间依赖性的误差项进行了调整(26)。ARIMA误差指定了三个主要参数(p,d,q)。p组件表示模型自回归结构的滞后数,d参数指的是稳定时间序列方差所需的差分阶数,而q项则表示解释模型滞后随机误差的移动平均值。对于每月收集的数据,这三个参数还扩展为捕捉任何季节性影响,采用大写形式(P,D,Q)。我们使用一种算法(24)来确定ARIMA模型的参数,该算法系统地搜索参数的最佳组合,以最小拟合误差为基础,依据赤池信息量准则(AIC)。ARIMA模型的分类和结果见表1。

研究结果

1.文化变迁

我们预期美国的威胁水平变化与其文化紧密性和集体主义倾向的转变相关。

为了量化这些文化特征从我们的报纸语料库中逐年变化,我们使用了先前验证过的紧密性–松散性和集体主义的语言测量。与紧密文化相关的词汇包括“限制”、“遵从”和“指令”,而代表松散文化的样本词则是“允许”、“余地”和“无限”。对于我们的集体主义术语,我们使用了第二人称代词,如“我们”和“我们”。我们统计了这些关键词在我们的报纸语料库中的相对频率,以获得从1900年到2020年这些文化特征的月度变化时间序列。

与我们的预测一致,ARIMA模型的结果显示,威胁的变化与美国的文化紧密性呈正相关(B = 0.08,95% CI [0.05, 0.11],P < 0.001)以及集体主义倾向(B = 0.54,95% CI [0.43, 0.65],P < 0.001)。

2.政治变迁

不确定性–威胁模型整合了这些理论,认为在危险情况下,人们希望维持现状,以减轻他们的不确定感和恐惧。这在政治偏好和态度上表现为更保守,支持现有制度权威,并且民族中心主义。

本研究政治指标的数据来源于盖洛普,这是追踪美国人态度趋势的最古老民意调查服务。关于领导人支持的分析中,我们考察了美国总统的支持率,使用了盖洛普流行的调查问题:“您是否赞同或不赞同[填写总统姓名]担任总统的方式?”自1945年以来,这个调查问题的频繁施测(每日到每周)使得其可以聚合为月均值。作为民族中心主义的衡量,我们考察了每年报告偏好减少美国移民的美国人比例,该数据自1965年以来可用(没有月度数据)。最后,关于共和党认同度的数据来自盖洛普的调查问题,询问美国人最认同哪个政党——通过计算共和党认同者在共和党和民主党认同者中的年占比得到。

我们的研究结果显示,威胁水平的上升与美国人对现任总统(从哈里·杜鲁门到唐纳德·特朗普)的支持率上升相关(B = 0.06,95% CI [0.02, 0.10],P < 0.01);与民族中心主义态度(即希望减少国家移民的美国人比例;B = 0.35,95% CI [0.12, 0.58],P < 0.01)的上升;以及更强的共和党认同度(B = 0.24,95% CI [0.01, 0.46],P < 0.05)相关,这表明在高威胁时期保守主义的增长。

3.宏观经济变迁

作为国家金融健康的晴雨表,我们汇总了美国证券交易所三大市场指数的每日收盘股价:标准普尔500指数(S&P 500)、道琼斯工业平均指数(DJIA)和全国证券交易商协会自动报价综合指数(NASDAQ)。

我们发现,报纸上更高的威胁水平与S&P 500(B = -0.01,95% CI [-0.24, -0.04],P < 0.001)、DJIA(B = -0.03,95% CI [-0.04, -0.02],P < 0.001)和NASDAQ(B = -0.01,95% CI [-0.02, -0.001],P < 0.05)的股市回报显著负相关。威胁的增加也与USTO报告的专利申请数量负相关(B = -0.10,95% CI [-0.15, -0.04],P < 0.001)。表1总结了这些ARIMA模型的结果,显示威胁与这些指标之间的关系在控制了人均实际国内生产总值(GDP)后仍然显著,只有共和党派别的结果例外。

为了理解这些跨时间关系的方向性,我们进行了Granger预测因果关系测试,研究威胁水平是否在这些文化、政治和经济变化之前发生。在两组Granger分析中,测试了两个潜在的方向可能性:1)将威胁建模为预测变量,2)将威胁建模为结果变量。

进行Granger测试时,我们使用前述的ARIMA程序消除了每个单独序列的时间依赖性,然后提取每个序列的残差。在对所有可能的高达5年滞后期的模型比较后,报告的模型对应于根据AIC估计最优模型拟合的滞后长度。结果表明,在我们威胁测量的最佳滞后下,威胁水平显著预测了文化的紧缩性、集体主义、S&P 500和DJIA——超出了标准的滞后值对其自身当前值的预测。反向方向在这些指标上也被发现显著。例如,正如股市表现受到威胁消息的影响一样,股市的下跌本身也会造成国家金融威胁。与此同时,威胁的滞后显著预测了NASDAQ的结果,而反向方向不显著。尽管相关性显著,但我们的Granger模型未能显示威胁与其余指标之间的显著滞后因果链接,这可能表明周期性问题,即方向性对高频月度数据敏感。例如,关于共和党派别变化、反移民观点和专利数量的数据是基于可用数据按年度评估的。这可能意味着这些社会指标变化迅速或快速趋于稳定,因此解释了为什么低频年度滞后无法捕捉到方向性。

讨论

本研究的主要目标是展示如何利用语言来估计历史上各种威胁的发生及其对社会文化、政治和宏观经济活动的影响。结果显示,这些威胁指数与实际高威胁事件之间的收敛支持了我们威胁测量的稳定性和普遍性。

我们的语言工具为社会对广泛传播威胁的反应提供了预测性的见解。通过多种时间序列分析方法,我们展示了历史上威胁水平的模式与股市趋势、保守的政治态度、总统批准率以及文化规范变化的关系,该研究的方法和发现可以扩展到其他语言和国家背景。

此外,未来的研究可以探讨该字典与我们研究之外的其他现象(例如宗教性、外交政策和经济投资等)的关系。此外,未来研究如果寻求在语言上测量特定类型的威胁,可以应用我们的测量开发过程来创建更专业的字典,例如针对大规模枪击事件或网络安全威胁的字典。

威胁字典在理解许多重要社会问题方面可能是有用的。这个语言工具也可以用来考察威胁(无论是真实还是操控)如何在社交媒体上传播及其在线和离线的负面影响。

过度使用威胁词可能也解释了那些不利于健康的在线内容的令人不安的受欢迎程度。威胁词的使用是一种显著而有力的修辞手段,可能对未来研究旨在遏制信息错误、偏见和大众恐慌等现象具有重要影响。

威胁字典为高时间分辨率地收集不同媒体平台和不同分析层面上变化的威胁水平数据提供了机会。未来的研究将能够正式测试现有理论工作,之前缺乏足够的长期测量来实证验证对集体威胁的社会反应假设。威胁字典扫描文本中威胁相关词汇的能力,不仅揭示了人们每天接触这一术语的情况,还揭示了使有趣的社会模式在历史中可见的语言足迹。



主要作者简介

Virginia K. Choi
University of Maryland, College Park


分享者介绍

陈敏扬
chen-minyang.github.io
南京大学新闻传播学院硕士研究生
南京大学计算传播学实验中心成员
研究方向:文本分析


计算传播学园
寻找人类传播行为的基因,通往计算传播研究之路
 最新文章