使用大语言模型和结构叙事文本嵌入绘制新闻叙事图谱

文摘   2024-11-21 20:25   江苏  

『柏拉图说』是由南京大学计算传播学实验中心的成员们于20224月发起的论文精读与推介活动,我们将定期推送新闻传播学TOP期刊最新内容、新闻传播学前沿及相关量化研究方法论文。我们致力于深耕传播学领域,紧跟专业研究热点,延伸学术视角,拓展群体智慧。

柏拉图说 论文推介第 168



Elfes, J. (2024). Mapping News Narratives Using LLMs and Narrative-Structured Text Embeddings.arXiv preprint arXiv:2409.06540.

引言

叙事作为一种理解世界的方式,已经影响到心理学、社会学、认知科学和经济学等多个领域。叙事不仅仅是个体的表达,更是形成群体发展和塑造社会事件的基础。特别是在冲突中,不同叙事可以强化对立群体的身份认同,使得冲突超越局部,影响国际社会的态度与反应。研究中提到的例子包括乌克兰战争中对军事行动不同的描述,以及以色列-巴勒斯坦冲突中对“侵略者”的界定,这些叙事方式直接影响到公众对冲突的感知。

在数十年来的叙事研究中,虽然有大量的定性方法,如文化叙事分析和话语分析等,但量化叙事仍然是个挑战。传统的叙事分析方法往往难以普遍适用于不同类型的文本,因此作者提出了一种通过结构主义语言学的行动模型(Actantial Model)来捕捉叙事结构的框架,以解决这一普遍性问题。

相关工作

作者首先综述了与叙事分析相关的研究工作,特别是话题建模和叙事理解的进展。话题建模最常用的方法包括LDA(Latent Dirichlet Allocation)和BERTopic,它们通过识别文本中的频繁词汇组合来发现潜在话题。然而,与传统的仅仅关注文本主题的方法不同,叙事分析涉及更深层次的文本理解,即探讨某一特定话题是如何被叙述的。

作者还探讨了在社会科学中关于“框架”和“叙事”之间区别的争议。Entman(1993)提出,框架通过增加或减少特定议题的显著性来影响公众的认知,而叙事则更为复杂,涵盖了事件、角色以及它们之间的关系。该论文采用了一种更高层次的定义,将叙事作为对信息进行解释的工具,通过结合框架和叙事概念,探索如何通过叙事来组织新闻报道中的意义。

叙事理论

论文采用了结构主义语言学家Greimas提出的行动模型来定义新闻文章中的叙事结构。

A. 文化叙事

文化叙事是指抽象于个体故事之上的、共享的集体意义和趋势。这些叙事帮助人们理解新的信息,形成对事件的共同解释。通过分析新闻文章的叙事结构,作者试图揭示出这些文章背后所蕴含的文化叙事。例如,在关于以色列-巴勒斯坦冲突的新闻中,通过抽象出文章中的角色及其关系,可以更好地理解报道如何塑造公众对该冲突的看法。

B. 行动模型

Greimas的行动模型将叙事分为六个功能性角色,分别是主体(Subject)、客体(Object)、发送者(Sender)、接收者(Receiver)、帮助者(Helper)和对手(Opponent)。每个角色在叙事中的作用是不同的。例如,主体是执行行动并希望得到客体的角色,而对手则是阻碍主体达成目标的角色。该模型使得叙事分析可以抽象到角色功能的层面,便于比较不同文本的叙事模式。这种模型特别适用于跨越不同类型、主题和媒介的叙事分析。

方法

论文提出了一个基于行动模型的叙事提取和分析框架,涵盖了从文本抽取行动角色到生成嵌入、降维及最终的聚类分析的一系列步骤。

A. 提取模型

第一步是从新闻文章中提取Greimas的行动模型的六个角色。作者采用了Llama-3-8B-Instruct模型进行无监督提取。通过给定特定的提示,模型能够识别出每篇文章中的主要行动角色,并输出为JSON格式。提取的角色包括文章中的主要人物,如“以色列”、“哈马斯”等,这些角色在叙事中扮演特定的功能。

B. 文本嵌入

在提取出行动模型后,作者将其转换为数值嵌入。文本嵌入用于将自然语言表示转换为高维空间中的位置,使得语义相似的词或短语在空间中靠近。论文中选用了BERT-based的E5-large模型来生成嵌入,该模型在计算性能和结果质量之间取得了平衡。每个角色的文本表示被转换为一个1024维的嵌入向量,以捕捉角色的语义内容。

C. 叙事结构化文本嵌入

为了创建叙事结构化文本嵌入,作者将每个角色的嵌入向量连接起来,形成一个6×1024维的向量。相比于传统的均值池化(mean pooling),这种连接方式能够敏感地反映结构和语义的变化。例如,如果替换掉主体,嵌入将会根据新的角色的语义变化;如果交换主体和客体,结构上的变化也会影响嵌入的结果。

D. 降维

由于连接后的嵌入维度较高,直接进行聚类分析难以有效识别出高维空间中的密集区域,因此作者采用奇异值分解(SVD)来进行降维,将每个角色的嵌入从1024维降至34维,以减少方差。这样做有助于去除词汇表述中的微小差异,保留叙事角色之间的重要区别。最终嵌入维度为6×34=204维。此外,为了增强聚类效果,作者还使用UMAP将降维后的嵌入投影到二维平面上,以便可视化和进一步的聚类分析。

E. 聚类

在降维后的数据上,作者采用了基于Ward链接的凝聚层次聚类法来识别文化叙事。该聚类方法旨在探索叙事的层次性,识别叙事中较大的主题及其分支。通过轮廓系数,作者确定了最优的聚类数量,并最终获得了18个不同的叙事簇。

V. 数据集

论文使用的新闻数据集包含从阿尔及利亚和《华盛顿邮报》收集的5342篇新闻文章,时间范围包括2022年8月至2024年3月,内容涵盖以色列和巴勒斯坦之间的冲突,尤其是2023年10月7日哈马斯袭击事件及其后续的以色列军事反应。这些文章中,阿尔及利亚的报道占54%,《华盛顿邮报》占46%。

通过分析这些文章,作者识别出了18个不同的叙事趋势,这些趋势反映了不同媒体在报道相同事件时的叙事偏好。例如,《华盛顿邮报》的报道往往以美国对以色列的支持为主,而阿尔及利亚则更关注巴勒斯坦平民的困境。通过将文章的叙事结构聚类,作者能够更好地理解每个新闻来源的编辑立场和整体叙事方向。

结果

A. 聚类概览

作者通过对以色列-巴勒斯坦冲突的报道进行聚类,发现了两个大的叙事组件。第一个组件中,哈马斯作为对手,文章集中描述了以色列的行动和哈马斯的反应;第二个组件中,以色列作为对手,文章则更侧重于报道巴勒斯坦人对以色列行动的反抗。


B. 行动模型的模式

通过分析行动模型的结构,作者发现了一些重复出现的叙事模式。例如,主体和发送者的角色合并在一个角色中,这使得该角色在叙事中占据主导地位。在以色列-巴勒斯坦冲突的报道中,以色列和哈马斯都曾经在这一模式中扮演主导角色。

C. 不同新闻来源的比较

不同新闻来源在报道同一事件时的叙事方式有所不同。例如,《华盛顿邮报》更关注美国对以色列的支持,许多文章强调了美国总统拜登对以色列的声援;而阿尔及利亚则更多地关注以色列的军事行动对平民的影响。作者通过对比这些叙事簇,揭示了不同新闻机构在报道中所采用的叙事策略差异。


D. 与BERTopic的对比

为了展示新方法的优越性,作者将其与BERTopic进行了对比。BERTopic无法有效地区分那些在叙事结构上存在显著差异的文章,例如,两个关于同一主题的文章虽然词汇相似,但由于叙事结构不同,在BERTopic的嵌入中未能被正确区分,而本文的方法能够有效区分出这种差异。


局限性

尽管该方法在分辨叙事结构上表现出色,但仍存在一些局限性。例如,论文仅关注每篇文章中提取的第一个角色,这对包含多个叙事的长文来说有一定限制。此外,由于角色提取采用开放的标签集,某些角色在不同文章中以多种形式出现,导致最终聚类的解释性变得复杂。未来工作将尝试解决这些问题,以提高模型的通用性和准确性。

结论

论文提出了一种基于结构主义语言学理论的叙事结构化文本嵌入方法,能够在语义和结构两个层面上对文本进行量化表示。该模型适用于跨越不同主题和媒体的叙事比较,为新闻叙事的量化研究提供了一个通用的框架。通过对以色列-巴勒斯坦冲突的案例分析,作者展示了该方法在识别和区分复杂叙事结构方面的有效性,为跨文化、跨媒介的叙事比较研究提供了新的可能性。




作者信息

Jan Elfes University College Dublin

分享者

刘杨栋

南京大学新闻传播学院博士生

南京大学计算传播学实验中心成员

研究方向:国际传播、计算叙事

计算传播学园
寻找人类传播行为的基因,通往计算传播研究之路
 最新文章