论文解读 |【ICWSM 2024】基于多角色合作大模型智能体的立场检测

文摘   2024-12-04 17:34   北京  

论文标题:Stance Detection with Collaborative Role-Infused LLM-Based Agents

作者:Xiaochong Lan, Chen Gao, Depeng Jin, Yong Li

发表:The 18th International AAAI Conference on Web and Social Media(ICWSM 2024)


论文链接

https://ojs.aaai.org/index.php/ICWSM/article/view/31360

代码链接:https://github.com/tsinghua-fib-lab/COLA



导读

立场检测旨在自动判定文本作者对特定对象的态度,是互联网与社交媒体内容分析中的重要研究课题。随着大语言模型的迅速发展,研究者开始探索将其应用于立场检测任务。然而,直接使用大语言模型进行立场检测面临两大技术难点:其一,立场检测需要多方面知识来准确理解文本中的专业术语、文化典故和社交媒体特有表达等内容;其二,由于立场往往采用含蓄方式表达而非直接陈述,这对模型的推理能力提出了较高要求。为解决上述问题,本文提出了COLA框架,通过赋予大语言模型不同角色构建协作系统。该框架包含三个关键阶段:在多维度文本分析阶段,由扮演语言学专家、领域专家和社交媒体专家的大语言模型从不同角度解析文本;在推理增强辩论阶段,针对各种可能的立场设置专门的智能体进行辩论,探索文本特征与立场的内在联系;最后在立场总结阶段,决策智能体综合前期分析给出最终判断。COLA框架无需额外标注数据和模型训练即可使用。在SEM16数据集的实验中,该方法比最优的非大语言模型零样本立场检测基线提升了19.2%的性能。消融实验证实了各个模块的必要性。此外,该方法不仅具有良好的可解释性,能为立场判断提供合理依据,还在情感分析等其他文本分析任务中展现出优异表现。综上所述,COLA框架在易用性、准确性、有效性、可解释性和通用性等方面均具备突出优势。



背景介绍

立场检测是网络和社交媒体平台内容分析的重要任务,其目标是自动识别作者对特定对象持支持、反对或中立的态度。多年来,学界提出了大量立场检测方法,但始终面临着一个核心难题:模型需要针对目标进行专门训练。尽管跨目标立场检测和零样本立场检测等研究方向取得了一定进展,但获取标注数据的高成本仍然制约着模型的实际应用价值。


近期,大语言模型在各类任务中展现出的优秀性能为立场检测带来了新的研究思路。大模型天然具备的语义理解能力,加之可通过零样本提示方式进行交互的特点,使其有潜力支持准确、易用的立场识别。因此,如何充分利用大语言模型来提升立场检测效果成为了一个重要的研究课题。


已有研究者尝试将大语言模型应用于立场检测任务,但这些方法没有解决立场检测的两大技术难点:


其一,立场检测需要理解分析多方面信息。如图1所示,文本中往往包含专业术语、文化典故、社交媒体特有表达等多层次内容,需要专门解析才能使大模型准确理解这些文本元素。


其二,立场检测依赖较强的推理能力。在实际场景中,作者经常不会直接表明立场,而是通过对相关话题或事件的态度等方式含蓄表达。这要求模型能够基于各类文本特征进行深入推理,才能准确判断作者立场。


针对上述挑战,本文提出了一种基于多角色注入的大语言模型智能体协作系统。该系统通过赋予不同智能体特定的职责,构建了一个协同工作的框架。具体而言,为了应对第一个挑战,我们设计了多维度文本分析模块,通过语言学专家、领域专家和社交媒体资深用户三类角色的智能体从不同维度解析文本内容;为了克服第二个挑战,我们引入了推理增强辩论机制,通过不同立场智能体之间的辩论过程,引导大语言模型建立文本特征与立场判断之间的逻辑联系。最终,通过一个智能体整合前期分析,给出最终结论。

图1:立场检测的两方面挑战



模型方法

本文提出的多智能体协作框架(COLA)的架构如图2所示。COLA由三个核心模块组成:多维度文本分析模块、推理增强辩论模块和立场总结模块。在立场检测任务中,文本所包含的立场信息既可能以明显特征呈现,也可能以隐含方式存在。为此,我们设计了语言学专家、领域专家和社交媒体专家三类智能体,分别负责提取语言学特征、解析专业内容和理解平台特有表达。基于这些专家智能体的多维度分析结果,辩论模块为不同立场进行论证,最后由立场总结模块的决策智能体整合各方观点做出判断。

图2:多大模型智能体协作立场识别框架COLA


多维度文本分析模块

对文本包含的信息的全面理解是准确识别立场的基础。研究表明,文本中的立场往往通过语言特征、领域知识和平台表达等多个维度共同体现。鉴于不同维度的分析重点存在差异,我们构建了三个具有不同分工的智能体:语言学专家、领域专家、社交媒体专家,来从不同维度分析文本。


具体而言,语言学专家负责从语言学视角解析文本特征,包括语法结构、时态语气、修辞手法和词汇选择等。领域专家聚焦于解释文本中的领域知识要素,例如人物、事件、组织机构、政党和宗教信仰等。社交媒体专家主要分析平台特有表达方式,重点关注hashtag网络用语和情感基调等要素。综上,通过专家智能体分工的方式,确保了对文本信息的全面理解。


推理增强辩论模块

该模块通过引入辩论机制来增强模型的推理能力。具体实现上,设置了支持、反对、中立三种立场的辩论智能体,这些智能体基于专家的文本分析展开论证。在辩论过程中,每个智能体需要从专家提供的多维度分析中筛选支持本立场的证据,构建从文本特征到立场判断的完整推理链条。如此,通过不同立场代理之间的辩论,促使模型挖掘出文本中所有可能的立场线索,提升推理能力。


立场总结模块

在该模块中,一个决策智能体负责最终的立场判定工作。决策智能体综合原始文本内容、文本分析模块中各个专家智能体的分析结果,以及不同立场辩论智能体提出的逻辑链,进行最终的立场判别。在决策过程中,决策智能体评估各方论证的逻辑严密性和证据支撑强度,对不同观点进行权衡判别,最终得出立场判断结果。这种基于全面信息和完整推理的决策机制赋予COLA框架实现准确立场检测的能力;文本信息要素和推理流程的直接呈现赋予了COLA框架良好的可解释性。 



实验结果

我们设计了一系列实验,从立场判断准确性、模块设计有效性、立场判断可解释性、方法泛用性四个维度对COLA框架进行评估。我们采用GPT-3.5-turbo作为实现方法框架的基础模型,采用学界最广泛使用的数据集和指标对我们的方法进行评测。

立场判断准确性

我们在三个广泛应用的立场检测数据集(SEM16、P-Stance和VAST)上评估了COLA的性能,结果如表1和表2所示。在零样本立场检测任务中,COLA在大多数评估指标上都实现了显著的性能提升。具体而言,在SEM16数据集的Climate Change和Legalization of Abortion目标上,性能相比最优基线分别提升了16.9%和26.6%。在包含数万条数据的大规模里立场检测数据集VAST上,COLA相比最优baseline实现了0.7%的提升。值得注意的是,即使对比需要相同目标的标注数据进行训练的目标内立场检测方法,我们无需任何额外数据进行训练的零样本方法也展现出相当的竞争力。在SEM16数据集上,COLA显著优于最佳基线TPDG,特别是在Hillary Clinton和Climate Change两个目标上;在P-Stance数据集上,则在所有目标上持续超越现有方法的性能。

表1:COLA和零样本立场检测基线模型的性能对比


表2:无需标注数据的COLA和依赖标注数据的目标内立场检测方法基线模型的性能对比


模块设计有效性

为验证各模块设计的有效性,我们进行了详细的消融实验,结果如表3所示。结果表明,每个模块的移除都会导致性能下降。在处理依赖语境和背景知识的目标时,移除专家分析会导致性能显著下跌,移除语言学专家、领域专家和社交媒体专家分别导致模型在Legalization of Abortion目标上的立场分类降至68.9%、67.9%和64.1%。总的来说,移除推理增强辩论阶段会带来比移除文本分析阶段更显著的性能损失,尤其是在处理抽象概念目标时。例如,在Legalization of Abortion、Climate Change和Atheism三个目标上,移除推理增减辩论阶段导致分别有31.2%、14.1%和11.2%的显著下降。


表3:消融实验结果


立场判断可解释性

我们使COLA在最终决策阶段中,不仅仅输出立场判断的结果,还输出它对这个判断的解释。通过案例分析和定量实验,我们验证了COLA方法进行立场判断的可解释性。在图3中,展示了案例分析的结果。以第一条关于环境保护的推文为例,模型识别出EPA的提及、#dirtycoal标签的使用以及文本的负面情感基调,准确推断出对气候变化问题的支持立场。在定量评估中,我们将COLA生成的解释作为辅助信息提供给GPT-3.5,显著提升了GPT-3.5在立场检测任务中的性能,例如在Atheism和Climate Change目标上,分别提高了51.6和29.3个百分点。

图3:可解释性案例分析


表4:可解释性定量实验结果


方法泛用性

为验证COLA框架的泛用性,除立场检测之外,我们还将其应用于情感分析和说服力预测两个社交媒体上的文本分类任务,结果如表5所示。在情感分析任务中,我们的零样本方法与依赖标注数据进行训练的最优基线性能相当,在Restaurant15数据集上的准确率甚至超越了现有最佳方法。在说服力预测任务中,相比Hybrid RCNN和GPT-3.5基线,我们的方法在准确率和F1分数上都取得了显著提升。这些结果充分证明了COLA框架在广泛文本分析任务中的适用性。

表5:方法泛用性实验结果



参考文献

[1] Li, Ang, Bin Liang, Jingqian Zhao, Bowen Zhang, Min Yang, and Ruifeng Xu. "Stance detection on social media with background knowledge." In Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, pp. 15703-15717. 2023.


[2] Li, Ang, Jingqian Zhao, Bin Liang, Lin Gui, Hui Wang, Xi Zeng, Kam-Fai Wong, and Ruifeng Xu. "Mitigating Biases of Large Language Models in Stance Detection with Calibration." arXiv preprint arXiv:2402.14296 (2024).


[3] Liang, Bin, Zixiao Chen, Lin Gui, Yulan He, Min Yang, and Ruifeng Xu. "Zero-shot stance detection via contrastive learning." In Proceedings of the ACM Web Conference 2022, pp. 2738-2747. 2022.

数据科学与智能实验室
本公众号为清华大学电子系数据科学与智能实验室的公众账号,主要推送实验室重要通知、日常活动、文章导读、前沿分享等资讯,敬请关注。
 最新文章