ChatGPT在文本标注上优于众包工作者

文摘   2024-10-21 12:46   江苏  

『柏拉图说』是由南京大学计算传播学实验中心的成员们于20224月发起的论文精读与推介活动,我们将定期推送新闻传播学TOP期刊最新内容、新闻传播学前沿及相关量化研究方法论文。我们致力于深耕传播学领域,紧跟专业研究热点,延伸学术视角,拓展群体智慧。

柏拉图说 论文推介第 150 

Gilardi, F., Alizadeh, M., & Kubli, M. (2023). ChatGPT outperforms crowd workers for text-annotation tasks. Proceedings of the National Academy of Sciences120(30), e2305016120.

摘要

许多自然语言处理(NLP)应用需要人工对文本进行标注,以完成各种任务,尤其是为了训练分类器或评估无监督模型的性能。根据任务的大小和复杂程度,这些任务可能由MTurk等平台上的众包工作者以及经过培训的标注者,如研究助理来完成。通过使用四组推文和新闻文章样本(n = 6,183),我们展示了ChatGPT在几个标注任务上超越了众包工作者,包括相关性、立场、主题和框架检测四个标注评估维度。在四个数据集中,ChatGPT的零样本准确率平均比众包工作者高出约25个百分点,而ChatGPT的标注者间一致性超过了众包工作者和经过培训的标注者。此外,ChatGPT的每个标注成本不到0.003美元——比MTurk便宜约三十倍。这些结果表明,大型语言模型有可能大幅提高文本分类的效率。

介绍

许多NLP应用需要高质量的有标签数据,特别是训练分类器或评估无监督模型的性能。这样的标注工作在先前主要有两种实现路径,一是由研究者招募编码员,对他们进行编码训练;二是直接在MTurk这样的众包平台招募工人。通常来说,这两种路径均是结合起来使用的,即先由训练有素的编码员创建出一个goldenset,然后再雇佣众包工人,按照goldenset的标准继续标注数据。训练有素的编码员编码质量高,但成本高昂,众包工人则相反。

本文考察了LLMs(ChatGPT为重点考察对象)在文本标注任务上的潜力,证明了在0-shot的情况下,ChatGPT在文本标注上的效果要优于通过MTurk众包平台招募工人进行标注的效果。

实验设计

实验设计依赖于6183篇文献样本,包括我们为之前的研究(10)收集的推文和新闻文章,以及2023年发布的推文新样本。在我们之前的研究中,文本由经过训练的注释器(研究助手)标注,用于五种不同的任务:相关性,立场,主题和两种框架检测。使用相同的编码本信息来作为给ChatGPTprompt,给MTurk平台上工人的编码指导。随后,在两个维度上来评估ChatGPT的编码水平,(1)相对于众包工人的准确性(acc)(2)相对于训练有素的编码员及众包工人的编码一致性。

实验结果

我们依靠训练有素的注释者(研究助手)为六个概念类别构建了goldenset:内容适度性问题的推文相关性(相关/不相关);政治议题推文的相关性(相关/不相关);关于230条款的立场,是美国互联网立法的重要组成部分(保留/废除/中立);主题识别(六类);第一组框架(内容适度性作为一种问题,作为一种解决方案,或者说是中性的);和第二组框架(十四类)

对于ChatGPT而言,为了探究温度(Temperature)对结果稳定性的影响,研究进行了对照(Temperature=0.2Temperature=1.0)。在如下图的结果中,呈现了3种编码方式在4个数据集中的性能(准确性acc和编码器间的一致性)Baseline为我们训练好的分类注释器,而编码间一致性则以两个不同的标注者(研究助理,众包标注员,或ChatGPT运行)分配相同标签的推文的百分比来计算。在Accuracy上,4个数据集的结果表明,ChatGPT在多数任务上均优于MTurk众包标注。平均而言,ChatGPT的准确率比MTurk高出约25个百分点。在编码一致性维度上,ChatGPT表现出了巨大的优势,平均来说,MTurk众包标注编码间一致性约为56%,训练有素的注释者的一致性约为79%ChatGPT(Temperature = 1, 0.2)分别为91%97%

进行更进一步的探究,编码器间一致性与准确性之间的相关性为正( Pearson ' s r = 0.36)。这表明,较低的温度值可能更适合于注释任务,因为它似乎在不降低准确性的情况下增加了一致性。ChatGPT的准确率与经过训练的标注者( Pearson相关系数r = 0.46)的编码间一致性呈正相关,这表明对于较容易的任务,ChatGPT的性能更好。相反,ChatGPTMTurk的表现与训练有素的注释者的编码间一致性负相关( Pearson’ s r = -0.37),说明对更复杂的任务有更强的表现。

讨论

我们得出结论,ChatGPT的表现令人印象深刻,特别是考虑到它的标注是在零样本的情况下进行的。基于本研究得出的结果,接下来的一些问题似乎值得期待:(1) 跨多种语言的标注;(2) 小样本学习后的标注;(3) 半自动化标记系统的构建;(4) 使用思维链的方式提升zero-shot的性能;(5) 不同类型LLMs的比较。

主要作者简介

Fabrizio Gilardi 

Fabrizio Gilardi is Professor of Policy Analysis in the Department of Political Science of the University of Zurich. His research agenda focuses on the implications of digital technology for politics and democracy, which he studies in the context of the ERC Advanced Grant "Problem Definition in the Digital Democracy" (PRODIGI, 2021-2025) and the SNF-funded project "Improving the Quality of Online Public Discourse" (2024-2028). 



分享者介绍

黄靖翔

https://huang-jingxiang.github.io/

南京大学新闻传播学院2024级专业硕士研究生
南京大学计算传播学实验中心成员

研究方向:计算传播、自然语言处理


计算传播学园
寻找人类传播行为的基因,通往计算传播研究之路
 最新文章