大语言模型挑战众包工人

文摘   2024-07-16 18:00   广东  


图片来自网络

研究背景

随着大语言模型ChatGPT横空出世,越来越多的人开始研究和运用此类大语言模型。有研究发现,在众包平台MTurk上大约有33%-46%的众包工人使用ChatGPT来完成众包工作[1]。这一现象引发了许多研究人员的关注,并对此提出了以下两个研究问题:大语言模型是否能够比众包工人更出色地完成众包任务?如何利用大语言模型更好地完成众包任务?


研究方法及结果

问题一:大语言模型是否能够比众包工人更出色地完成众包任务?

研究方法及结果:研究者通过大语言模型和众包工人在多个众包数据集上的标注表现来比较两者的能力差异,比较结果指出目前的大语言模型展现出了同众包工人相当的标注能力,但是在一些较复杂的标注问题上仍有欠缺[2]。因此,我们需要对第二个问题进行仔细讨论。


问题二:如何利用大语言模型更好地完成众包任务?

研究方法及结果:研究者们提出了两类在众包任务中使用大模型的方法:大语言模型直接替代众包工人法(直接替代法)[3]和大语言模型与众包工人相结合法(结合法),并分别对这两种方法进行了实验。

图1 直接替代法实验示意图

🔹 直接替代法:研究者考虑了一种众包任务以及下游任务,即基于众包数据的模型训练。与传统的通过众包任务生成训练数据不同的是,实验先令人类对大语言模型进行少样本的验证训练,然后令该大模型生成训练数据,并喂给训练模型,如图1所示。实验结果表明,由大模型生成数据训练而成的模型的性能低于只经过少样本验证训练的大语言模型和由人类生成数据训练而成的模型。这表明如果用大语言模型直接替代众包工人可能会导致众包下游任务的性能下降。


🔹结合法:将众包工人和大语言模型相结合的方法有很多种,主要分为聚合法[3],筛选法[4]以及分拣法[5],如图。

    ▪聚合法:众包平台将众包任务平等地发给众包工人和大语言模型,即两者所需完成的众包任务完全一致。实验发现通过聚合众包工人和大语言模型的众包任务结果,众包任务的完成质量得到了显著提升。

    ▪筛选法:众包平台将所有众包任务都发给大语言模型,并由大语言模型先行完成所有任务,并给出相应的置信度。众包平台再将置信度低于某个阈值的众包任务发给众包工人加以审核验证。这样的方法可以达到和传统众包(即只由众包工人来完成众包任务)相近的性能,同时还节省了2/3的成本。

    ▪分拣法:众包平台提前将众包任务根据难度等属性分类,将更难的众包工作分给众包工人,将较简单的任务分配给大语言模型。这种方法也可以在降低众包成本的情况下,达到和传统众包相近的性能。

相关论文

[1] Veselovsky, V., Ribeiro, M. H., & West, R. (2023). Artificial artificial artificial intelligence: Crowd workers widely use large language models for text production tasks. arXiv preprint arXiv:2306.07899.

[2] Li, J. (2024, April). A Comparative Study on Annotation Quality of Crowdsourcing and LLM via Label Aggregation. In ICASSP 2024-2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 6525-6529). IEEE.

[3] Pangakis, N., & Wolken, S. (2024). Knowledge Distillation in Automated Annotation: Supervised Text Classification with LLM-Generated Training Labels. arXiv preprint arXiv:2406.17633.

[4] Rouzegar, H., & Makrehchi, M. (2024). Enhancing Text Classification through LLM-Driven Active Learning and Human Annotation. arXiv preprint arXiv:2406.12114.

[5] Weissweiler, L., Köksal, A., & Schütze, H. (2024). Hybrid Human-LLM Corpus Construction and LLM Evaluation for Rare Linguistic Phenomena. arXiv preprint arXiv:2403.06965.

写在最后

我们的文章可以转载了呢~欢迎转载转发

想了解更多前沿科技与资讯?

长按二维码关注我们!

欢迎点击右上方分享到朋友圈

香港中文大学(深圳)

网络通信与经济学实验室

微信号 : ncel_cuhk


网络通信与经济
介绍网络、通信和经济交叉领域的最新科研成果和活动 —香港中文大学(深圳)网络通信与经济学实验室
 最新文章