我是@扣子Bolt,关注【AI工具|科研学术 | 博士生活 | 网络创业|自我提升】,利用AI工具提升科研效率和自我成长,这是我在公众号发布的第【82】篇原创内容。
GPT is an effective tool for multilingual psychological text analysis.
研究背景
研究问题:这篇文章探讨了大型语言模型(LLM)GPT是否可以作为自动化心理文本分析的工具,用于在多种语言中检测心理构造(如情感、离散情绪、冒犯性和道德基础)。
研究难点:现有的文本分析方法存在准确性和多语言处理能力的限制。词典方法虽然易于使用,但在检测心理构造时准确性较低。机器学习方法虽然更准确,但需要大量的训练数据和高级编码技能。此外,现有方法在处理多语言数据时存在局限性。
相关工作:计算社会科学领域已经使用自动化文本分析来研究社会趋势、社交媒体病毒式传播、心理健康状况与意识形态、个性等。然而,大多数方法依赖于西方、受教育、工业化、富裕和民主(WEIRD)人群和英语数据集,缺乏对少数语言和文化的研究。
研究方法
这篇论文提出了使用GPT进行自动化心理文本分析的方法。具体来说,
GPT模型:GPT是基于Transformer架构的大型语言模型,通过在大量互联网文本(如Common Crawl或Wikipedia)上进行训练,使其能够在多种语言中进行文本分析任务,而无需额外训练(称为“零样本学习”)。
提示(Prompting):GPT通过“提示”生成输出,即人类用户提出的问题。例如,“这段文本的情感是积极的、消极的还是中性的?请用数字1到3回答:1表示积极,2表示中性,3表示消极。”这种方法的优点是直观且灵活,不需要高级编码技能。
性能评估:使用准确率和平均F1值来衡量GPT的性能。准确率是正确评分的数量除以总评分数量。平均F1值是一个更复杂的指标,考虑了GPT的各种错误类型(假阳性和假阴性),并在机器学习文献中广泛使用。
实验设计
数据集:使用了15个数据集,共47,925条手动标注的推文和新闻标题,涵盖12种语言。这些数据集包括情感、离散情绪、冒犯性和道德基础的心理构造。
实验设置:使用GPT API反复提示GPT,使用R或Python代码。提示尽可能接近人类注释器的指令。比较了GPT与其他常见文本分析方法(如词典方法)和顶级调优机器学习模型的性能。
样本选择:选择了来自SemEval竞赛的英语和阿拉伯语推文数据集,以及其他语言的推文和新闻标题数据集。还分析了非洲八种较少使用的语言的推文数据集。
参数配置:使用温度设置为0的GPT模型以获得最高概率预测。对于Likert量表数据集,使用Spearman相关系数评估GPT与人类评分的相关性。
结果与分析
情感分析:在英语和阿拉伯语推文中,GPT-3.5 Turbo的准确率分别为0.673和0.700,F1值分别为0.685和0.720。GPT-4和GPT-4 Turbo在英语和阿拉伯语推文中的表现略低于GPT-3.5 Turbo,但仍优于SemEval竞赛中的最佳模型。
离散情绪检测:在英语和印度尼西亚语推文中,GPT-3.5 Turbo的F1值分别为0.714和0.686。GPT-4 Turbo在英语和印度尼西亚语推文中的F1值分别为0.782和0.785,接近或超过了顶级调优的BERT模型。
冒犯性检测:在英语和土耳其语推文中,所有版本的GPT的F1值均在0.709到0.762之间。尽管表现不如顶级模型,但仍优于词典方法。
Likert量表数据:GPT-3.5 Turbo、GPT-4和GPT-4 Turbo在新闻标题数据集中的Spearman相关系数分别为0.56到0.74,表明GPT能够准确检测心理构造,无论评分格式如何。
非洲语言情感分析:GPT在较少使用的非洲语言中的表现从GPT-3.5的均值F1=0.455提高到GPT-4 Turbo的均值F1=0.600,显示出显著的改进。
道德基础检测:GPT在检测道德基础时的F1值在0.130到0.534之间,表明在某些复杂构造上的表现较弱。
总体结论
这篇论文展示了GPT作为自动化心理文本分析工具的潜力,能够在多种语言中准确检测情感、离散情绪、冒犯性和道德基础。GPT在准确性和易用性方面优于现有的词典方法和许多调优的机器学习模型,特别是在较少使用的语言中表现出色。尽管在某些复杂构造上表现较弱,但GPT的灵活性和无需训练数据的特点使其成为跨语言研究的强大工具。未来研究应继续探索GPT在不同语言和文化中的准确性,并评估新LLM在文本分析任务中的效果。
论文评价
优点与创新
多语言支持:GPT在多种语言(包括较少使用的非洲语言)中表现出色,显示出其在跨语言文本分析中的潜力。
无需训练数据:GPT能够在零样本学习(zero-shot learning)的情况下准确检测心理构造,无需额外的训练数据。
简单易用:GPT使用简单的提示(如“这是文本的负面情绪吗?”)即可进行文本分析,不需要高编码经验。
高准确性:GPT在情感分析和离散情绪检测方面表现优于现有的英语词典分析方法,并且在许多情况下接近或超过顶级调优的机器学习模型。
跨语言一致性:不同版本的GPT在输出上具有高度一致性,表明其结果可靠。
灵活性:GPT可以在不同的上下文中灵活应用,适用于多种数据集和语言。
成本效益:尽管GPT API的使用成本较高,但相较于雇佣人工标注者或设计新的机器学习分类器,其成本仍然较低。
不足与反思
版本差异:尽管不同版本的GPT在输出上具有一致性,但在某些任务上,最新版本的GPT可能表现出跨语言的偏见,例如高估文本的情感。
复杂构造的检测:GPT在处理更复杂或难以定义的心理构造(如纯洁度的道德基础)时表现较差。
测试-重测可靠性:尽管GPT在不同运行之间表现出极高的可靠性,但其输出并非完全确定性,可能会影响可重复性。
词典方法的局限性:尽管GPT在情感和情绪检测方面优于词典方法,但词典方法在某些情况下可能更具解释性。
未来研究:未来的研究应继续探索GPT和其他大型语言模型在不同语言和文化背景下的准确性,以评估这些发现的普适性。
关键问题及回答
问题1:GPT在不同语言中的情感分析性能如何?
在英语和阿拉伯语数据集中,GPT-3.5 Turbo的情感分析准确率分别为0.673和0.700,F1值分别为0.685和0.720。GPT-4和GPT-4 Turbo在英语和阿拉伯语上的表现略低于GPT-3.5 Turbo,但仍优于SemEval比赛的顶尖模型。这表明GPT在不同语言中的情感分析性能是可靠的,并且在不同语言间表现出相似的水平。
问题2:GPT在处理连续量表情感分析任务时的表现如何?
在新闻标题数据集中,GPT-3.5 Turbo的相关系数在0.56到0.74之间,GPT-4的相关系数在0.66到0.75之间,而GPT-4 Turbo的相关系数在0.59到0.77之间。这些结果表明,GPT能够准确检测心理构造,并且在处理连续量表情感分析任务时表现出色,与人类标注的结果高度相关。
问题3:GPT在非洲语言中的情感分析性能如何?
在八个非洲语言的数据集中,GPT-4 Turbo的平均F1值从GPT-3.5的0.455提高到0.600,表明GPT在少数语言中也表现良好。尽管GPT在最初的一些语言(如宗加语)中表现不如预期,但随着模型的更新(如GPT-4和GPT-4 Turbo),其在这些语言中的性能显著提高。这显示了GPT在处理非洲语言情感分析任务时的潜力和改进空间。
Rathje, S., Mirea, D.-M., Sucholutsky, I., Marjieh, R., Robertson, C. E., & Van Bavel, J. J. (2024). GPT is an effective tool for multilingual psychological text analysis. Proceedings of the National Academy of Sciences, 121(34), e2308950121. https://doi.org/10.1073/pnas.2308950121
●中科院研究所开源学术写作神器:binary-husky GPT Academic
●一键生成专业图表,秒变麦肯锡风,让PPT档次瞬间提升10倍!
●救命!这个AI助手竟然可以操作浏览器:解锁检索文献、综述新方式
●AI for Grant Writing:斯坦福大学撰写文章和基金本子的ChatGPT指令
●Google NotebookLM带来的启发:实现AI生成中文播客
欢迎关注我的视频号