Nature子刊综述|话里有话:自然语言处理技术用于行为科学研究

文摘   2025-01-20 09:27   山东  

原文引用:

Feuerriegel, S., Maarouf, A., Bär, D. et al. Using natural language processing to analyse text data in behavioural science. Nat Rev Psychol (2025). https://doi.org/10.1038/s44159-024-00392-z
期刊名称:Nature Reviews Psychology
JCR分区:Q1
中科院分区:/
IF2023:16.8


人类产生的文本信息无处不在。比如,平均每人每天收发大约80封电子邮件和50条短信。反过来,这些文本信息可以用来理解人类心理和行为。比如,人们写的文字可以用来预测他们的性格特征,如开放性、严谨性、外向性、亲和性和神经质。

自然语言处理(Natural Language Processing, NLP)技术有助于分析文本数据,其属于计算机科学、人工智能和语言学的交叉领域。NLP开发和使用算法和模型使得计算机以有意义以及有用的方式处理和产生人类语言。NLP方法从简单的方法,如计算单词频率,到高级的方法,如大语言模型(Large Language Models, LLMs)生成和理解文本。NLP自动高效处理大量文本信息的方式使得细微的差异得以被轻松发现。

本次综述首先回顾NLP在行为科学中的应用并介绍相关方法;其次叙述使用NLP的流程或管道(pipeline)以及解释潜在建模方法,包括基于字典方法以及LLMs;然后讨论了这些方法用于行为科学的优势和劣势,特别考虑了可解释性与准确性的平衡;最后提供了将NLP用于行为科学的指导。

  • NLP用于行为科学

研究目的决定所使用的方法。文本分析在行为科学研究中主要用于探索性内容分析(exploratory content analysis);基于心理结构对文本注释(annotating text by psychological construct)以及将结构与行为结果联系(relating constructs to behavioural outcomes)

  • 探索性内容分析

NLP进行探索性内容分析可以在没有预定义假设的前提下,从大型文本数据集中发现模式、主题或见解(图1a)。探索性内容分析通常是在更集中分析或建模前对文本数据进行初步理解,是形成行为假设以及获得定性研究的基础。

图1 NLP在行为科学中的不同目标

NLP进行探索性内容分析常见的方法包括基于频率的分析(frequency-based anylyses; 比如,计算最常用的术语的频率)、共现分析(co-occurrence; 比如,研究单词一起出现的频率)、命名实体识别(named entity recognition; 比如,识别人员、组织或位置)以及聚类方法(clustering approaches; 比如,将文档分类为有意义的主题)。另外,NLP进行探索性内容分析还可以发现语言使用随时间的变化。但是用此方法时需要注意区分词(符号)与概念(含义)。词作为符号可以代表概念,其可能随时间或空间而变化;概念代表了集体理解,其可能以不同的方式保持稳定。

  • 基于心理结构对文本注释

可以对文本进行注释,以识别数据中的心理结构。比如情感分析(sentiment anlysis)和立场检测(stance detection)。两者根据文本的情感(如愤怒、恐惧、悲伤)或态度(如赞成、反对、中立)对文本进行注释。

NLP可以用来自动化这个过程(图1b)。基于关键字方法中,词频是根据一些关键字列表来计算的。机器学习方法中,使用一小部分手动注释的文本(称为标签)训练模型,然后模型可以自动注释大量文本。LLMs方法中,可以简单地根据提示对文本进行注释。

注释方法的选择需要进行可解释性和与准确性之间的权衡(interpretability–accuracy trade-off)。基于关键字方法通常可靠以及可解释,但是也可能不准确;而LLMs方法可以同时考虑上下文和语义,具有很高的准确性。然而,因LLMs的复杂结构,注释文本通常不可解释。

  • 将结构与行为结果联系

NLP生成的文本特征进一步可用来预测感兴趣的结果来研究影响大小或关系(图1c)。比如,特定的文本特征(如代词的使用)与心理结构(如人格特征)或影响认知和情感过程的关系;心理结构影响个体结果(比如,情绪表达如何影响态度形成);预测未来的行为或心理状态(比如情绪、抑郁、焦虑、幸福感、精神障碍和痛苦)(图1d)。

  • NLP管道

使用NLP的关键步骤包括:文本预处理(text preprocessing)、文本表示(text representation)、建模(modeling)和分析(analysis)。这些步骤可以根据所使用的模型而改变(图2)。

图2 NLP管道

  • 文本预处理

文本预处理包括清理和规范化文本数据。首先,预处理去除噪声,例如文档中不相关的部分和拼写错误,否则会导致不正确的结果;其次,文本数据通常来自不同的来源,具有不同的格式、语言和样式。预处理步骤,如小写和删除停止词,确保数据集的一致性,从而使数据统一,更容易分析;第三,文本数据通常是高维的,包含数千个独特的单词和短语。预处理通过降低下游步骤的维数来简化数据集。

  • 文本表示

文本表示是将文本转换成可以更有效处理的数字格式。有两种表示特别常见:词袋(bag-of-words)模型和段落向量(paragraph vector)模型。

词袋模型计算文本文档中单词的频率。输出通常是一个文档-术语矩阵(document-term matrix),其根据术语在每个文档中出现的频率表示文本。然而这种方法有两个主要的缺点。其一是失去了单词的顺序,其二是包含许多频繁但无信息的单词(如“the”)。

段落向量模型计算整个段落或文档的向量表示,而不仅是一个单词,因而也捕捉到上下文中的语义。段落向量模型的输出为词嵌入或文档嵌入。嵌入(embedding)通常通过大型神经网络进行计算,这些神经网络将每个单词(文档)向量放置到高维空间中,这样相似的单词(文档)就会靠得更近,而不相似的单词(文档)就会离得更远。因此,单词(文档)嵌入按语义相似度分组。例如,“happy”的嵌入将更接近于“joyful”,而不是“depressed”。


  • 有监督建模方法

基于上述文本表示的两种方式,可以使用两种常用有监督NLP建模方法,即基于字典的方法和机器学习方法,而机器学习方法可以进一步被分为基于表示的方法和LLMs。每种方法各有其优劣,需要根据具体研究问题选择建模方法,并兼顾可解释性与准确性权衡(图3)。

图3 NLP模型的可解释性与准确性权衡

基于字典的方法(图2a)根据预定义的关键字列表(或字典)为文本分配标签。这些字典事先将单词分为不同预定义的类别,如积极的、中性的和消极的,以及更复杂的类别,如情感、道德语言、政治取向和仇恨言论。这些词在文本中的出现频率被计算出来,并被用来计算一个数值分数。

基于表示的机器学习中(图2b),文本被映射到合适的表示,然后进入机器学习模型来预测感兴趣的标签。


LLMs根据提示(prompt)可以生成类似人类的文本。LLMs可以通过三种方式进行推理(图2c),即零样本提示(zero-shot prompting)、少样本提示(few-shot prompting)和微调(fine-tuning)。零样本提示中,LLM直接响应提示,无需任何额外的数据或训练。少样本提示中,提供一小组带标签的文档或示例来引导LLM。最后,LLM可以使用大量标记数据对特定任务进行微调。

LLMs用于行为科学方面有几个优势。一个是从文本数据中测量心理结构的准确性很高;二是提示技术使用相对容易,这消除了手动调优的需要,减少了分析所需的技术知识;三是可以自动分析不同语言的文本,不必先翻译文本。

LLMs也有明显的缺点。一是缺乏透明度;二是受到算法偏差的影响;三是重现结果可能很困难;四是LLMs创建者可能会限制某些输出,如对政治取向的评论,或使用脏话,这可能与某些行为科学研究问题有关;五是因训练数据有限导致输出结果不太准确;六是重复性较差。

  • 无监督方法

无监督方法在没有标记数据的情况下运行,包含两种常见的无监督方法,即主题建模(topic modeling)和文本相似度(text similarity)

主题建模

主题建模探索文本内容中的底层主题。有两种常用的主题建模方法,即潜在语义分析(latent semantic analysis)和隐含狄利克雷分布(latent dirichlet allocation)。潜在语义分析基于文档-术语矩阵,使用奇异值分解降低词语文档矩阵的维数然后推断相关主题,其较为简单和直观。然而,潜在语义分析不考虑上下文,这对于同义词或理解某些表达可能会有问题。此外,潜在语义分析在计算上不可扩展。

隐含狄利克雷分布是一种概率方法,其假设每个文档为各种主题的混合,而每个主题又分布在单词上。隐含狄利克雷分布具有可解释性,由于其概率性质,它通常比潜在语义分析更适合捕获大型文档集合中的主题,这使得它能够更好地捕获大型文本数据集中的可变性。然而,隐含狄利克雷分布在计算上是昂贵的,并且与潜在语义分析类似,不能捕获单词在上下文中的特定含义。

主题建模的其他方法包括使用嵌入来创建文档表示,然后使用k-means或DBSCAN等算法对其进行聚类。这些方法捕获了文本语义,但它们是不可解释的。目前已经开发适用于基于嵌入主题建模端对端(end-to-end)框架(例如BERTopic)。

主题建模确定主题的数量是具有挑战的。最佳主题数量选择取决于所需的粒度(granularity)和研究领域。可以使用不同数量的主题拟合几个不同的主题模型,然后用不同的度量指标进行比较。当然,有些方法(如HDBSCAN)可以建议推荐的主题数量,然而这并不能作为主要的方式。另外,可以使用可视化或者人为对主题的确认进行验证。降维技术(如t-SNE116)可以应用于嵌入的顶部以可视化集群,观察是否相交。人为也可以通过单词入侵测验(word intrusion test)验证一个主题中的内容是否连贯或主题入侵测验(topic intrusion test)验证文档对主题的分配。前者可以要求人类应答者从每个主题的一组特征词中识别一个入侵词;后者可以给应答者一个文本,并要求他们在其他入侵主题中识别正确的主题。

最后,主题建模中主题命名通常由人为归纳完成。另外,大语言模型也可以通过提示技术协助命名。

文本相似度

文本相似度衡量文档之间的不同程度,也被用来理解人际沟通和个人之间语言使用的相似性。

Levenshtein距离衡量字符之间的相似度(比如,拼写错误有多严重),由将一个单词更改为另一个单词所需的单字符编辑(插入、删除或替换)的最小数量给出。

Jaccard相似度常用于衡量文档之间的相似度,其评估两个文本中常见单词的数量。

这两种相似度指标也可用于语言风格匹配(评估来自两个不同来源的文本在单词选择、语法和其他语言特征方面是否相似),但通常需要额外的预处理(例如,仅比较虚词的术语频率)。

然而,Levenshtein距离和Jaccard相似性都没有捕捉到单词的上下文,因此可能会遗漏语义上的细微差别。

另外,评估文本相似度的高级方法使用嵌入空间中的距离或相似度量。最广泛使用的度量是余弦相似度(cosine similarity),它与经典的欧几里得(Euclidean)距离(两个嵌入向量之间的线段长度)不同,它在高维嵌入中调整了膨胀距离(inflated distances)。然而,并不是所有的嵌入都可以与余弦相似度一起使用,所以要谨慎使用。

  • 分析

解释分析。此时推断的心理结构(或其它NLP建模输出)作为下游分析的输入。推断的心理结构被输入到统计模型(如回归模型)中进行假设检验。值得注意的是:首先,心理结构本身的推断测量可能是有偏的,这也会导致后续分析的有偏。这可以使用SIMEX校正(一种考虑测量偏差的统计技术)。其次,许多NLP分析涉及大型数据集。因此,统计分析应该关注效应大小,而不仅仅是统计显著性,以确定估计效应的实际重要性。再者,解释效应量应以理论为指导,研究人员应评估效应量是否与现有知识一致,将其理论预测进行比较,并解释其实际意义。

预测分析。此时目标是评估模型对新的、以前未见过的数据做出预测有多准确。这个过程需要认真打量模型的泛化能力(即,当应用于模型训练阶段未使用的数据时的准确性)。

进行基线模型比较分析。使用基线模型(比较简单的模型)这有助于将复杂模型的预测性能置于上下文中,并确保复杂模型准确地学习了文本数据和标签之间的关系。比如,为了评估文本数据对整体预测的贡献,可以将预测模型与没有文本的简单基线模型、结构更简洁的模型(例如,用线性模型代替非线性模型),甚至是用不相关信息训练的难以置信的模型(例如,字母“x”在文档中出现的频率)进行比较。

也可以从文本数据中做出因果推断分析,但需要注意确保因果推理的典型假设成立。

  • 建议

以下为对行为科学中使用NLP方法的几个概括性建议。

第一,强调验证。首先是结果验证,将NLP分配的标签与人类手动分配的少部分标签进行比较。同时注意人类手工注释的标签应当具有可靠性与稳定性。其次是方法验证,应该将复杂(可能更准确)方法的结果与简单但可解释的方法的结果进行比较,作为鲁棒性检查。

第二,强调透明性。首先是方法透明,建模(例如,超参数、软件库以及实施细节)、预处理以及分析步骤的透明报告至关重要。这可以通过提供补充材料以及源码。此外,对方法的选择需要仔细论证(例如,是否优先考虑可解释性或准确性,以及为什么优先考虑)。其次是表述透明,被测量的心理结构必须明确定义和解释,以避免歧义。语言可以反映作者和/或影响目标受众的各个方面,研究人员应该澄清他们感兴趣的是什么。例如,在对情绪语言进行量化时,应该明确该测量反映的是读者的情绪,还是作者的情绪,还是仅仅是语言中嵌入的情绪词的频率。

第三,强调可重复性。理想情况下,研究人员应该尽可能公开发布他们的代码和数据。对于机器学习,研究人员应该在训练后提供他们训练过的模型和模型权重。另外,为了支持再现性,应该在专有软件之上使用开源模型。然而,研究人员可能不得不在准确性和再现性之间做出权衡,特别是在专有模型(如ChatGPT)优于开源模型的情况下。

第四,强调伦理道德。在收集和分析文本数据时,保护个人隐私非常重要,同样重要的是,确保数据被使用者明确同意数据被用于分析。当使用应用程序编程接口或网络抓取时,研究人员应该仔细检查数据使用条款。最后,应该讨论对个人和社会的潜在影响,并且必须尽量减少潜在的负面影响。

第五,强调去偏见。使用多样化和代表性的数据来校准NLP模型至关重要。此外,研究人员必须仔细检查算法偏差,并应用算法偏差缓解方法(如语料库级约束),或者如果无法消除算法偏差,则考虑替代建模方法。

第六,强调理论驱动。NLP在行为科学中的应用应该以强大的理论框架为基础。一方面,研究人员在制定研究问题和确定使用NLP方法研究人类行为的哪些方面时应以理论为指导。另一方面,研究人员应该把理论作为检验发现的基准。坚实的理论基础可以帮助研究人员区分有意义的关系和虚假的相关性,因此应该作为解释发现和效应大小的关键。

  • 未来研究方向

第一,LLMs提供了令人兴奋的研究机会。例如,过去使用NLP生成针对特定性格特征的有说服力的信息,并构建治疗性聊天机器人。LLMs使用自然语言与计算机系统进行交互的能力引发了这样一个问题:这些技术将如何改变人类语言

第二,标准化工具和工作流程的开发可能会提高分析的可靠性和可比性。

第三,尽管NLP的发展在很大程度上是由计算机科学研究推动的,但有许多机会可以为行为科学定制NLP方法。这可能包括开发量身定制的工具和验证基准,以确保NLP在测量心理结构时的可靠性。



行为健康经济学
本公众号致力于传播行为健康经济学、AI行为科学的研究理念,关注健康领域非理性问题的发现、解释、创新性干预以及三医(医疗、医保、医药)的角色,尤其关注药学服务在其中的作用。
 最新文章