随着人工智能技术的发展,机器心理学成为一个新兴领域,它研究大模型(LLMs)如何通过自然语言处理再现和理解人类的心理过程。机器心理学不仅探讨这些模型的认知能力,还分析其在处理情感和心理健康问题上的表现。近年来,LLMs,如OpenAI的GPT-4和GPT-4o,因其在生成和理解人类语言上的卓越表现,引起了广泛关注和研究。
大模型能够通过大量文本数据的训练,模拟人类的语言和思维方式。然而它们在情感理解和心理测量方面的能力仍存在局限。为了更好地了解这些模型在心理学领域的应用潜力,研究人员开始探索LLMs在模拟人类心理状态、处理情感信息以及提供心理健康支持方面的能力。
11 月 19 日arXiv发表的论文《PHDGPT: INTRODUCING A PSYCHOMETRIC AND LINGUISTIC DATASET ABOUT HOW LARGE LANGUAGE MODELS PERCEIVE GRADUATE STUDENTS AND PROFESSORS IN PSYCHOLOGY》介绍了PhDGPT数据集,这是一个新的提示框架和合成数据集,旨在研究LLMs如何感知和模拟心理学博士研究生和教授的心理状态。PhDGPT数据集包含了75.6万个数据点,通过模拟不同的学术事件、性别和职业层级,生成抑郁、焦虑和压力的心理测量分数及其解释文本。研究的主要目的是通过PhDGPT数据集,揭示LLMs在处理心理学领域中的情感和认知偏见,以及它们在再现人类心理复杂性方面的能力和局限性。
PhDGPT数据集由特伦托大学心理学与认知科学系的研究团队开发,成员包括Edoardo Sebastiano De Duro,他是心理学与认知科学系成员,对心理测量和语言模型有深入研究。Enrique Taietta是心理学与认知科学系成员,与Edoardo共同致力于研究大模型在心理学领域的应用。Riccardo Improta是心理学与认知科学系成员,参与多项心理学研究,特别是在心理测量和认知科学方面。Massimo Stella是心理学与认知科学系成员,是这项研究的通讯作者,专注于心理测量、认知科学和大模型的交叉研究。
这个团队共同推出了PhDGPT,一个全新的数据集和提示框架,用于研究大模型对心理学博士研究生和教授的感知。他们利用OpenAI的GPT-3.5,通过严格的提示工程技术,创建多样化的人物角色和学术场景,旨在通过网络心理计量学和心理语言学方法,分析LLMs生成的心理数据和人类数据的异同。
研究方法
PhDGPT是一个由75.6万个数据点组成的综合数据集,旨在捕捉大模型(LLMs)对心理学博士研究生和教授的心理状态感知。该数据集通过模拟15个学术事件(如考试、研究、发表等)、两种性别(男、女)和两种职业层级(博士生、教授),生成抑郁、焦虑和压力量表(DASS-42)的42个独特项目反应。每个情景重复300次,以确保数据的多样性和可靠性。数据集不仅包含数值心理测量分数,还包括每个分数的简短文本解释,从而提供了一个心理测量分数与文本描述相结合的双重视角。
图1:构建PhDGPT所采用的条件表示。
为了生成PhDGPT数据集,研究团队使用了提示工程技术,通过OpenAI的API调用GPT-3.5模型。他们设计了一个复杂的提示框架,让模型在不同角色和学术场景中进行角色扮演。提示内容包括具体的学术事件、性别和职业层级,例如“你是一名准备参加统计学综合考试的女性博士生”,从而引导模型生成与该情景相关的心理测量分数和解释文本。为了增强角色扮演效果,提示框架中采用了重复提示技术,避免模型产生幻觉,同时增加对所扮演角色的识别。
图2:用于女性、博士生、发布条件的提示示例。(a)正态,(b)负价,(c)中性条件。
数据收集过程通过对每个情景进行300次API调用,生成包含DASS-42量表分数和文本解释的数据。研究团队采用了探索性图分析(EGA)方法,对生成的心理测量数据进行深入分析,比较模型生成的心理计量网络与人类数据,并映射到抑郁、焦虑和压力的原始子量表上。通过计算纯度,评估模型在重现人类因子结构上的能力。
作为额外的聚类质量评估指标,研究团队采用了纯度。纯度表示根据预定义的地面实况正确分配的集群内数据点的比例。在他们的案例中,基本事实是指与我们的心理测量评估中的项目相关的原始类别(例如,抑郁、焦虑、压力)。为了计算纯度,我们可以根据原始子量表的心理结构来描述每个因素Fi(D表示抑郁,A表示焦虑,S表示压力)。例如:
•F1:{D1={34,17,21,38,13,26,37,10,3,16,24,31},A1={∅},S1={≩}}
•F2:{D2={5,42},A2={9},S2={33,12,8,22,29}}
•F3:{D3={∅},A3={25、40、4、15、41、7、20、23、36、19、30、28、2},S3={≟}}
•F4:{D4={∅},A4={≩],S4={39、32、35、14、18、27、6、11}}
在D、A和S上聚集将导致社区结构,{Ci}i={Di∪Ai \8746 Si}i,其纯度将估计为:
(1)其中|Ci|是检测到的社区Ci中的节点数,|Ci∩Tj|是心理测量子量表识别的Ci和目标社区Tj中的节点数。聚类的总体纯度是所有检测到的群落的个体纯度的加权平均值:
其中N是网络中的节点总数。根据定义,纯度范围在0到1之间。高纯度值表示检测到的群落与目标群落结构密切对应,每个检测到的社群中的许多节点属于同一目标或所需的群落。
同时,研究团队还分析了LLMs在解释心理测量分数时使用的语言特征。他们使用了Glasgow Norms数据集,对文本进行心理语言学维度的评分,如唤起度、情绪价值、支配性等。通过计算这些维度与心理测量分数的相关性,揭示不同情景下模型语言模式的潜在偏见和情感处理能力。
结果与发现
心理测量得分差异
PhDGPT数据集展示了在不同学术身份、性别和事件场景下,LLMs生成的抑郁、焦虑和压力评分之间的显著差异。这些差异反映了LLMs在模拟不同学术角色(如博士研究生和教授)时对心理困扰的感知和反应。通过将GPT-3.5生成的心理测量分数与人类数据进行比较,研究揭示了LLMs在理解和处理不同情景中的情感和认知偏见。例如,在模拟的情景中,男性博士研究生在面对考试时的压力评分明显高于女性教授,而在研究场景中,女性教授的焦虑评分显著高于男性博士研究生。这种差异说明LLMs能够捕捉到不同学术身份和性别在心理困扰上的特征,但在精细化处理上仍存在一定的局限。
探索性图分析(EGA)
研究团队采用探索性图分析(EGA)方法,对LLMs生成的心理计量网络与人类数据进行了深入比较。EGA结果显示,GPT-3.5在重现人类心理测量因子结构方面有一定程度的成功,但也存在显著的差异。具体来说,模拟的男性研究生和女性教授的心理计量因子结构在某些方面与人类数据相似,但在处理复杂情感和心理状态时,尤其是在区分情感焦虑和压力方面,模型表现出一定的混淆。例如,模拟的男性教授的心理计量网络显示出不同的因子结构,与人类数据存在显著差异。这表明,尽管LLMs能够部分再现人类心理测量的因子结构,但在处理复杂情感和心理状态时仍需改进。
图3:抑郁症子量表相关项目的汇总得分分布。每个条件(a、b、c)都包括每个事件类型(或条件)和性别的得分。
在EGA中,研究团队发现,GPT-3.5生成的心理测量分数的纯度在不同情景下有所差异。例如,模拟的女性教授在不同学术事件(如发表论文、参与研究)中的心理测量因子结构较为稳定,而男性博士研究生在处理考试和研究场景时的因子结构则表现出较大的变异性。这种差异反映了LLMs在处理不同情景中的适应能力和情感处理上的潜在偏见。
心理语言学模式
通过分析GPT-3.5在解释心理测量分数时使用的语言特征,研究团队揭示了LLMs在不同情景下的心理语言学模式。这些模式反映了模型在处理心理困扰时的语言使用特征。例如,在解释抑郁评分时,LLMs倾向于使用更具体和形象的语言,而在解释焦虑评分时,语言使用则更为抽象,缺乏具体的心理图像。这表明,模拟学者在焦虑情境下使用的术语更抽象,无法明确唤起特定的心理图像。这与焦虑情境中的语言模式相一致,即焦虑时更倾向于使用抽象的术语,而在压力情境下,LLMs更倾向于使用具体的学术术语,如论文、考试和工作场所。
图4:PhDGPT数据集和人类得分中不同人格提取的心理测量网络。
研究发现,在不同情感价值的提示下,LLMs的心理测量输出结果也有显著变化。特别是,在情感价值为负面的情景中,GPT-3.5的心理测量得分显著高于情感价值为正面或中性的情景。这表明,情感价值在模型的心理测量输出中起到了重要作用,能够显著影响LLMs的情感处理和反应模式。总体来看,PhDGPT研究通过详细分析和比较GPT-3.5与人类数据的心理测量分数和语言特征,揭示了LLMs在模拟人类心理状态时的能力和局限。
图5:模拟男教授(左)和女博士生(右)的项目稳定性分析。所有分析都与1000次引导重复有关。
讨论
PhDGPT研究为我们揭示了大模型在处理心理测量和语言学特征上的表现,展示了其在模拟人类心理状态方面的能力和局限性。通过对抑郁、焦虑和压力的评分及其解释文本进行分析,我们可以更全面地理解LLMs在不同情景下的情感和认知偏见。
研究结果表明,GPT-3.5能够在一定程度上再现人类的心理测量分数,但在情感理解的细微差别上仍存在显著不足。例如,模型在不同性别和职业层级的情景下展示了不同的情感反应,模拟的男性研究生和女性教授在抑郁、焦虑和压力上的评分有所不同。然而,尽管这些差异反映了模型对情景变化的敏感性,GPT-3.5在处理复杂的情感情境时表现出一定的局限性,特别是在区分情感焦虑和压力方面。
图6:显示心理测量得分与句子水平格拉斯哥常模之间皮尔逊相关性的热图。
分数。使用中性价提示。彩色瓷砖显示出显著的相关性(p<0.01),其色调代表相关性强度。白色瓷砖表示相关性不显著。y轴显示了用于提示模型的不同角色(男性和女性)。x轴列出了格拉斯哥规范得分的维度,这些维度在DASS-42量表所针对的3个心理结构中独立分析。
通过探索性图分析(EGA),我们发现LLMs在心理测量因子结构上的表现与人类数据存在一定的一致性,但也有显著差异。研究显示,模拟学者的抑郁因子结构较为稳定,但在焦虑和压力因子的结构上存在混淆。这表明,虽然LLMs能够部分重现人类心理测量的因子结构,但在处理复杂情感和心理状态时仍有局限。
在心理语言学模式方面,研究表明,LLMs在解释心理测量分数时使用的语言特征与心理困扰有显著关联。具体来说,模拟学者在焦虑情境下使用的语言较为抽象,缺乏具体的心理图像,这与焦虑情境中的语言模式相一致。同时,在压力情境下,LLMs更倾向于使用具体的学术术语,如论文、考试和工作场所。这些发现不仅揭示了LLMs在处理心理测量数据时的语言模式,还反映了其在模拟不同情感状态时的潜在偏见。
情感价值的影响
研究还揭示了提示框架中的情感价值对LLMs输出结果的显著影响。在情感价值为负面的情景中,GPT-3.5的心理测量得分显著高于情感价值为正面或中性的情景。这表明,情感价值能够显著影响LLMs在心理测量任务中的表现。这种情感敏感性不仅反映了模型在不同情景下的适应能力,也为未来开发更具同理心的LLMs提供了可能性。
在临床和研究环境中,情感价值的影响可以帮助研究人员和临床医生更好地理解和利用LLMs。例如,在心理健康支持和治疗中,能够根据情感提示调整模型的响应,可以提供更个性化和同理心的支持。在学术研究中,这种情感敏感性可以帮助研究人员更好地模拟和研究不同情感状态对心理测量结果的影响。
总结来看,PhDGPT研究展示了LLMs在处理心理测量和语言学特征上的显著能力,同时也揭示了其在理解和再现人类复杂情感方面的局限。未来研究可以进一步探索多模态LLMs和其他先进技术,以提高模型在心理学领域的应用潜力。通过深入研究和优化提示框架,我们有望开发出更准确、更具同理心的AI系统,为心理健康和学术研究提供更加有效的支持和工具。
局限性与未来研究
在探讨PhDGPT数据集及其研究成果时,不可忽视其中存在的局限性。首先,当前研究暴露了AI在捕捉复杂人类情感过程中的不足。尽管GPT-3.5在许多方面表现出色,但它在理解和再现细微情感上的表现仍不尽如人意。特别是在处理情感焦虑和压力时,模型展示了显著的误差。这种局限性不仅表明了现有大模型在情感理解上的缺陷,也揭示了基于纯文本输入的AI系统无法完全模拟人类认知中丰富的上下文和多模态信息。这种局限性在当前和未来的心理学评估中需要特别关注,以防止AI系统在没有人类监督的情况下做出重大错误判断。
其次,研究考虑了心理语言学特征的平均值,但这一方法可能会掩盖句子内个别单词或想法的差异。未来研究可以利用自然语言处理和认知网络科学更好地理解文本动机中个别想法的感知和描述,从而提高对情感和认知状态的捕捉精度。
未来的研究方向可以集中在以下几个方面。多模态LLMs的发展前景广阔。通过结合视觉、听觉等多模态信息,未来的模型可以更全面地模拟人类的情感和认知过程。例如,GPT-4或其多模态版本可能在重现人类心理测量数据方面表现得更为出色。多模态模型可以通过整合不同类型的数据来增强对情感状态的理解,从而提供更加准确和丰富的心理健康评估。
此外,未来研究可以进一步探索LLMs在心理学评估中的应用潜力。除了模拟和理解人类情感状态外,LLMs还可以用于开发虚拟患者,为心理学教育和培训提供一个安全无风险的环境。这些虚拟患者可以模拟不同的情感和心理困扰状态,帮助初学者在处理真实病例之前获得宝贵的经验。
最后,未来研究应关注AI生成和人类响应之间因子结构的差异。这些差异对AI在心理评估中的可靠性和有效性提出了疑问。通过深入研究和优化提示框架,我们可以开发出更准确、更具同理心的AI系统,为心理健康和学术研究提供更加有效的支持和工具。
总结来说,虽然PhDGPT研究揭示了大模型在处理心理测量和语言学特征上的显著能力,但也明确了其在理解和再现人类复杂情感方面的局限。未来研究应继续探索多模态技术和其他先进方法,以提升模型在心理学领域的应用潜力,并为心理健康和学术研究提供更加完善的解决方案。(END)
参考资料:https://arxiv.org/pdf/2411.10473