心理测量与语言学数据集PhDGPT：大模型的情感与认知分析

文摘 2024-11-20 08:00 美国

随着人工智能技术的发展，机器心理学成为一个新兴领域，它研究大模型（LLMs）如何通过自然语言处理再现和理解人类的心理过程。机器心理学不仅探讨这些模型的认知能力，还分析其在处理情感和心理健康问题上的表现。近年来，LLMs，如OpenAI的GPT-4和GPT-4o，因其在生成和理解人类语言上的卓越表现，引起了广泛关注和研究。

大模型能够通过大量文本数据的训练，模拟人类的语言和思维方式。然而它们在情感理解和心理测量方面的能力仍存在局限。为了更好地了解这些模型在心理学领域的应用潜力，研究人员开始探索LLMs在模拟人类心理状态、处理情感信息以及提供心理健康支持方面的能力。

11 月 19 日arXiv发表的论文《PHDGPT: INTRODUCING A PSYCHOMETRIC AND LINGUISTIC DATASET ABOUT HOW LARGE LANGUAGE MODELS PERCEIVE GRADUATE STUDENTS AND PROFESSORS IN PSYCHOLOGY》介绍了PhDGPT数据集，这是一个新的提示框架和合成数据集，旨在研究LLMs如何感知和模拟心理学博士研究生和教授的心理状态。PhDGPT数据集包含了75.6万个数据点，通过模拟不同的学术事件、性别和职业层级，生成抑郁、焦虑和压力的心理测量分数及其解释文本。研究的主要目的是通过PhDGPT数据集，揭示LLMs在处理心理学领域中的情感和认知偏见，以及它们在再现人类心理复杂性方面的能力和局限性。

PhDGPT数据集由特伦托大学心理学与认知科学系的研究团队开发，成员包括Edoardo Sebastiano De Duro，他是心理学与认知科学系成员，对心理测量和语言模型有深入研究。Enrique Taietta是心理学与认知科学系成员，与Edoardo共同致力于研究大模型在心理学领域的应用。Riccardo Improta是心理学与认知科学系成员，参与多项心理学研究，特别是在心理测量和认知科学方面。Massimo Stella是心理学与认知科学系成员，是这项研究的通讯作者，专注于心理测量、认知科学和大模型的交叉研究。

这个团队共同推出了PhDGPT，一个全新的数据集和提示框架，用于研究大模型对心理学博士研究生和教授的感知。他们利用OpenAI的GPT-3.5，通过严格的提示工程技术，创建多样化的人物角色和学术场景，旨在通过网络心理计量学和心理语言学方法，分析LLMs生成的心理数据和人类数据的异同。

研究方法

PhDGPT是一个由75.6万个数据点组成的综合数据集，旨在捕捉大模型（LLMs）对心理学博士研究生和教授的心理状态感知。该数据集通过模拟15个学术事件（如考试、研究、发表等）、两种性别（男、女）和两种职业层级（博士生、教授），生成抑郁、焦虑和压力量表（DASS-42）的42个独特项目反应。每个情景重复300次，以确保数据的多样性和可靠性。数据集不仅包含数值心理测量分数，还包括每个分数的简短文本解释，从而提供了一个心理测量分数与文本描述相结合的双重视角。

图1：构建PhDGPT所采用的条件表示。

为了生成PhDGPT数据集，研究团队使用了提示工程技术，通过OpenAI的API调用GPT-3.5模型。他们设计了一个复杂的提示框架，让模型在不同角色和学术场景中进行角色扮演。提示内容包括具体的学术事件、性别和职业层级，例如“你是一名准备参加统计学综合考试的女性博士生”，从而引导模型生成与该情景相关的心理测量分数和解释文本。为了增强角色扮演效果，提示框架中采用了重复提示技术，避免模型产生幻觉，同时增加对所扮演角色的识别。

图2：用于女性、博士生、发布条件的提示示例。（a）正态，（b）负价，（c）中性条件。

数据收集过程通过对每个情景进行300次API调用，生成包含DASS-42量表分数和文本解释的数据。研究团队采用了探索性图分析（EGA）方法，对生成的心理测量数据进行深入分析，比较模型生成的心理计量网络与人类数据，并映射到抑郁、焦虑和压力的原始子量表上。通过计算纯度，评估模型在重现人类因子结构上的能力。

作为额外的聚类质量评估指标，研究团队采用了纯度。纯度表示根据预定义的地面实况正确分配的集群内数据点的比例。在他们的案例中，基本事实是指与我们的心理测量评估中的项目相关的原始类别（例如，抑郁、焦虑、压力）。为了计算纯度，我们可以根据原始子量表的心理结构来描述每个因素Fi（D表示抑郁，A表示焦虑，S表示压力）。例如：

•F1:{D1={34,17,21,38,13,26,37,10,3,16,24,31}，A1={∅}，S1={≩}}

•F2:{D2={5,42}，A2={9}，S2={33,12,8,22,29}}

•F3：{D3={∅}，A3={25、40、4、15、41、7、20、23、36、19、30、28、2}，S3={≟}}

•F4：{D4={∅}，A4={≩]，S4={39、32、35、14、18、27、6、11}}

在D、A和S上聚集将导致社区结构，{Ci}i={Di∪Ai \8746 Si}i，其纯度将估计为：

（1）其中|Ci|是检测到的社区Ci中的节点数，|Ci∩Tj|是心理测量子量表识别的Ci和目标社区Tj中的节点数。聚类的总体纯度是所有检测到的群落的个体纯度的加权平均值：

其中N是网络中的节点总数。根据定义，纯度范围在0到1之间。高纯度值表示检测到的群落与目标群落结构密切对应，每个检测到的社群中的许多节点属于同一目标或所需的群落。

同时，研究团队还分析了LLMs在解释心理测量分数时使用的语言特征。他们使用了Glasgow Norms数据集，对文本进行心理语言学维度的评分，如唤起度、情绪价值、支配性等。通过计算这些维度与心理测量分数的相关性，揭示不同情景下模型语言模式的潜在偏见和情感处理能力。

结果与发现

心理测量得分差异

PhDGPT数据集展示了在不同学术身份、性别和事件场景下，LLMs生成的抑郁、焦虑和压力评分之间的显著差异。这些差异反映了LLMs在模拟不同学术角色（如博士研究生和教授）时对心理困扰的感知和反应。通过将GPT-3.5生成的心理测量分数与人类数据进行比较，研究揭示了LLMs在理解和处理不同情景中的情感和认知偏见。例如，在模拟的情景中，男性博士研究生在面对考试时的压力评分明显高于女性教授，而在研究场景中，女性教授的焦虑评分显著高于男性博士研究生。这种差异说明LLMs能够捕捉到不同学术身份和性别在心理困扰上的特征，但在精细化处理上仍存在一定的局限。

探索性图分析（EGA）

研究团队采用探索性图分析（EGA）方法，对LLMs生成的心理计量网络与人类数据进行了深入比较。EGA结果显示，GPT-3.5在重现人类心理测量因子结构方面有一定程度的成功，但也存在显著的差异。具体来说，模拟的男性研究生和女性教授的心理计量因子结构在某些方面与人类数据相似，但在处理复杂情感和心理状态时，尤其是在区分情感焦虑和压力方面，模型表现出一定的混淆。例如，模拟的男性教授的心理计量网络显示出不同的因子结构，与人类数据存在显著差异。这表明，尽管LLMs能够部分再现人类心理测量的因子结构，但在处理复杂情感和心理状态时仍需改进。

图3：抑郁症子量表相关项目的汇总得分分布。每个条件（a、b、c）都包括每个事件类型（或条件）和性别的得分。

在EGA中，研究团队发现，GPT-3.5生成的心理测量分数的纯度在不同情景下有所差异。例如，模拟的女性教授在不同学术事件（如发表论文、参与研究）中的心理测量因子结构较为稳定，而男性博士研究生在处理考试和研究场景时的因子结构则表现出较大的变异性。这种差异反映了LLMs在处理不同情景中的适应能力和情感处理上的潜在偏见。

心理语言学模式

通过分析GPT-3.5在解释心理测量分数时使用的语言特征，研究团队揭示了LLMs在不同情景下的心理语言学模式。这些模式反映了模型在处理心理困扰时的语言使用特征。例如，在解释抑郁评分时，LLMs倾向于使用更具体和形象的语言，而在解释焦虑评分时，语言使用则更为抽象，缺乏具体的心理图像。这表明，模拟学者在焦虑情境下使用的术语更抽象，无法明确唤起特定的心理图像。这与焦虑情境中的语言模式相一致，即焦虑时更倾向于使用抽象的术语，而在压力情境下，LLMs更倾向于使用具体的学术术语，如论文、考试和工作场所。

图4:PhDGPT数据集和人类得分中不同人格提取的心理测量网络。

研究发现，在不同情感价值的提示下，LLMs的心理测量输出结果也有显著变化。特别是，在情感价值为负面的情景中，GPT-3.5的心理测量得分显著高于情感价值为正面或中性的情景。这表明，情感价值在模型的心理测量输出中起到了重要作用，能够显著影响LLMs的情感处理和反应模式。总体来看，PhDGPT研究通过详细分析和比较GPT-3.5与人类数据的心理测量分数和语言特征，揭示了LLMs在模拟人类心理状态时的能力和局限。

图5：模拟男教授（左）和女博士生（右）的项目稳定性分析。所有分析都与1000次引导重复有关。

讨论

PhDGPT研究为我们揭示了大模型在处理心理测量和语言学特征上的表现，展示了其在模拟人类心理状态方面的能力和局限性。通过对抑郁、焦虑和压力的评分及其解释文本进行分析，我们可以更全面地理解LLMs在不同情景下的情感和认知偏见。

研究结果表明，GPT-3.5能够在一定程度上再现人类的心理测量分数，但在情感理解的细微差别上仍存在显著不足。例如，模型在不同性别和职业层级的情景下展示了不同的情感反应，模拟的男性研究生和女性教授在抑郁、焦虑和压力上的评分有所不同。然而，尽管这些差异反映了模型对情景变化的敏感性，GPT-3.5在处理复杂的情感情境时表现出一定的局限性，特别是在区分情感焦虑和压力方面。

图6：显示心理测量得分与句子水平格拉斯哥常模之间皮尔逊相关性的热图。

分数。使用中性价提示。彩色瓷砖显示出显著的相关性（p<0.01），其色调代表相关性强度。白色瓷砖表示相关性不显著。y轴显示了用于提示模型的不同角色（男性和女性）。x轴列出了格拉斯哥规范得分的维度，这些维度在DASS-42量表所针对的3个心理结构中独立分析。

通过探索性图分析（EGA），我们发现LLMs在心理测量因子结构上的表现与人类数据存在一定的一致性，但也有显著差异。研究显示，模拟学者的抑郁因子结构较为稳定，但在焦虑和压力因子的结构上存在混淆。这表明，虽然LLMs能够部分重现人类心理测量的因子结构，但在处理复杂情感和心理状态时仍有局限。

在心理语言学模式方面，研究表明，LLMs在解释心理测量分数时使用的语言特征与心理困扰有显著关联。具体来说，模拟学者在焦虑情境下使用的语言较为抽象，缺乏具体的心理图像，这与焦虑情境中的语言模式相一致。同时，在压力情境下，LLMs更倾向于使用具体的学术术语，如论文、考试和工作场所。这些发现不仅揭示了LLMs在处理心理测量数据时的语言模式，还反映了其在模拟不同情感状态时的潜在偏见。

情感价值的影响

研究还揭示了提示框架中的情感价值对LLMs输出结果的显著影响。在情感价值为负面的情景中，GPT-3.5的心理测量得分显著高于情感价值为正面或中性的情景。这表明，情感价值能够显著影响LLMs在心理测量任务中的表现。这种情感敏感性不仅反映了模型在不同情景下的适应能力，也为未来开发更具同理心的LLMs提供了可能性。

在临床和研究环境中，情感价值的影响可以帮助研究人员和临床医生更好地理解和利用LLMs。例如，在心理健康支持和治疗中，能够根据情感提示调整模型的响应，可以提供更个性化和同理心的支持。在学术研究中，这种情感敏感性可以帮助研究人员更好地模拟和研究不同情感状态对心理测量结果的影响。

总结来看，PhDGPT研究展示了LLMs在处理心理测量和语言学特征上的显著能力，同时也揭示了其在理解和再现人类复杂情感方面的局限。未来研究可以进一步探索多模态LLMs和其他先进技术，以提高模型在心理学领域的应用潜力。通过深入研究和优化提示框架，我们有望开发出更准确、更具同理心的AI系统，为心理健康和学术研究提供更加有效的支持和工具。

局限性与未来研究

在探讨PhDGPT数据集及其研究成果时，不可忽视其中存在的局限性。首先，当前研究暴露了AI在捕捉复杂人类情感过程中的不足。尽管GPT-3.5在许多方面表现出色，但它在理解和再现细微情感上的表现仍不尽如人意。特别是在处理情感焦虑和压力时，模型展示了显著的误差。这种局限性不仅表明了现有大模型在情感理解上的缺陷，也揭示了基于纯文本输入的AI系统无法完全模拟人类认知中丰富的上下文和多模态信息。这种局限性在当前和未来的心理学评估中需要特别关注，以防止AI系统在没有人类监督的情况下做出重大错误判断。

其次，研究考虑了心理语言学特征的平均值，但这一方法可能会掩盖句子内个别单词或想法的差异。未来研究可以利用自然语言处理和认知网络科学更好地理解文本动机中个别想法的感知和描述，从而提高对情感和认知状态的捕捉精度。

未来的研究方向可以集中在以下几个方面。多模态LLMs的发展前景广阔。通过结合视觉、听觉等多模态信息，未来的模型可以更全面地模拟人类的情感和认知过程。例如，GPT-4或其多模态版本可能在重现人类心理测量数据方面表现得更为出色。多模态模型可以通过整合不同类型的数据来增强对情感状态的理解，从而提供更加准确和丰富的心理健康评估。

此外，未来研究可以进一步探索LLMs在心理学评估中的应用潜力。除了模拟和理解人类情感状态外，LLMs还可以用于开发虚拟患者，为心理学教育和培训提供一个安全无风险的环境。这些虚拟患者可以模拟不同的情感和心理困扰状态，帮助初学者在处理真实病例之前获得宝贵的经验。

最后，未来研究应关注AI生成和人类响应之间因子结构的差异。这些差异对AI在心理评估中的可靠性和有效性提出了疑问。通过深入研究和优化提示框架，我们可以开发出更准确、更具同理心的AI系统，为心理健康和学术研究提供更加有效的支持和工具。

总结来说，虽然PhDGPT研究揭示了大模型在处理心理测量和语言学特征上的显著能力，但也明确了其在理解和再现人类复杂情感方面的局限。未来研究应继续探索多模态技术和其他先进方法，以提升模型在心理学领域的应用潜力，并为心理健康和学术研究提供更加完善的解决方案。（END）

参考资料：https://arxiv.org/pdf/2411.10473

http://mp.weixin.qq.com/s?__biz=MzA3NTY1MDY4MA==&mid=2247486921&idx=1&sn=d3787306f7821a951999458a885c2b83

大噬元兽

噬元兽FlerkenS 是一个去中心化的AI数字价值容器，捕捉数字时代新型资产，用数据飞轮把你的数据和内容转化成为你的财富，带你走进下一个智能互联网。

心理测量与语言学数据集PhDGPT：大模型的情感与认知分析

解密心智理论：从人类社会到人工智能的集体智慧提升之路

多智能体系统的金融交易,详解FinVision框架如何革新股票市场预测

智能调度新探索，多智能体强化学习在无关平行机调度中的应用

《自然》科学报告：大模型在社会情境判断方面可以胜过人类

微软研究院成果：用于解决复杂任务的Magentic-One通用多智能体系统

多智能体的文明之路，数字人类与AI社会的崛起

揭秘大模型中的神经网络，从ANs到类脑功能组织

中国科学院、上海人工智能实验室等联合团队重新定义语言模型发展，利用语言不平衡实现多语言自我改进

智能体协作进化论，从心智理论到逆向注意力

加州大学伯克利分校团队提出类脑推理的规范理论，泊松分布下的尖峰神经网络创新

谷歌与学术界联手，研究突破多智能体合作瓶颈的新算法

阿里巴巴“通义实验室”突破大模型推理瓶颈，MCoT框架展开在数学推理中的应用

亚马逊、微软、谷歌DeepMind 联合团队的杰作，POLYMATH 引领MLLMs多模态推理新基准

简洁胜于复杂，亚马逊研究团队提出基于LLM的Web代理AGENTOCCAM的研究与应用

从NLP到多智能体系统，通过BERTeam实现多智能体对抗中的最优组合

阿里巴巴达摩院、新加坡科技设计大学和南洋理工大学联合团队提升AI多步推理能力的新方法

人工智能与人类情感的交汇点：一致性评估方法的探索

斯坦福大学和伦敦大学学院联合打造多智能体系统中的安全防线，应对大模型即时感染

中科院、阿里巴巴、澳门科技大学联合团队提出微调LLM的新思路，探索顺序协作多智能体强化学习在LLM微调中的应用

从物理学到人工智能：用哈密顿力学提升AI推理能力

国家人机混合增强智能重点实验室项目：利用生成世界模型优化多智能体系统决策

香港科技大学、阿里巴巴集团和东南大学联合团队优化智能体协作系统，多智能体系统中代理导向规划的设计原则

OpenAI o1模型的规划能力评估：可行性、最优性与普遍性

《自然》Scientific Data：从数据到发现，AI在材料科学中的颠覆性应用

《自然》期刊：上海交通大学与上海人工智能研究所联合推出医学多语言模型

从 ASI到 AHI，人类与AI共生的发展之路

Google Research Scholar和DeepMind奖学金支持项目：多智能体系统中的合作弹性

自然（Nature）科学数据子刊：用于对话情境中情绪识别的 EEG-音频-视频数据集的创新应用

从CoT到ToT，多智能体与思维树结合突破复杂推理瓶颈

智能体在连续环境中的路径优化与冲突解决

基础模型重塑情感计算

从第二届MER2024-SEMI挑战赛看多模态情感识别的最新进展

智能体能自发形成社会吗？昆明理工大团队引入一种用于引发社会出现的生成式多智能体新架构

麻省理工研究团队革新科学研究方式,通过多智能体智能图推理实现科学发现自动化

从大脑到代码，神经科学启发的多智能体CortexCompile利用脑启发架构提升代码生成

自然（Nature）机器智能子刊：多智能体系统中的高效决策与去中心化强化学习的应用

2024人工智能峰会成功召开，华智未来强势发布20余项应用场景

多智能体路径规划新突破：AA-CCBS算法详解

人工智能应用场景高峰论坛暨成果发布会即将启幕，华智未来邀您共创新世界

NVIDIA 联合团队提出长视频理解的前沿技术BREASE，新框架连接情节和语义

从噪声中提取情感：中山大学与腾讯AI实验室基于元学习的多模态情感分析新方法

微软研究院发布无代码开发工具 AUTOGEN STUDIO，简化多智能体系统的构建与调试

从目标分配到路径规划，哈工大团队提出智能仓库的多智能体深度学习解决方案

多模态多智能体心智理论MuMA-ToM：推动AI理解复杂社会互动的前沿基准

情感与情绪在决策中的力量，多准则模糊群体决策系统的应用

多智能体系统中基于策略的资源交换逻辑

《自然》期刊发布最新科学报告：人工智能技术在个性化医疗中的创新与挑战

多智能体大模型协作中的角色不一致性：一致性、虚构性和模仿性

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉