人和大模型的性格测试︱图片来源:论文
撰文︱黄洁 电子科技大学英才实验学院
编辑 | 孟卓亚
导读
大语言模型可能是科技界最受欢迎的“智囊”之一。但谁能想到,它们的个性也能通过MBTI进行评估。通过对这些模型进行特定的训练和提示,它们或许能展现出更个性化的反应特征。
随着划时代的ChatGPT的推出,更多大型语言模型(LLMs)和聊天机器人相继问世。这使得用户能够以自然语言的形式提问,而LLMs则利用其庞大的知识库轻松地提供详尽的答案。
此外,越来越多的研究表明,LLMs不仅具备自我改进的能力,还具有类似人类的推理能力,这进一步暗示这些模型可能拥有类似于人的人格和心理特征。在这样的技术进展背景下,一个问题也自然而然地浮现出来:具有类似人类能力的LLMs是否也具备人类般的人格?
为了探索这个问题,研究团队首先将测试MBTI的方法应用于几种不同的大型语言模型。这些模型通过回答一系列反映个性倾向的问题,从而使研究者可以观察和分析模型的行为是否显示出相应的人格特征。
大模型的MBTI︱图片来源:论文
一方面,研究人员探索了提示工程对MBTI类型的影响。提示工程是一种通过精心设计的输入提示来引导模型的行为,以此来调整或优化模型的输出的技术。
这项研究中,研究团队特别关注了如何利用显性和隐性的提示来改变大语言模型的MBTI性格。对于显性提示,研究人员会直接给模型提供一个特定的场景或角色描述,比如“你是一个喜欢创新并且具有强烈自发性的人”。对于隐性提示,研究人员会通过设计特定的情境问题而非直接告知模型所需性格特征。研究结果表明,显性提示和隐性提示都会对大模型MBTI类型的改变产生影响。
另一方面,研究人员探究了训练数据集对大型语言模型MBTI的人格特征的影响。研究团队通过使用不同的数据集对模型进行训练,发现训练数据集的确会对大型语言模型MBTI的人格特征产生影响。例如,使用中文维基百科语料库训练的模型的MBTI类型从ISTJ变为INTP。
这些发现强调了训练数据作为模型“成长环境”的重要性。对于设计具有预期人格特质的模型来说,选择合适的训练数据是至关重要的。
研究人员认为,尽管MBTI在可靠性和有效性方面存在缺陷,但仍然被一些公司和个人用作选择人才和职业方向的工具。同样地,它也可以作为评估大语言模型的一种粗略指标。
在MBTI的四个维度中,研究认为前两个维度的参考价值不大,而主要关注于思考/感受和判断/知觉这两个维度。较高的思考和判断值可能表明模型在知识水平、任务分解和路径规划方面具有更大的潜力。因此,通过观察语言模型的T值(思考/感受)和J值(判断/知觉),我们或许可以推断其在知识处理和任务执行方面的优势和特点。
参考文献:
Pan, K., & Zeng, Y. (2023). Do LLMs Possess a Personality? Making the MBTI Test an Amazing Evaluation for Large Language Models. ArXiv preprint arXiv: 2307.16180.
责任编辑:蒋雅芳 赵美华
你可能会感兴趣 ·