MHR2.0|AI、大模型与心理测评:“在变化中不断更新” ——首届国际认知心理测评与提升大会系列述评第二期

文摘   2024-07-20 17:40   北京  


AI、大模型与心理测评—“在变化中不断更新”


在由北京师范大学心理学部、剑桥大学心理测量中心,以及微软亚洲研究院共同承办的首届国际认知心理测评与提升大会上,多位来自国内外的专家学者立足于如今飞速发展的人工智能技术,就其对认知心理测评领域现今的影响,以及未来人工智能与心理学融合发展的无限可能性,分享了他们在各自领域最前沿的研究,并给出了宝贵的观点和见解。

随着人工智能(AI)、虚拟现实(VR)和大语言模型(LLM)等技术的出现,心理测评领域发生了深刻的变革,这些技术为心理学研究和实践带来了新的视角和工具。例如,研究者可以使用LLM作为帮助理解人类行为和探索认知过程的工具,LLM具有类似人类的认知能力,可以执行如感知、推理和决策等认知任务。VR技术可以模拟现实世界的情境,帮助评估个体的认知和情感反应。例如,虚拟实验室可以用于研究认知负荷、协作性问题解决等。如今,多模态心理评估技术的应用也日益受到关注,这一技术通过采集用户的面部表情、声音特征、谈话内容等多种数据,然后利用先进的深度学习模型将不同维度的数据融合,最终实现对用户心理各种指标的精细分类。

AI、VR、LLM等在心理测评领域的应用让我们看到了新技术带来的惊喜,它们激发了研究者们的创造力,使其做出了具有开创性的交叉性研究,但技术发展的同时也带来了争议,例如,传统的心理测评准则和范式是否已经过时?大模型是否存在伦理、安全上的风险?……在7月7日举行的主题为“AI、大模型与心理测评”的分论坛中,六位来自国内外的学者就AI、VR、LLM在心理测评领域的应用和发展进行了报告,分享了他们在这些交叉领域进行的研究,以及对如今存在的争议的看法,为数据科学领域和心理测评领域的研究者们提供了灵感和研究启发。

来自剑桥大学的Bryan Maddox教授(线上)带领参会者穿越时空隧道,回顾了从20世纪40年代到21世纪心理测评领域的变革和发展,并讨论了未来的发展趋势。他强调,在大模型和AL涌现的当下,心理测评领域的研究者需要不仅依靠过往的证据和经验,还要培养对未来领域发展的洞察力和想象力,并拥有大胆变革的精神。这样,研究者们才能适应这个数据呈指数级上涨、新的数据形式层出不穷,而各种指标又需要快速被量化的世界。






无论是教育评估还是心理评估,都越来越受到不确定性、新机遇和预见性思维的影响,剑桥大学数字教育未来倡议(the Digital Education Futures Initiative)组织宣布:将重新审核传统教育评估中的标准和规则。在演讲中,Bryan Maddox教授对这些基本理论和方法是否能够契合当下和未来的研究进行了讨论。例如:在如今可以获得大规模且高度细粒化数据的情况下,传统的小规模定性研究是否已经不再需要?传统测验所关注的效度(validity)、信度(reliability)、公平性(fairness)、测验安全性(Test Security)等核心定义迁移到数字化评估时代时,需要修正和增加哪些内容?……Bryan Maddox教授认为,任何理论都带着它所处时代的特色,当时代背景发生变化时,研究者也应该重新思考旧理论在新环境的适应程度,从而做出相应调整。

在数字化转型过程中,许多研究者引入了新的测评范式,例如,借助机器学习、数据分析技术,通过分析眼动、log等过程性数据,提高评估结果的多样性和准确性。Bryan Maddox教授指出,过程性数据有时并不能提供被试反应过程的全部信息,例如下图,在被试按键的“空白”时间段,log数据并不能反映出被试的认知行为。

所以,研究者也需要考虑到数据源的可靠性,以及评估过程是否安全、透明,是否可解释。在对未来的展望中,Bryan Maddox教授认为研究者应该具备想象力和创造力,大胆设想将来的评估场景,并且积极拥抱LLM、AI等技术,开发出真正先进、智能的评估设计。

新酒不能装进旧皮袋里,Bryan Maddox教授通过梳理测评领域的发展脉络,向参会者抛出了这一关键要点,即当测试形式越来越新颖、复杂,数据来源越来越多时,研究者需要思考基于纸笔测验的旧理论是否还能继续指导如今数字化的测评,新的理论、方法亟待开发。

来自伯恩茅斯大学的计算动画学教授杨晓松(线上)分享的题目是“VR智能代理的AI和视觉效果”,杨晓松教授介绍了在VR环境下进行的社会心理学研究、“Phantom Touch”(真实人类可以感受到虚拟人物之间的触碰)、人与AI在媒体内容创作中的合作,以及AI动作捕捉、AI角色设计、AI虚拟人物构建、基于2D图片构建3D面孔、虚拟护士培训环境等有趣的研究和议题,展示了AI、VR技术为电影、心理、医疗等行业所带来的巨大变革。最后杨晓松教授谈到,逼真的虚拟环境、虚拟人物,能够为被试提供更多的沉浸感,同时也克服了时间、空间上的限制,这为心理学研究提供了更多的可能性,他鼓励心理学领域研究者发挥想象力,借助VR、AI技术做出更具开拓性的研究。






来自多邻国(Duolingo)的Alina von Davier博士分享了她在英语能力测评领域的最新研究:“The Item Factory:AI驱动的教育评估内容生成”。她探讨了在数字化背景下,人类与AI应该如何合作,以有效地进行大规模的教育评估。

在多邻国,研究人员致力于融合AI、LLM等先进技术,旨在更有效地服务于全球各地的学习者,同时降低评估过程的成本。Alina von Davier博士向观众介绍了由人类专家与AI合作开发的题目自动化生成以及自动化质量评估系统——题目工厂。这一系统整合了题目设计、生成和审查,提高了效率,同时确保AI增强而不是替代了教育工作者和开发人员的角色。AI驱动的内容生成使得开发多样化的测试题目和个性化评估成为可能,从而使高质量的评估更加经济实惠和易于获取。尽管生成式AI在题目生成和结果评估过程中表现强大,但仍需要人类专家的审查。因此,在能力测评领域,研究者们可以考虑“Human+AI”合作的工作模式,以提高评估的准确性和效率。

Alina von Davier博士谈到,他们在设计题目时,就已经考虑到如何提高在线测验的安全性,这一前瞻性的举动是他们有别于其他测验设计的创新点。她希望能够为其他研究者在测试框架设计方面提供启发,开发出更加安全、可靠的在线测验。






来自日本庆应义塾大学的Peter Romero博士分享的报告题目为:“在人工智能和混合代理系统中测量心理潜在特质”。与Alina von Davier博士的观点相似,Peter Romero博士认为,AI与人类共同合作将是未来发展的一大趋势。他指出,随着计算系统从大型单一系统转向分布式计算,当分布式机器与人类在人机协作的混合系统中互动时,它们需要表现得更加“类人”或至少“与人类兼容”。然而,人类对行为有文化特定的心理偏好,而心理测量学是量化和操作化这一过程的核心。因此,为了让机器更好地与人类进行交互,研究者必须量化机器的个性、行为、动机、内化价值观等心理潜在特征。接下来,Peter Romero博士介绍了如何衡量机器的“Personality”、“Intelligence”、“Creativity”等指标,并从计算机科学视角出发给出了新的观点。例如,机器智能的评估需要考量其消耗的计算资源、模型的泛化能力等。

该研究的创新之处在于将心理测量学与计算机科学相结合,以量化机器的心理特征,有助于构建更智能、更适应人类需求的混合代理系统。






和Peter Romero博士的研究方向类似,来自微软亚洲研究院的王晋东博士的研究关注大语言模型(LLM)的动态评估,这对于确保LLM的可靠性和实用性具有深远意义。王晋东博士讨论了现有评估方法中的缺陷,如数据污染、静态数据集依赖等问题。他通过DyVal系列工具提出了一种新的动态评估方法,该方法使用动态生成的数据来评估模型的性能,有助于更准确地了解模型在不同情境下的表现。同时,王晋东博士也强调了大语言模型可解释性低的问题,而通过能力分析,研究者可以更好地理解模型的优势和局限性。这对于AI真实智能的衡量至关重要,因为我们需要知道模型在哪些方面表现出色,以及在哪些方面仍有改进空间。总之,王晋东博士的研究展示了大语言模型评估和部署的新方法,为研究者们更好地理解和使用LLM提供了新的见解。












来自中国人民大学的王希廷教授分享了她在微软亚洲研究院与团队进行的研究——“用心理测量学评估通用人工智能”。ChatGPT的出现让人们的工作、学习、生活产生了巨大的变化,因此对通用人工智能进行测评也是十分必要的,能够提高其工作效率和容错率,并且减少其对人们的不利影响。王希廷教授的研究结合了传统心理测评范式,量化了GPT-3.5、GPT-4在批判性思维、创造力、问题解决能力等方面与大学生被试的差异,结果表明:GPT-4的批判性思维能力超过人类被试,被试的问题解决能力强于GPT-4和GPT-3.5,创造力评估中,GPT在远距离联想测验(RAT)中表现更好,但在创意写作中,GPT仅在语言维度上优于人类被试。这项研究创新地将心理测量学应用于通用人工智能的评估,为我们更好地理解AI系统的能力和局限提供了新的视角。

六位专家学者对AI、大模型与心理测评的交叉研究和应用进行了精彩的分享,引用W.Gibson的话:“The future is already here. It’s just not evenly distributed, yet”,未来已来,心理测评领域正在迅速受到新技术的影响,尤其是机器学习技术、人工智能,以及LLM的广泛应用,不确定性、变动每时每刻存在着,但就像Bryan Maddox教授所讲的,我们应该勇敢拥抱新的技术,利用它,完善它,改造它,发挥想象力,将先进的数据科学技术与心理测评融合,以适应和追随这个快速迭代的世界。但在大胆拥抱新技术的同时,也需要牢牢把握住心理测评领域的关键理论和原则,并且考虑到技术可能会带来的错谬和偏见。


供稿 | 向紫芊

排版 | 余   樊


北师大MAP

 ——心理测量与人力资源管理MHR2.0方向介绍


MHR2.0数字人小訫

北师大心理学部应用心理专业硕士心理测量与人力资源管理(MHR)于2015年开始招生,是MAP专硕项目最早形成的专业方向之一。随着AI时代的到来,社会和企业对专业型人才的需求发生了重大变化,北师大心理学部自2024年6月起决定升级MHR方向,推出MHR2.0,致力培养能够应用和研发心理测评工具,掌握赋能组织发展的技术方法,擅长使用智能技术解决组织中实际问题的高级专业人才。

MHR2.0的核心理念是潜能激发,成就卓越人生,通过升级课程体系和实践体系,培养适应AI时代需求的复合型人才,同时强调心理洞察和通达管理,结合智能化测评技术和组织赋能方法,为学生提供全面的专业训练和广阔的职业发展平台。


☎️联系我们

微信公众号:北师大MHR

官方邮箱:bnumhr@163.com

咨询电话:010-58808272,010-58805857

全网搜索字段(微博、微信、B站):北师大心理学部MAP

北师大MHR
心理测量与人力资源管理方向
 最新文章