MHR2.0|创造力评估:AI视角下传统任务范式的升级换代——首届国际认知心理测评与提升大会系列述评第八期

文摘   2024-08-14 18:00   北京  

创造力评估AI视角下传统任务范式的升级换代

大会系列评述


ICCPAE

由北京师范大学心理学部、微软亚洲研究院、剑桥大学测评中心共同举办的首届国际认知心理测评与提升大会于7月6日至7日在北京师范大学昌平校区隆重召开。7月7日的创造力分论坛汇集了多名创造力测评领域的专家学者,共同探讨了创造力测评与自动化评分技术的未来发展和趋势,吸引了大量对创造力感兴趣的学生与教育工作者与会参加。

创造力是人类文明发展进程中一项非常重要的能力,远可追溯至石器时代智人打磨石块制作工具的工具创新(tool innovation)行为,近可参考OCED提出的21世纪核心技能,创造力名列其中。在历史上,创造力不仅以Big-C的形式寄寓于诸多有开创性的伟大工作中,也以Little-C的形式为个体的日常生活提供灵感与适宜的解决方案——它形式万变,内核如一,因此在测量上为人们提出了诸多挑战。

从石器到AI,创造力始终陪伴

创造力测评的困难来自创造力构念本身的复杂性及研究取向的多样性,因而创造力测量也呈现多元的面貌。据调研,30年前领域内已有不低于255种创造力测验。而根据2003-2012年在创造力主流学术刊物上共1127篇创造力文献的统计结果,62%的研究是关于创造力测量方法的探讨。这既是一个重要的研究方向,同时也是心理测量学研究范式的一个宝库。


Creativity Assessment:Today and Tomorrow


在Todd Lubart教授的讲座中,教授提到对于创造力的评估可以根据其评估对象分为“创造性成就评估”与“创造性潜力评估”两类。前者关注个体的创造性活动或产品,是一个“盖棺论定”式的评估;后者关注个体所具备的基本素养和未来可能,是一个预测性的评估。

创造性成就评估工具

在评估个体的创造性成就时,研究者可以采用历史计量法(Historiometric Approach),统计个体在历史上已经完成的作品数和作品质量,也可以针对特定的作品运用共识评估技术(Consensual Assessment Technique),将其展示给专家评审小组,由小组基于一致的标准给出评分。此外,还有创造力产品量表(Creative Product Scales)、终身创造力量表(Lifetime Creativity Scales)和活动报告(Activity Reports)等工具,可以从多维度主观评分、访谈和受试者自陈等形式,完成对个体创造性成就的科学评估。该类工具普遍对评分者的领域专业性有较高要求,标准相对宽泛模糊,目前与人工智能的接口较少。

如果我们关注个体的创造性潜力,情况会有很大的不同。创造性潜力既是一个可供描述的整体,也是由诸多要素有机构成的动态系统,可区分多个维度进行综合的评估。

对于成人而言,创造性潜力是一个稳定的群体特征,可以通过创造性潜力侧写(Creative Potential Profiling,CPP)形成一个十维的诊断性评估,并在个体与常模之间、不同行业或职业之间进行比较性的分析。CPP的题本通常可以借助AI工具进行丰富的设计,例如通过呈现一组连续的物体渐变图(如楼房-企鹅),通过记录个体转变认知的时刻,评估个体的思维灵活性(mental flexibility)维度。

CPP-创造性潜力侧写

对于儿童而言,创造性潜力评估有着更加适宜且重要的价值。通过分维度诊断儿童的创造性潜力,我们可以更具针对性地为儿童设计教育方案、提供教育资源。Lubart教授认为,面向儿童的创造性潜力评估工具应当以“创造性行为模拟器”的形式呈现,让儿童在模拟的任务情境下做出创造性的行为并接受评估。在这一领域,经典的评估工具包括托伦斯创造性思维测验(Torrance Tests of creative thinking,TTCT),创造性潜能测验(Evaluation of Potential Creativity,EPoC)和PISA的创造性思维测验。

发散与聚合:创造性思维的两面

其中,以TTCT为代表的发散思维测验(Divergent Thinking Test)是创造力测验中最为主流且使用最为广泛的创造力测验,被称为创造力测量的“金标准”。发散性思维是衡量个体创造力高低的决定性因素,儿童需要围绕特定的题目刺激生成尽可能多的回应,如下图的“平行线测试”,儿童被要求为一组平行线添加少许细节,形成尽可能多不同的图案内容。又如经典的“多用途测验”,儿童被要求举出一件常见物品(如报纸)尽可能多的新奇用途。这些内容将被用于评估儿童思维的发散性,具体标准涉及流畅性、灵活性、原创性等维度。

TTCT-图形测验中的平行线测验

TTCT-多用途测验(“报纸”的不同用途)

在EPoC中,施测者不仅关心儿童思维的发散性,也对其思维聚合性提出了具体的要求。如果说发散思维要求个体从一个起点出发走出诸多不同的道路,聚合思维则要求个体从不同的路径走向一个固定的终点。因此,EPoC不仅设计了一系列发散任务,如下图左侧的“香蕉测验”,还为每一类发散任务设计了相对应的聚合任务,如下图右侧的“物品组合测验”。前者需要将一个香蕉轮廓想象为尽可能多的图案,后者需要将给定的几个图案组合成一幅完整的图画。

EPoC-创造性潜力测验中的图形发散与组合

发散与聚合的任务设计并不止局限于图形领域。在语言任务中,发散任务会要求儿童为一个开头续写尽可能多的故事,聚合任务会要求儿童为一个故事取出合适的标题。这一设计思路被延伸应用到科学、社会、数学、音乐等领域,极大扩展了EPoC的解释范围。例如,在数学领域中,我们可以通过“给定得数,列出尽可能多算式”的任务评估代数发散思维,也可以通过“给定数字,通过至少两次计算得到指定答案”的任务评估代数聚合思维。

EPoC-创造性潜力测验中数学领域的代数发散与组合

在PISA的题本中,对于创造性潜力的评估更加生态化,涉及4类任务:视觉设计、创意写作、科学问题解决和社会问题解决。前两者关注儿童的生成能力,如设计“深空生活”主题的视觉海报,或者围绕“2983”的主题完成写作;后两者关注儿童的问题解决能力,如科学领域的“如何拯救河流?”与社会领域的“如何推广共享汽车?”。儿童在这些任务下生成的答案将会从多个维度进行评分,最终合成一个综合性的创造性得分。

PISA-创造性思维测验题本


相比于创造性成就评估,创造性潜力评估的任务设计更加丰富且单元化,与人工智能存在诸多契合的协作接口。在本次大会中,几位专家均从自己的实践角度给出了下一步研究的思路——

Psychometric Assessment in the Age of Large Language Models

来自美国加州宾夕法尼亚州立大学创造认知神经科学实验室的Antonio Laverghetta博士以创造性问题解决任务(Creative Problem Solving,CPS)为例,为我们分享了基于AIG(Automated item generation)框架引导AI生成测验题目的尝试。通过应用指令工程和人工代理系统的多轮迭代,AI可以创作出足够丰富且差异化的CPS题目,同时保证其复杂性和难度的相对均衡。这一工具若能进一步发展并完善,将极大改善创造力评估的成本问题。














Automating Creativity with Lean Neural Networks

来自宾夕法尼亚州立大学的John Patterson博士,则为我们展示了使用小而精简的神经网络算法进行创造力自动化预测的优势。模型在多种形式的创造力任务和数据集上进行了预测及泛化测试,包括多用途测验、创造性问题解决、创造性写作和隐喻联想任务等等。研究结果表明,预训练大语言模型(如,RoBERTa、Llama-2、GPT-3.5)的预测精度显著均高于语义距离评分方法,且在新任务和数据集上具有较高的泛化性。可见,预训练大语言模型已然成为当前构建创造力测验自动评分工具的最佳选择。









Psychometrics of Creativity: Past, Present, Future

来自乔治亚大学的Denis Dumas副教授则详细介绍了早期的传统测验、主流的语义距离方法,以及最新基于大语言模型进行创造力自动化评估的趋势,并重点探讨了一个完整的线上创造力测验交互系统所需的设计框架。他的研究成果最终以一个在线系统,即开放创造力评分系统(Open Creativity Scoring, OCS)的形式呈现,并期待更多的研究者参与到该系统的应用与开发中。

How creative is ChatGPT in comparison to Oxbridge students?

来自剑桥大学的Luning Sun博士则分享了一项ChatGPT与牛津、剑桥学生创造力的对比研究。结果显示,ChatGPT在多用途测验和远距离联想测验上的表现远高于牛剑学生的平均水平;在创造性写作方面,ChatGPT的表现较差且低于平均水平。然而,当比较最高创造性的答案时,尽管ChatGPT的总体表现相比人类具有优势,但最具创造性的答案仍来自于人类。


总结而言,前人在创造力,尤其是创造性潜力领域的探索,为我们提供了大量有价值的测量任务范式,而人工智能技术将为这些范式提供新的支持和可能性。

在过去,创造力评估最大的限制在于其成本——无论是题目设计、任务交互还是主观评分,都需要可观的高质量人工投入。在如今,随着计算机工具的发展成熟,算法与自动化已经在深度接入创造力评估系统。在未来,创造力测评将持续受益于生成式人工智能,特别是大语言模型技术的进步——绝大多数的创造力评价需要依托于个体的语言符号表达,而大语言模型的优势是处理大量文本数据,理解和生成多种形式的自然语言,这能大幅提升测评的准确性和效率。

在接下来的研究中,如何构建出一个以AI为主导的交互式创造力评估系统框架,探索人机合作的交互系统,充分发挥两者优势?这正是我们可以触及而尚需深入论证、创造性发展的重要课题。


供稿 | 袁玉琢  姚远

排版 | 余樊


往期回顾


北师大MAP

 —心理测量与人力资源管理MHR2.0方向介绍


MHR2.0数字人小訫


北师大心理学部应用心理专业硕士心理测量与人力资源管理(MHR)于2015年开始招生,是MAP专硕项目最早形成的专业方向之一。随着AI时代的到来,社会和企业对专业型人才的需求发生了重大变化,北师大心理学部自2024年6月起决定升级MHR方向,推出MHR2.0,致力培养能够应用和研发心理测评工具,掌握赋能组织发展的技术方法,擅长使用智能技术解决组织中实际问题的高级专业人才。

MHR2.0的核心理念是潜能激发,成就卓越人生,通过升级课程体系和实践体系,培养适应AI时代需求的复合型人才,同时强调心理洞察和通达管理,结合智能化测评技术和组织赋能方法,为学生提供全面的专业训练和广阔的职业发展平台。

☎️联系我们

微信公众号:北师大MHR

官方邮箱:bnumhr@163.com

咨询电话:010-58808272,010-58805857

全网搜索字段(微博、微信、B站):北师大心理学部MAP

北师大MHR
心理测量与人力资源管理方向
 最新文章