● ● ●
原文以The human costs of the research-assessment culture标题发表在2024年9月9日《自然》的职业特写栏目
“REF-able”(可REF)一词现在在英国大学中被广泛使用。英国布里斯托大学的社会学家Richard Watermeyer表示:“每个人都在不断从‘REF-able’ 产出和‘REF-able’影响的角度来思考研究。”他指的是英国研究卓越框架(REF),该框架每七年进行一次评估,是所有国家中最严苛的学术评估系统之一。
“它的影响无处不在——你无法逃避。”Watermeyer说。但他和世界各地的其他学者都担心高等教育中极端审计文化的影响,在这种文化中,研究人员的生产力不断受到衡量,就REF而言,它直接与机构的研究资金挂钩。批评人士表示,这种制度对员工产生了不利影响,在某些情况下,还会损害研究人员的心理健康和部门同事关系。
插图: Stephan Schmitz
与其他研究基准系统不同,REF结果直接影响每年约20亿英镑的分配,这对机构而言风险很高。英国的大学通过这种方式获得了相当一部分政府资助(此外还有授予个别学者的研究补助金)。
自创立以来,REF的方法经历了多次迭代。关于哪些个体的工作需要被突出的规则变了,但以同行评审小组为重点来对成果进行评估始终不变。自2014年以来,每个大学部门都有一个团队负责挑选一系列能够证明社会影响的研究成果和案例研究。这些提交的成果可以获得的评级从四星(最重要的、世界领先的研究)到一星(最不重要的工作,仅具有国家利益)不等。大多数部门都希望提交的内容能被评为三星或四星,这些内容通常被描述为“REF-able”。
但这个过程很耗时,而且成本不菲。2021年的最新一次REF预计耗资4.71亿英镑(约合44.2亿人民币)。英国牛津大学研究战略与政策部主任Tanita Casci承认,这需要大量资源,但她表示,与通过单个拨款提案分配资金的成本相比,这仍然是一种非常有效的资金分配方式。“我认为其他的替代方案并不会更好。”她总结道。下一次REF被推迟了一年,预计于2029年举行,同时进行一些调整,其中包括更加重视对机构研究文化的评估。
Tanita Casci表示,英国REF评估是一种有效的资金分配方式。来源:牛津大学
许多英国学者认为REF加剧了本已高度竞争和紧张的环境。2021年对3000多名研究人员的调研(见 go.nature.com/47umnjd)发现,他们普遍认为REF的负担超过了其好处。他们还认为,它降低了学者追求自己知识兴趣的能力,并打消了他们追求风险更大、更具投机性、结果不可预测的工作的积极性。
一些其他国家也加入了评估行列——美国是个明显的例外,因为美国联邦政府通常不会向大学提供通用研究资金。但没有一个国家选择完全复制REF。一些国家,例如荷兰,则开发了一种模式,要求各部门设定自己的战略目标并提供他们已经实现这些目标的证据。
无论采用哪种系统,很少有评估能像REF一样在学术界引起如此强烈的反响。“你会发现在有些机构里,一旦提到REF,人们就会发出一种呻吟声,并告诉你它给他们带来了多大的压力。”伦敦大学学院的研究顾问、前医疗保健研究员Petra Boynton说。
01 团队精神紧张
Watermeyer表示,那些负责整理部门的REF提交文件、选择研究成果和案例研究以说明影响力的员工可能会发现自己处于一个不舒服的境地。他参与了自己部门2014年的提交工作,并发表了一项关于REF情感影响的研究[1]。他说,这是一份令大多数学者“忐忑不安”的工作。它可以改变他们与同事的互动方式,以及同事对他们的看法和互动方式。
“你试图对研究质量做出有力、冷静、批判性的判断。然而,在你的内心深处,你不可避免地意识到你的判断对他们的研究身份和职业会产生影响。”Watermeyer说。根据他的经验,人们可能会变得相当具有防御性。对亲密同事工作的审查“可能会很有破坏力,会损害人际关系”。
Watermeyer经常发现自己不仅在评判工作,而且还要充当顾问。“你必须关注其中涉及的情感劳动;你对人们的福利和幸福负责。”而且没有任何相关培训,他说。同事可能会认为他们的工作已经达到了预期,但评估人员却不同意。“我曾遇到过令人悲痛的情况,”Watermeyer回忆道,“有人曾崩溃了。”
对于大学支持人员来说,REF也是重大的压力源。有时,必须在截止日期前雇用更多员工来应对工作量。英国林肯大学前研究影响发展主任Julie Bayley说:“这是一个令人难以置信的压力锅”,尤其是对于小型机构而言。Bayley负责监督50个案例研究,以展示林肯大学的研究影响力。他将此描述为类似于为法律案件准备证据。“你必须严格审查,证明这一说法是正确的。”Bayley说。这通常需要收集组织或个人的推荐信,以证明研究的影响,她有时会代表那些担心破坏他们已经建立的外部关系的研究人员这样做。
Boynton说,这样做也有好处。“整理[案例研究]来表明你做了一些了不起的事情,这真的令人兴奋。”她说。但她同时也承认,那些研究没有被举荐的人会觉得自己的工作不重要或不受尊重,这可能会让人沮丧。
获得四颗星的喝彩可能会扭曲人们对研究成果的态度。Bayley回忆说,一位资深学者含泪向她展示了他主管发来的一封电子邮件,上面写着:“你改变了英国的国家政策,这很好,但除非你改变欧洲政策,否则它不算数。”她说,她自己之前对青少年怀孕的研究也得到了类似的回应,因为它涉及满足基层的实际需求,而不是关注国家政策。“这是我觉得最令人心碎的一点。四星级是大学的荣耀,但四星级不是对社会的影响。”Bayley说。
在个体研究人员之间进行挑选对部门也有潜在影响。Bayley解释说:“这使一些人处于‘明星球员竞赛获胜者’的一边,尤其是在资源有限的情况下,这意味着这些人会得到更多来自其部门的支持。”她亲眼目睹有人被要求承担其他研究人员的教学工作,因为这些研究人员被选中为REF提供影响力案例。Boynton表示同意:“这不是一个大学集体的事情——它具有分裂性。”
02 隐藏的贡献
研究评估还会影响大学通常认为“不具备 REF 能力”的工作。英国南安普顿大学的研究软件工程师Simon Hettrick就在2021年曾处于这种情况。他与研究人员合作为他们的工作开发关键软件。但是,他说,尽管有21个研究成果类别可供考虑(包括软件、专利、会议论文集以及数字和视觉媒体),大学很难将学术论文以外的内容作为成功的衡量标准。
在2021年的REF中,出版物约占提交内容的98.5%。Hettrick说,尽管鼓励提交其他内容,但大学往往不会选择其他内容,大概是出于习惯或担心它们可能不会得到有利的评价。
Simon Hettrick表示,评估应包括更多作品类型,例如软件。来源:Simon Hettrick
结果就是,那些与Hettrick有相似角色的人感到没有动力。“你非常努力地工作,却没有得到认可。”他说。为了解决这个问题,Hettrick和其他人发起了一项名为“隐藏的REF”的倡议,该倡议在2021年举办了一场竞赛,以突出未获得REF认可的重要工作,主办方从60多所大学收集了120份作品参赛。今年该竞赛将会再次进行。
4月,Hettrick和他的同事撰写了一份宣言,要求大学确保2029年有至少5%的REF参赛作品是“非传统产出”。“这引起了一些惊愕。”他说。
关于职业发展,根据Casci的说法,作品被选送REF不应影响某人的前景,他说大学会努力将REF评估与个人职业发展的决定分开。但根据Watermeyer的经验,“这是一个灰色地带”,“它可能不会反映在正式的晋升标准中,但我认为这是公认的不言而喻的现实”。他认为,没有“REF-able”三星或四星成果的学术研究人员不太可能被任何“正经的研究机构”聘用——这严重限制了他们的职业前景和流动性。
Watermeyer说,这些人会面临不同的后果。一些机构试图通过让早期职业学者参加能力建设计划来提高他们的评级,包括建立伙伴计划以促进与更多“REF-able”同事的合作。但对于更高级的员工来说,不利的一面可能是绩效评估。“如果人们发现自己无法满足三星标准,他们可能会被‘鼓励’重新考虑他们的研究角色,”他说。
类似的,研究人员的工作被评选为影响力案例研究也很有必要性。“如果你的工作没有被选中参加那场比赛,你就失去了自己进步的货币。”Bayley说。
英国纽卡斯尔大学商学院组织行为学研究员Emily Yarrow表示,REF还加剧了研究中已经存在的不平等现象。“REF仍然对性别产生影响,对那些为了照顾子女、休产假等原因而放弃工作的人仍然产生不成比例的负面影响。” 2014年,她与别人合作撰写了一篇分析报告,分析了REF在商业和管理领域的影响力案例研究,结果显示女性代表性不足:在有可识别主要作者的研究中,只有25%是由女性领导的[2]。Boynton还指出,机构在准备REF时可用的资源存在明显不平等,这导致许多研究人员认为该系统不公平。
Emily Yarrow发现,女性在研究评估案例研究中所占比例较低。来源:Toby Long
英国研究委员会承认了这些批评,并承诺对2029年的REF进行修正。负责管理2021年REF的英国布里斯托尔研究机构的指导小组主席Steven Hill表示,这些变化将“重新权衡该活动对研究卓越的定义,更加关注所有人才茁壮成长所需的环境”。Hill还表示,他们将实施改革,打破“个人与论文提交之间的联系”,因为每位研究人员的论文提交数量将不再有最低或最高限制。指导小组旨在为机构如何应用REF指导提供更多支持,以消除对要求的误解。“一些机构以REF条款为依据制定绩效标准,对员工的要求高于REF的实际要求。”Hill说。
03 其他前进方向
与REF类似,中国学科评估(CDE)每四到五年举行一次。英国剑桥大学高等教育研究员Yiran Zhou研究了人们对CDE的态度[3],并表示,在中国,存在着出产相当于“REF-able”研究的压力,以及对学术界影响的类似担忧。中国更多地依赖传统的定量出版指标,但Zhou采访的研究人员批评了制作CDE影响力案例研究所浪费的时间。负责组织这项工作的人经常不得不与同事讨价还价来收集他们需要的证据。“然后,他们欠下人情,回报方式比如代为教课一两个小时。”Zhou说。
竞争加剧已成为中国大学之间的一个担忧,Zhou说,政府已决定不公布最近一次CDE的结果,只通知各个大学。Zhou说,她采访的一些人赞成完全放弃评估。
2022年,澳大利亚就是这样做的。在2023年澳大利亚卓越研究(ERA)评估之前,政府宣布将停止耗时的流程,开始过渡到研究另外的“由专家评审指导的现代数据驱动方法”。2023年10月,澳大利亚研究委员会公布了新评估系统的蓝图,并正在研究更智能地收集评估数据的方法。它还指出,使用的任何数据都将被“策划”,可能借助人工智能。
一些欧洲国家正在摆脱REF所体现的竞争过程类型。“对于荷兰,我们希望从评估转向发展”职业和部门战略,驻海牙的荷兰大学表彰与奖励项目经理、荷兰大学研究评估流程战略评估协议(SEP)工作组前主席Kim Huijpen说。在SEP中,机构每六年组织一次基于主题的研究单位评估,但结果与政府资助无关。
SEP是一个基准测试过程。每个研究小组都会选择与其策略相关的指标和其他类型的证据,这些指标和实地考察为同行和利益相关者委员会的审查提供了基础。2021-27年的协议取消了之前的评分制度。“我们想摆脱这种排名方式。”Huijpen解释道,“质量、社会相关性和工作影响有很大的自由讨论空间——而且对于如何做到这一点并没有很严格的规定。”
挪威研究理事会每十年还会进行一次基于主题的评估,包括机构级指标和案例研究,以广泛调查一个领域。“根据我从同事那里听到的消息,挪威的评估比REF要温和得多。虽然在看的东西上很相似,但感觉并不一样。”奥斯陆大学音乐研究员Alexander Refsum Jensenius说。这可能是因为评估和资金之间没有直接联系。
Refsum Jensenius参与了挪威职业评估矩阵的制定,该矩阵是2021 年由挪威大学联盟(32所经认证大学的合作机构)开发的一套工具箱。它不用于评估院系,但它展示了一种全新、更广泛的方法。
它与许多其他评估的不同之处在于,除了提供证据之外,研究人员还可以概述其研究方向的动机并对成就做出自己的价值判断。“你不仅可以列出你一直在做的事情的无尽清单,还需要反思它,并可能提出其中一些对你更有价值的事情。”Refsum Jensenius说。例如,研究人员可以通过强调其作品的跨学科性质限制了发表机会,从而为其出版物清单添加背景信息。还有一个持续专业发展的要素,以确定研究人员需要加强的技能。Refsum Jensenius说,这种方法在挪威体系中受到欢迎。“包括奥斯陆大学在内的许多机构开始采用该工具箱来招聘和提拔人员。”
对于许多英国研究人员来说,这种更具培养性、反思性的评估方法可能感觉与REF相距甚远,但这并不是说REF流程没有解决改善机构研究环境的方法。目前,评估的三大支柱之一涉及“人、文化和环境”,其中包括开放科学、研究诚信、职业发展和公平、多样性和包容性(EDI)问题。自2022年以来,一直在讨论如何在下一届REF中更好地衡量和激励这些领域的良好实践。
Bayley认为,就英国大学对EDI问题的重视程度增加而言,REF已经起到了一定贡献。“我不会假装它已经解决了,但EDI现在已经成为议程上的常设项目,它比以往任何时候都更加重要。”
但她不太确定REF是否整体上改善了研究文化。例如,她说,在2014年REF之后,当规则改变为要求提交所有长期研究人员的贡献时,她看到一些迹象表明一些大学正在以一种不利于早期职业研究人员的方式玩弄系统。初级员工只能签订不稳定的临时合同,她还看到一些机构冻结员工人数以避免提交更多影响案例研究的例子。“我在许多大学都多次看到这种情况,这意味着研究职位的早期职业切入点减少了。”
“REF 是一把双刃剑。”Bayley总结道。她说,它带来的行政负担和压力太大了,但它确实提供了一种分配资金的方式,让较小的机构有更多机会。在2021年REF之后,尽管顶尖大学仍然占主导地位,但许多大学获得的资金比以前少,而一些较新、不太有名望的大学表现强劲。增幅最大的是纽卡斯尔的诺森比亚大学,其“质量相关”资金从700万英镑增加到1800万英镑。
对于Watermeyer来说,整个过程适得其反,浪费了宝贵的资源,创造了一种竞争而非合作的文化,这种文化可能无法容忍最具创造性的思想家。他希望废除它。Hettrick犹豫不决,因为“我内心的现实主义者认为有必要向纳税人解释我们用他们的钱做了什么”。他说,现在的任务是更便宜、更有效地进行评估。
其他研究团体可能不同意。正如Huijpen指出的那样,“学术生活中有很多评估,职业生涯中有很多时刻需要评估,当你申请资金时,当你申请工作时”。从她的角度来看,现在是时候选择减少排名、增加反思了。
© nature
doi:10.1038/d41586-024-02922-4
亲爱的读者们,不星标《知识分子》公众号,会错过每日科学新知!星标《知识分子》,紧跟前沿科学,一起探索科学的奥秘吧!