不知从什么时候开始,“搞钱”或者筹集科研经费成为了各个实验室“大老板”的主要工作之一,科研经费项目编号成为了一个研究者简历中不可或缺的一部分。同样,也不知何时开始,总体科研经费的增速也赶不上科研人员的增速(甚至科研经费的增长很大程度上还是以牺牲科研人员工资作为代价的),项目申请成功的概率与日俱减,而成败之间的差距就把握在少数同行评审组织手里。在这种僧多粥少的背景下,就有科学哲学研究者提出:科研经费索性就直接以抽奖方式发放。这个建议可谓非常大胆,第一眼看上去或许有些荒谬,但是如下的论证可能表明并非如此。
图:上海交大致远学院的这个转盘可能可以用来分配科研经费。转自Wayne_Light
01
同行评审真的有用吗?
批判现行同行评审制度的一个重要基础为:现有的同行评审团决定科研经费分配的模式不能有效地将经费分配到更“好”的科研项目中。这个说法在未经论证的情况下当然显得非常大胆,因此不妨从一个最基本的假设开始:
1. 用资金支持科学研究的根本目的是研究成果在现在或者将来有益于人类的生活和社会发展。符合这一条件的科研项目是好的科研项目。
2. 由1,在科研经费分配中,应当向可能对人类生活和社会发展效用最大且可能实现的科研项目倾斜。
3. 假设:所有的同行评审团以2为准则发放科研经费。
4. 由2-3,科研经费会发放给同行评审团认为对人类效用最大,同时可能实现的科研项目。
然而注意到:
5. 人对世界的认知可以模式化为事物和事物之间的连结。
6. 科研成果或者仅创建既有事物之间的连结,或者创建新事物并建立其与既有事物的连结。在为潜在的科研成果申请项目经费时,申请一般包含预期的项目成果。
7. 由5-6,任何人判断一种事物对于人类的效用,其基础限于潜在的新事物与所有既有事物之间所有可能的连结,以及基于潜在的新连结可能产生的后续研究成果(此“可能”是现实的可能而非科幻)。
8. 由7,对于一种事物对人类将来的效用,其判断标准包括现在尚未产生,但是将会产生的潜在事物及其与待评审研究成果的连结。
9. 由8,如下情况可能:一种由现在的评审团认为具有高效用的研究成果在将来一文不值,或者恰恰相反。
同时注意到:
10. 评审者在推断新连结可能产生的后续研究成果时,需要评审者凭借自身具有的知识推断;即使申请中包含了此信息,也需要评审者基于其知识确认。
11. 由10,评审者对于其自身专业领域内的研究成果,能够推导更多从此成果衍生的后续研究。
12. 假设:人对于陌生的观点,如果其与人的自身经验吻合,人更易于认可该观点。
13. 由12,对于一个陌生研究者提出的研究计划,若其方法或对象和评审者自身研究的方法相似,则评审者可能高估其研究成果实现的可能性。
14. 由11 13,评审者可能高估相近(细分的)专业领域、相似研究方法和对象的研究的效用。
15. 由4 14,评审者可能(自身并不察觉地)在分配经费时向与其更接近的科研项目倾斜。
16. 由15,评审团成员变化后,上述(可能存在的)偏向会变化。
17. 显然:在所有申请经费的科研项目中,存在少数最优秀的项目(高潜在效用和高现实性),无论评审团如何组成,都会得到经费;存在少数不完善的项目,不论评审团如何组成都不会得到经费;大多数项目介于二者之间。
对这部分中间的科研项目,可以注意到:
18. 不同细分领域的科研项目的效用有时不可比较。例如在预期存活率类似、现实性类似的情况下,很难比较甲状腺癌和胃癌相关研究的效用。
19. 由17-18,对中间的大多数项目,如下情况可能:是否能够得到科研经费取决于评审团组成。
20. 在理想情况下,一项科研经费的评审团由一个由不同领域资深研究者的候选库中随机抽取。
21. 由19-20,对于19所述的科研项目,其是否得到科研经费大致是一个随机事件。
虽然从上述理论框架中可以大致看出同行评议本身存在相当大的局限,但是其中包含大量的“可能性”论证需要通过实证研究确定——
02
实证能否定同行评审吗?
对于科研成果当下的和未来的效用差异,虽然有很多评估认为“科研成果从审批到产生社会影响需要30-40年”或类似的观点,但在没有广泛认可的评估方法之前,显然不能作为一种足以推翻现有科研项目审批机制的论据。相反,通过实证研究比较不同评审团对于同一批申请材料的处理结果或许是一种可操作的方案,但此等实证研究的方法仍有若干问题需要解决——
(1) 很难选出一批具有代表性的申请材料代表全部的科学研究。由于申请材料只能从真实的科研基金项目中获得,而不同的基金项目申请资格的门槛、申请主体的形式和内容要求均不同,因此就个别基金项目的申请开展个案研究很难从形式和实质两方面代表大量的科研基金项目。但是对于上述基金项目本身而言,或许对比的结果可能指导该基金本身更加公平地分配经费。
同时,综合大量不同专业、不同形式和内容要求、不同经费额度的基金项目中的上述个案研究(元分析),即使能够得出统计学显著的数据结果,也难以得出高效度的结论,原因在于存在许多无法量化的变量影响可能的结果。例如在元分析中,使用包括了红学(《红楼梦》研究)和有机化学这两门研究对象范围、细分领域数量、对科研成果的评价标准、以及经费需求和额度都完全不同的两门学科领域的数据以证明“更换评审团会改变科研项目基金申请结果”的结论,完全无法排除关于偶然因素导致显著结论的合理怀疑。
(2) 在上述个案研究中,决定各个科研项目命运的真正评审团成员和事后基于申请材料“模拟评审”的被试者的心理状态显然是不同的,因此试图在正式评审以外、乃至评审结果发布的几年后重新进行模拟评审的个案研究在被试者代表性上的说服力较低。
一个替代的方案是在各个评审分别打分的评审制度中,使用正式的评审结果,通过统计学方法(例如Bootstrap)反复采样,将评审团部分成员的打分当作“小评审团”,然后对比不同“小评审团”之间的结果差异。虽然这种对比结果对于科研基金本身可能是自我否定的(如果发现不同的“小评审团”产生显著不同的结果,即意味着评审结果本身内在一致性信度低),但是如果将原始评审结果交由第三方评估,上述对比也有可能实现。
Bootstrap工作原理。图源网络。
(3) 上述对比结果还有另一个更根本的问题——评审团成员之间是否应该具有极高的一致性?想象一种极端情形,若干评审团和/或模拟评审团的内在一致性为100%,即最终成功申请到经费的项目在每一名评审团成员的分数排序中都能够成功申请经费,不仅仅不符合人类意见不可能完全同意的天性,也不符合同行评议“兼听则明”的宗旨。以上设想意味着存在一个低于100%但相对较高的“理想”的内在一致性水平能够最大化科研经费对人类的效用,而但这个理想水平不可能通过实证证实。另一个问题就是如何区分不同评审团之间“自然”的区别和如上述第15点所述基于特定偏见所产生的结果差异,上述“自然”水平也很难用实证衡量。
而即使可以通过实证证明“不同评审团对同一批申请的评审结果不同”,虽然这个说法在逻辑上完全等同于“部分申请材料的申请结果随评审团成员的变化而不同”,但在推翻基于同行评审的经费分配制度之前,仍然有一个艰难的问题:这种“撞大运”的科研项目要具有多少“运气成分”和占到多少比例,以至于需要牺牲同行评审中轻易筛选出的最优秀的科研项目、也不摒除同行评审中轻易淘汰的项目,让这些项目也参与“抽奖”呢?这个问题留待下期讨论。
参考文献:Avin, S. (2015). Funding Science by Lottery. In: Mäki, U., Votsis, I., Ruphy, S., Schurz, G. (eds) Recent Developments in the Philosophy of Science: EPSA13 Helsinki. European Studies in Philosophy of Science, vol 1. Springer, Cham. https://doi.org/10.1007/978-3-319-23015-3_9