如何让同行评审更加科学

文摘   科技   2024-01-23 11:05   广东  

作者:陈可馨

如何让同行评审更加科学(图片来自于网络)

研究背景

同行评审 (Peer review) 在科研工作中至关重要,然而,正如在Rennie [1] 中所述:但这是一个人类系统。每个参与其中的人都会带来偏见、误解和知识差距,因此,没有人应该对同行评审往往存在偏见和低效感到惊讶……即使是出于最好的意图……


首先考虑情景一:有2篇论文,每篇论文都有5位审稿人,只有1篇论文会被接收。论文1收到了3个“接收”和2个“拒收”,论文2收到了2个“接收”和3个“拒收”。

图1 审稿结果

一个典型的决定是接收论文1,因为其收到了更高比例的“接收”,这个决定在所有审稿人都专业匹配并投入全部精力在理想情况下是符合预期的。但是,审稿意见会由于审稿人的专业不匹配及缺乏投入而不准确,同时,不同论文的噪声可能是不同的。


考虑情景二:论文1的主题比论文2的主题更加热门,因此,论文1更容易匹配到专业一致的审稿人,这导致论文1的审稿意见中的噪声程度低于论文2。

图2 场景2:热门主题vs冷门主题

假设在理想情景下,论文1有60%的概率被接收,论文2有80%的概率被接收,但论文2由于主题冷门,收到的审稿意见中包含较大的噪声,只有40%的审稿人决定“接收”。此外,“廉价信号 (cheap signal)”可能会带来系统性偏差。


考虑情景三:论文1附有复杂的证明,而论文2的证明简短。此情景下,审稿人倾向于无意识地给论文1“接收”,即使证明长度是被轻易操纵的“廉价信号”。

图3 场景3:长证明vs短证明

针对上述噪声场景,本文作者提出了一种在没有任何先验知识情况下的一次性抗噪声评分方法,具体来说,该评分方法有很高概率可以给质量较高的论文较高的分数,即使噪声存在。

研究方法

本文作者首先建立噪声模型,其中  为噪声水平,  为偏见向量。审稿人有  的概率收到正确的信号,有的概率收到带有偏见的信号。作者考虑2篇论文的比较,提出了一种基于惊讶的评分方法(Surprisal-based Score):

  

其中  是评分,  是审稿意见的数字映射(如“接收”设置为1,“拒收”设置为0),  是审稿人的评分向量,  是评分的先验分布,  是评分的联合矩阵,  是评分的选项(如上述二元评分中  )。作者证明该评分方法对噪声是鲁棒的,并且基于该评分的比较符合论文真实质量的比较。


接着,作者考虑实际中有限审稿人的场景,用收集到的审稿结果计算每篇论文的惊讶分数。文中证明该评分方法的错误率有上界,并且当审稿人数趋于无穷时,此错误率趋于0。

研究结果

作者在三种不同的分布下验证了该评分方法的有效性。其中,基准(绿色曲线)是比较“接收”比例。

  • 分布1(点线):大部分论文的质量或高或低;

  • 分布2(实线):论文的质量均匀分布;

  • 分布3(虚线):大部分论文的质量都中等。


针对不同的噪声水平,仿真结果如下:

图4 两篇论文的审稿有相反的偏见

图5  两篇论文的审稿有相同的偏见

从以上结果可以看出,该评分方法在噪声水平较低、论文质量差距较大、论文偏见不同、审稿人数较多时有更多的优势。


参考文献

[1] Rennie, Drummond. "Let’s make peer review scientific." Nature535.7610 (2016): 31-33.

[2] Lu, Yuxuan, and Yuqing Kong. "Calibrating “Cheap Signals” in Peer Review without a Prior." Thirty-seventh Conference on Neural Information Processing Systems. 2023.

写在最后

我们的文章可以转载了呢~欢迎转载转发

想了解更多前沿科技与资讯?

点击上方入口关注我们!

欢迎点击右上方分享到朋友圈

香港中文大学(深圳)

网络通信与经济实验室

微信号 : ncel_cuhk


网络通信与经济
介绍网络、通信和经济交叉领域的最新科研成果和活动 —香港中文大学(深圳)网络通信与经济学实验室
 最新文章