在学术界,同行评审制度 (peer review)对论文质量和科学研究公平性至关重要。然而,随着投稿数量激增,以及评审过程更加复杂,传统的评审模式正面临诸多挑战。如评审中的偏见(bias)及评审质量不稳定等。当前很多工作致力于分析并解决这些问题。传统分析方法 基于对真实数据的统计,不能很好地分析单个变量对评审结果的影响。另外,调研真实世界的审稿数据也意味着可能有隐私泄露等问题,如审稿人身份。我们提出了 AgentReview,这是首个基于大型语言模型(LLM)的同行评审模拟框架,有效解决了上述问题。通过AgentReview,我们能够在不使用真实评审数据的情况下,通过控制变量的对比实验,模拟同行评审过程,分析其中多种隐性因素及其对评审结果的影响。这不仅解决了数据隐私的问题,也为同行评审机制的设计提供了新的见解。同时,我们发现了很多有趣的现象,如评审者偏见的影响。这些现象同很多社会学理论相关,如altruistic fatigue(利他主义疲劳)和authority bias(权威偏见)等。文章已被EMNLP 2024 main track录用,评分为444。
标题:AgentReview: Exploring Peer Review Dynamics with LLM Agents arXiv:https://arxiv.org/abs/2406.12708 网站:https://AgentReview.github.io
引言
同行评审(Peer Review)是学术出版的重要环节。许多研究 peer review 的工作基于真实评审数据,面临多个挑战:
多变量性质(Multivariate Nature):真实世界的评审结果受多个因素影响,如reviewer专业知识、area chair做决定的方式以及评审机制等多种因素影响,难以区分单一变量的作用; 潜在变量(Latent Variables):很多变量,如审稿人的偏见和意图,是难以量化的,却可能显著影响评审结果; 隐私顾虑(Privacy Concerns):评审数据敏感,可能泄露审稿人身份,调查这些数据可能导致伦理问题或影响审稿人未来参与意愿。
图1: 我们提出了AgentReview,它可以灵活配置审稿流程各个部分,以进行受控实验。通过分离同行评审中的多个变量,从而深入研究这些变量对评审结果的影响。我们的研究结果与既有的社会学理论一致。
本研究引入了 AgentReview 框架,可根据需要灵活定制不同特征的审稿人(reviewer)、作者(author)、领域主席(area chair),以及评审机制(review mechanism),有助于系统地分析同行评审中各参与方的作用与影响。
【实验】我们使用了四届 ICLR 会议(ICLR2020 -- ICLR 2023)的真实文章作为输入,根据超过500篇paper生成了超过 53,800 份评审文档,包括review、metareview、author rebuttal、reviewer-AC discussions 等。由于评审的参与者均为LLM Agents,AgentReview无需使用真实评审数据即可获得统计显著性见解,保护了审稿人隐私。
我们的研究发现如下:
社会影响(Social Influence):审稿人在讨论阶段后往往会调整其评分以与其他审稿人保持一致,这是由于从众心理的压力所致。 利他疲劳与同伴效应(Altruism Fatigue and Peer Effects):一位审稿人在撰写审稿意见时不够投入,便可导致所有审稿人在讨论阶段(Phase III. )的投入度显著下降。这表明少数审稿人的消极态度会间接影响其他参与者。 群体思维与回音室效应(Groupthink and Echo Chamber Effects):恶意审稿人通过互动会放大彼此的负面意见。这可能导致有这些审稿人的评分下降,并产生溢出效应(Spillover Effects),影响到正常审稿人的判断,使其评分下降。 权威偏见与光环效应(Authority Bias and Halo Effects):审稿人倾向于认为知名作者的稿件更加准确,这在当前arXiv提交成为常态的情况下尤为重要。当所有审稿人知晓论文的作者身份时,决策有概率会发生显著的变化。 锚定偏见(Anchoring Bias):尽管 Phase II. Reviewer-Author Discussion(Rebuttal)阶段旨在回应审稿人担忧和关切,但它对最终结果的影响相比其他因素(如审稿人意图、责任心和专业知识)较小。这可能是由于审稿人过度依赖于对论文的最初印象所导致的锚定偏见。
我们的贡献体现在三个方面:
多功能框架:AgentReview是首个利用大型语言模型代理来模拟整个同行评审过程的框架; 全面的数据集:我们通过模拟创建了一个大规模数据集,包含超过53,800份生成的review、rebuttal、更新后的 review、metareview和最终决定; 新颖的见解:我们的研究揭示了几个重要的发现,这些发现与社会学理论相契合。
AgentReview
框架概览
AgentReview 框架提供了一个可扩展的平台,用于研究不同利益相关者和评审机制设计对评审结果的影响。框架遵循自然语言处理(NLP)和机器学习(ML)会议的常规评审流程。
审稿人 (Reviewer) 在同行评审中起核心作用,其评审质量由三个关键维度决定:投入度(Commitment)、意图(Intention)和专业性(Knowledgeability)。其中,投入度指审稿人的责任感;意图为评审动机,是否真诚帮助作者改进;专业性则衡量审稿人在论文主题领域的专业知识。基于这三个维度,我们将审稿人分为负责与不负责、善意与恶意、知识渊博与知识匮乏这几类。
作者 (Author) 提交论文,并在reviewer与area chair (AC) 讨论期间对初步评审意见提出rebuttal。尽管通常采用双盲评审制度,但作者仍可能通过预印本或社交媒体公开其作品,从而泄露身份。因此我们考虑了审稿人知悉作者身份和未知晓两种情况,以探讨匿名性对评审过程的影响。
领域主席 (Area Chair) 负责促进评审讨论、通过接收审稿人意见、作者rebuttal并结合自身意见做出最终决策。我们从领域主席的决策过程将其分为三类:
权威型:优先考虑自己的意见决定paper录用,而忽视审稿人意见; 从众型:优先考虑审稿人意见,仅通过 reviewers 的意见决定paper录用; 包容型:综合审稿人意见和自己的专业知识决定paper录用。
评审流程
AgentReview采用结构化的五阶段流程模拟同行评审:
Phase I. Reviewer Assessment:三位审稿人独立撰写论文审稿意见; Phase II. Author-Reviewer Discussion:作者针对评审意见提出rebuttal; Phase III. Reviewer-AC Discussion:领域主席 (AC) 组织审稿人重新评估并更新意见; Phase IV. Meta-Review Compilation:领域主席 (AC) 整合前三阶段的讨论写metareview; Phase V. Paper Decision:领域主席 (AC) 根据 metareview 决定论文的接收或拒稿。我们固定接受率为32%,和真实世界保持一致。每位AC负责一批10篇论文,接受3至4篇。
图2: 本文采用的五阶段审稿流程。实心黑箭头 -> 表示作者关系,蓝色虚线箭头 --> 表示可见性关系。
数据选择
我们选择了ICLR 2020年至2023年的论文数据集,该数据集包括523篇论文(350篇拒稿、125篇poster、29篇spotlight和19篇oral),涵盖了不同质量层次的论文,以全面反映真实会议的投稿质量。
Baseline
我们将没有任何特定角色设计的agent的数据作为baseline,这允许我们探究单变量对结果的影响。
实验结果
审稿人
结果概述
我们观察每个阶段审稿人给出的评分,表1展示了我们设定的三位审稿人起始评分和最后的评分的平均分和标准差。可以看到在所有的设定下,审稿人给出的评分逐渐变得接近,特别是在负责和知识渊博的审稿人设定中尤为明显。这符合社会影响这一经典社会学理论。
表1:我们给出了审稿人与作者讨论前后的评审分数(图2中的Phase III)。Initial 和 Final分别表示审稿人在Phase I和Phase III的评分。
同时,我们注意到负责、善意、知识渊博的审稿人给出的评分通常要比不负责、恶意、知识匮乏的审稿人给出的分数要高;最终的分数普遍要比最初的分数有所提高。这说明了交流和讨论是非常重要的。
审稿人投入度
评审投入不足和从众心理会导致评审质量下降,表现为讨论后评审字数减少和评分降低,影响学术审查的可靠性。这两种现象和利他疲惫,群体思考心理学效应保持一致。
评审字数减少:将一位正常审稿人替换为不负责的审稿人后讨论阶段的评审字数从平均195.5词降至159词,减少了18.7% 评分降低:如表三所示,将两位正常审稿人替换为不负责的审稿人后,平均审稿分从5.256减少到5.005,产生了0.25的显著降幅。
表3:正常审稿人被不负责任的审稿人逐步替换时的平均评分变化情况。‘#’表示各类评审人的数量。表的左侧显示正常审稿人的平均评分,右侧显示不负责任的审稿人的平均评分。+/− 表示rebuttal后平均评分的变化。
审稿人意图
恶意审稿人会导致评分显著下降和放大论文缺陷,这两种现象符合社会冲突理论和回音室效应。另外在内容上,恶意审稿人更倾向于批评论文缺乏新颖性,表述不清晰这些缺陷。
论文评分显著下降:图9显示,当有一个恶意reviewer参与时,评审评分会出现明显的双峰分布,这与baseline的单峰分布形成了鲜明对比。
图9:当我们在实验中改变一位评审人特质时的最终评分分布,改变包括他们的投入程度、意图和知识水平。
论文缺陷放大:图3右侧表示随着恶意reviewer数量从0增加到3,平均评分从5.11一直降低到3.35,且与不负责设定不一样的是,随着恶意审稿人占比增大,恶意审稿人的最终评分会出现更大的下降。这说明增加更多的恶意审稿人不仅放大了论文的问题,还巩固了他们对该工作的强烈负面看法。
图3:当我们在实验逐步增加不负责(左)或恶意审稿人(右),论文评分的变化。
评审内容分析:如图4,我们分类了接受和拒绝的理由。发现拒绝论文的理由在分布上存在差异显著。恶意评审经常批评工作的缺乏新颖性(图4f),这是一种常见但模糊的拒绝理由。他们还更多地强调了表述问题,尽管这对于清晰性很重要,但并不涉及研究的理论健全性。
图4:接受或拒绝文章的理由的分布。
审稿人专业性
如图4所示,知识匮乏的审稿人提及 局限性讨论不足 的可能性高出24%,而知识渊博,专业性高的审稿人不仅关注基本方面,还提供了6.8%更多的实验验证批评,给予作者更具体有益的反馈。
领域主席
我们使用BERTScore和 SentenceBERT 相似性量化评审与metareview的一致性,发现包容型领域主席与基线最一致,维护了评审完整性;而权威型一致性低,Cohen's Kappa系数仅0.266,一致性率69.8%,可能受个人偏见影响;从众型虽与评审意见重叠高,但缺乏独立判断,可能延续初始偏见。
图5:审稿人给出的review和领域主席AC给出的meta review之间的相似性。通过BERTScore(左)和Sentence embedding(右)两种方式衡量
作者匿名性
为了分析作者身份对评审结果的影响,我们设置了不同数量的审稿人(1~3)知晓作者身份的情况,并调整了已知作者身份的论文比例(10%~30%)。具体而言,审稿人被告知某些论文的作者是该领域的著名且成就卓著的人物。我们基于真实的接受决定将论文分为两类:高质量和低质量。
对于低质量的论文,当1、2或3位审稿人知晓作者的知名身份时,论文接受的Jaccard指数分别为0.364、0.154和0.008,表明这些情况下论文决策与Basline相关性很低,存在显著偏差。而对于高质量论文,即便作者身份已知,观察到的接受变化并不明显。值得注意的是,论文决策的变化更多地受到知晓作者身份的审稿人数量的影响,而非已知作者身份的论文比例。
图6:当作者身份被知晓时,不同比例论文的最终决策相对于基线的比较。较小的Jaccard指数表明与基线的相关性较低。
审稿机制
我们探究了两种机制变体:1)取消两个讨论阶段,即去除第二和第三阶段;2)取消审稿人评分,审稿人不再给出评分,从而使领域主席的决策完全依赖于评审内容。
取消讨论阶段:取消讨论阶段,对最终决策的影响却出乎意料地小,与基线情形非常接近。这可能是因为锚定偏见的作用,即初次提交时形成的初步印象(“锚”)在很大程度上影响了reviewer的判断。另一个可能的原因是所有提交的论文都在rebuttal阶段得到了质量上的提升,因此各论文之间的相对位置几乎没有变化。
取消审稿人评分:当审稿人评分被移除后,决策过程发生了显著变化,导致决策结果出现分歧。与基线结果的比较显示,两者在接收论文集合上只有极小的重叠,Jaccard指数仅为0.20(见表2最后一行)。这意味着没有评分的情况下,决策结果与有评分的情况差异较大。
表2:各种实验变种的结果和基线实验的比较结果,使用了Jaccard指数(Jacc.)、Cohen's Kappa系数(κ)和百分比一致性(%Agree)进行衡量。Jacc. 指示实验变种和基线同时接受的论文集比例。最高和第二高的值以粗体和下划线突出显示。
总结
同行评审机制目前仍然是最为有效的科学研究评价体系之一。通过使用大语言模型智能体对这一行为进行模拟,我们期待文章揭示的不同现象可以在今后被用于提高同行评审机制,让其变得更加可信、公开和公平。