AgentReview: 利用 LLM Agents 探究同行评审机制

文摘 2024-11-02 18:00 意大利

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

点击 阅读原文 观看作者讲解回放！

在学术界，同行评审制度（peer review）对论文质量和科学研究公平性至关重要。然而，随着投稿数量激增，以及评审过程更加复杂，传统的评审模式正面临诸多挑战。如评审中的偏见(bias)及评审质量不稳定等。当前很多工作致力于分析并解决这些问题。传统分析方法基于对真实数据的统计，不能很好地分析单个变量对评审结果的影响。另外，调研真实世界的审稿数据也意味着可能有隐私泄露等问题，如审稿人身份。我们提出了 AgentReview，这是首个基于大型语言模型（LLM）的同行评审模拟框架，有效解决了上述问题。通过AgentReview，我们能够在不使用真实评审数据的情况下，通过控制变量的对比实验，模拟同行评审过程，分析其中多种隐性因素及其对评审结果的影响。这不仅解决了数据隐私的问题，也为同行评审机制的设计提供了新的见解。同时，我们发现了很多有趣的现象，如评审者偏见的影响。这些现象同很多社会学理论相关，如altruistic fatigue（利他主义疲劳）和authority bias（权威偏见）等。文章已被EMNLP 2024 main track录用，评分为444。

标题：AgentReview: Exploring Peer Review Dynamics with LLM Agents
arXiv：https://arxiv.org/abs/2406.12708
网站：https://AgentReview.github.io

引言

同行评审（Peer Review）是学术出版的重要环节。许多研究 peer review 的工作基于真实评审数据，面临多个挑战：

多变量性质（Multivariate Nature）：真实世界的评审结果受多个因素影响，如reviewer专业知识、area chair做决定的方式以及评审机制等多种因素影响，难以区分单一变量的作用；
潜在变量（Latent Variables）：很多变量，如审稿人的偏见和意图，是难以量化的，却可能显著影响评审结果；
隐私顾虑（Privacy Concerns）：评审数据敏感，可能泄露审稿人身份，调查这些数据可能导致伦理问题或影响审稿人未来参与意愿。

图1: 我们提出了AgentReview，它可以灵活配置审稿流程各个部分，以进行受控实验。通过分离同行评审中的多个变量，从而深入研究这些变量对评审结果的影响。我们的研究结果与既有的社会学理论一致。

本研究引入了 AgentReview 框架，可根据需要灵活定制不同特征的审稿人（reviewer）、作者（author）、领域主席（area chair），以及评审机制（review mechanism），有助于系统地分析同行评审中各参与方的作用与影响。

【实验】我们使用了四届 ICLR 会议（ICLR2020 -- ICLR 2023）的真实文章作为输入，根据超过500篇paper生成了超过 53,800 份评审文档，包括review、metareview、author rebuttal、reviewer-AC discussions 等。由于评审的参与者均为LLM Agents，AgentReview无需使用真实评审数据即可获得统计显著性见解，保护了审稿人隐私。

我们的研究发现如下：

社会影响（Social Influence）：审稿人在讨论阶段后往往会调整其评分以与其他审稿人保持一致，这是由于从众心理的压力所致。
利他疲劳与同伴效应（Altruism Fatigue and Peer Effects）：一位审稿人在撰写审稿意见时不够投入，便可导致所有审稿人在讨论阶段（Phase III. ）的投入度显著下降。这表明少数审稿人的消极态度会间接影响其他参与者。
群体思维与回音室效应（Groupthink and Echo Chamber Effects）：恶意审稿人通过互动会放大彼此的负面意见。这可能导致有这些审稿人的评分下降，并产生溢出效应（Spillover Effects），影响到正常审稿人的判断，使其评分下降。
权威偏见与光环效应（Authority Bias and Halo Effects）：审稿人倾向于认为知名作者的稿件更加准确，这在当前arXiv提交成为常态的情况下尤为重要。当所有审稿人知晓论文的作者身份时，决策有概率会发生显著的变化。
锚定偏见（Anchoring Bias）：尽管 Phase II. Reviewer-Author Discussion（Rebuttal）阶段旨在回应审稿人担忧和关切，但它对最终结果的影响相比其他因素（如审稿人意图、责任心和专业知识）较小。这可能是由于审稿人过度依赖于对论文的最初印象所导致的锚定偏见。

我们的贡献体现在三个方面：

多功能框架：AgentReview是首个利用大型语言模型代理来模拟整个同行评审过程的框架；
全面的数据集：我们通过模拟创建了一个大规模数据集，包含超过53,800份生成的review、rebuttal、更新后的 review、metareview和最终决定；
新颖的见解：我们的研究揭示了几个重要的发现，这些发现与社会学理论相契合。

AgentReview

框架概览

AgentReview 框架提供了一个可扩展的平台，用于研究不同利益相关者和评审机制设计对评审结果的影响。框架遵循自然语言处理（NLP）和机器学习（ML）会议的常规评审流程。

审稿人 (Reviewer) 在同行评审中起核心作用，其评审质量由三个关键维度决定：投入度（Commitment）、意图（Intention）和专业性（Knowledgeability）。其中，投入度指审稿人的责任感；意图为评审动机，是否真诚帮助作者改进；专业性则衡量审稿人在论文主题领域的专业知识。基于这三个维度，我们将审稿人分为负责与不负责、善意与恶意、知识渊博与知识匮乏这几类。

作者 (Author) 提交论文，并在reviewer与area chair (AC) 讨论期间对初步评审意见提出rebuttal。尽管通常采用双盲评审制度，但作者仍可能通过预印本或社交媒体公开其作品，从而泄露身份。因此我们考虑了审稿人知悉作者身份和未知晓两种情况，以探讨匿名性对评审过程的影响。

领域主席 (Area Chair) 负责促进评审讨论、通过接收审稿人意见、作者rebuttal并结合自身意见做出最终决策。我们从领域主席的决策过程将其分为三类：

权威型：优先考虑自己的意见决定paper录用，而忽视审稿人意见；
从众型：优先考虑审稿人意见，仅通过 reviewers 的意见决定paper录用；
包容型：综合审稿人意见和自己的专业知识决定paper录用。

评审流程

AgentReview采用结构化的五阶段流程模拟同行评审：

Phase I. Reviewer Assessment：三位审稿人独立撰写论文审稿意见；
Phase II. Author-Reviewer Discussion：作者针对评审意见提出rebuttal；
Phase III. Reviewer-AC Discussion：领域主席 (AC) 组织审稿人重新评估并更新意见；
Phase IV. Meta-Review Compilation：领域主席 (AC) 整合前三阶段的讨论写metareview；
Phase V. Paper Decision：领域主席 (AC) 根据 metareview 决定论文的接收或拒稿。我们固定接受率为32%，和真实世界保持一致。每位AC负责一批10篇论文，接受3至4篇。

图2: 本文采用的五阶段审稿流程。实心黑箭头 -> 表示作者关系，蓝色虚线箭头 --> 表示可见性关系。

数据选择

我们选择了ICLR 2020年至2023年的论文数据集，该数据集包括523篇论文（350篇拒稿、125篇poster、29篇spotlight和19篇oral)，涵盖了不同质量层次的论文，以全面反映真实会议的投稿质量。

Baseline

我们将没有任何特定角色设计的agent的数据作为baseline，这允许我们探究单变量对结果的影响。

实验结果

审稿人

结果概述

我们观察每个阶段审稿人给出的评分，表1展示了我们设定的三位审稿人起始评分和最后的评分的平均分和标准差。可以看到在所有的设定下，审稿人给出的评分逐渐变得接近，特别是在负责和知识渊博的审稿人设定中尤为明显。这符合社会影响这一经典社会学理论。

表1：我们给出了审稿人与作者讨论前后的评审分数（图2中的Phase III）。Initial 和 Final分别表示审稿人在Phase I和Phase III的评分。

同时，我们注意到负责、善意、知识渊博的审稿人给出的评分通常要比不负责、恶意、知识匮乏的审稿人给出的分数要高；最终的分数普遍要比最初的分数有所提高。这说明了交流和讨论是非常重要的。

审稿人投入度

评审投入不足和从众心理会导致评审质量下降，表现为讨论后评审字数减少和评分降低，影响学术审查的可靠性。这两种现象和利他疲惫，群体思考心理学效应保持一致。

评审字数减少：将一位正常审稿人替换为不负责的审稿人后讨论阶段的评审字数从平均195.5词降至159词，减少了18.7%
评分降低：如表三所示，将两位正常审稿人替换为不负责的审稿人后，平均审稿分从5.256减少到5.005，产生了0.25的显著降幅。

表3：正常审稿人被不负责任的审稿人逐步替换时的平均评分变化情况。‘#’表示各类评审人的数量。表的左侧显示正常审稿人的平均评分，右侧显示不负责任的审稿人的平均评分。+/− 表示rebuttal后平均评分的变化。

审稿人意图

恶意审稿人会导致评分显著下降和放大论文缺陷，这两种现象符合社会冲突理论和回音室效应。另外在内容上，恶意审稿人更倾向于批评论文缺乏新颖性，表述不清晰这些缺陷。

论文评分显著下降：图9显示，当有一个恶意reviewer参与时，评审评分会出现明显的双峰分布，这与baseline的单峰分布形成了鲜明对比。

图9：当我们在实验中改变一位评审人特质时的最终评分分布，改变包括他们的投入程度、意图和知识水平。

论文缺陷放大：图3右侧表示随着恶意reviewer数量从0增加到3，平均评分从5.11一直降低到3.35，且与不负责设定不一样的是，随着恶意审稿人占比增大，恶意审稿人的最终评分会出现更大的下降。这说明增加更多的恶意审稿人不仅放大了论文的问题，还巩固了他们对该工作的强烈负面看法。

评审内容分析：如图4，我们分类了接受和拒绝的理由。发现拒绝论文的理由在分布上存在差异显著。恶意评审经常批评工作的缺乏新颖性（图4f），这是一种常见但模糊的拒绝理由。他们还更多地强调了表述问题，尽管这对于清晰性很重要，但并不涉及研究的理论健全性。

审稿人专业性

如图4所示，知识匮乏的审稿人提及 局限性讨论不足 的可能性高出24%，而知识渊博，专业性高的审稿人不仅关注基本方面，还提供了6.8%更多的实验验证批评，给予作者更具体有益的反馈。

领域主席

我们使用BERTScore和 SentenceBERT 相似性量化评审与metareview的一致性，发现包容型领域主席与基线最一致，维护了评审完整性；而权威型一致性低，Cohen's Kappa系数仅0.266，一致性率69.8%，可能受个人偏见影响；从众型虽与评审意见重叠高，但缺乏独立判断，可能延续初始偏见。

作者匿名性

为了分析作者身份对评审结果的影响，我们设置了不同数量的审稿人（1~3）知晓作者身份的情况，并调整了已知作者身份的论文比例（10%~30%）。具体而言，审稿人被告知某些论文的作者是该领域的著名且成就卓著的人物。我们基于真实的接受决定将论文分为两类：高质量和低质量。

对于低质量的论文，当1、2或3位审稿人知晓作者的知名身份时，论文接受的Jaccard指数分别为0.364、0.154和0.008，表明这些情况下论文决策与Basline相关性很低，存在显著偏差。而对于高质量论文，即便作者身份已知，观察到的接受变化并不明显。值得注意的是，论文决策的变化更多地受到知晓作者身份的审稿人数量的影响，而非已知作者身份的论文比例。

图6：当作者身份被知晓时，不同比例论文的最终决策相对于基线的比较。较小的Jaccard指数表明与基线的相关性较低。

审稿机制

我们探究了两种机制变体：1）取消两个讨论阶段，即去除第二和第三阶段；2）取消审稿人评分，审稿人不再给出评分，从而使领域主席的决策完全依赖于评审内容。

取消讨论阶段：取消讨论阶段，对最终决策的影响却出乎意料地小，与基线情形非常接近。这可能是因为锚定偏见的作用，即初次提交时形成的初步印象（“锚”）在很大程度上影响了reviewer的判断。另一个可能的原因是所有提交的论文都在rebuttal阶段得到了质量上的提升，因此各论文之间的相对位置几乎没有变化。
取消审稿人评分：当审稿人评分被移除后，决策过程发生了显著变化，导致决策结果出现分歧。与基线结果的比较显示，两者在接收论文集合上只有极小的重叠，Jaccard指数仅为0.20（见表2最后一行）。这意味着没有评分的情况下，决策结果与有评分的情况差异较大。

表2：各种实验变种的结果和基线实验的比较结果，使用了Jaccard指数（Jacc.）、Cohen's Kappa系数（κ）和百分比一致性（%Agree）进行衡量。Jacc. 指示实验变种和基线同时接受的论文集比例。最高和第二高的值以粗体和下划线突出显示。

总结

同行评审机制目前仍然是最为有效的科学研究评价体系之一。通过使用大语言模型智能体对这一行为进行模拟，我们期待文章揭示的不同现象可以在今后被用于提高同行评审机制，让其变得更加可信、公开和公平。

往期精彩文章推荐

EMNLP2024 | 解锁Apple Intelligence：用AppBench一键评测你的手机智能

关于AI TIME

AI TIME源起于2019年，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，加强思想碰撞，链接全球AI学者、行业专家和爱好者，希望以辩论的形式，探讨人工智能和人类未来之间的矛盾，探索人工智能领域的未来。

迄今为止，AI TIME已经邀请了1800多位海内外讲者，举办了逾600场活动，超700万人次观看。

我知道你

在看

提出观点，表达想法，欢迎

留言

点击 阅读原文 观看作者讲解回放！

http://mp.weixin.qq.com/s?__biz=MzIzOTAxOTk3Nw==&mid=2247528887&idx=1&sn=3ffbe4d38b11ccec0a7556149b5b71af

AI TIME 论道

AI TIME是一群关注人工智能发展，并有思想情怀的青年学者创办的圈子，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，链接全球AI学者，以辩论的形式探讨人工智能领域的未来。

NeurIPS 2024 | Diff-eRank: 大模型评估的全新视角与方法

NeurIPS 2024 | 标签噪声下图神经网络有了首个综合基准库，还开源

明天11:00 Meta AI 田渊栋博士开讲｜传统符号推理和大模型推理的融合之路

Efficient AIGC｜清华大学NICS-EFC实验室EffAlg团队专场直播

Meta AI 田渊栋博士开讲｜传统符号推理和大模型推理的融合之路

NeurIPS 2024预讲会113位讲者相聚｜11月13日精彩继续

李国齐：原生类脑脉冲通用智能大模型 | NeurIPS 2024 预讲会特邀报告

NeurIPS 2024预讲会113位讲者相聚｜11月12日精彩启动

NeurIPS 2024预讲会 | 浙江大学软件学院专场直播

Big Model weekly | 第44期

NeurIPS 2024 | 香港浸会大学可信机器学习和推理课题组专场直播

NeurIPS 2024预讲会112位讲者相聚｜2场特邀报告+3个团队专场+7个主题方向

今晚19:00直播 | 上亿Token大放送！如何用大模型做好科研？

上亿Token大放送！如何用大模型做好科研？｜11月7日19:00直播

港大打造 LightRAG：让大模型 RAG 高效又便宜

Big Model weekly | 第43期

AgentReview: 利用 LLM Agents 探究同行评审机制

EMNLP2024 | 解锁Apple Intelligence：用AppBench一键评测你的手机智能

论文解读 | ECCV2024 HTCL:用于语义场景补全的分层时序上下文

多模态模型在抽象图表上堪忧，它能充当合格的智能助手么？

今晚19:00 直播 | SIGCOMM 2024 四位一作分享

港大推出「会说话」的推荐系统大模型XRec，从黑盒预测到可解释

SIGCOMM 2024 四位一作分享 | 10月30日19:00

Big Model weekly | 第42期

大模型越狱攻防三部曲：评估、分析与防御

AI的phone use来了，智谱清言上线情感语音模型GLM-4-Voice

NeurIPS 2024 一作讲者招募 | 报名通道持续开放中

《从提示词入门到智能体创造的奥秘》沙龙活动精彩回顾

CNCC 2024 | CCF-智谱大模型创新基金论坛

论文解读 | ECCV2024 一个通用的视频分割框架

仅一行代码，使LLaMA3在知识编辑任务上表现暴涨35%！您确定不来试试嘛？

Big Model weekly | 第41期

论文解读 | ECCV2024 AutoEval-Video：一个用于评估大型视觉-语言模型在开放式视频问答中的自动基准测试

EMNLP 2024预讲会+特邀报告，64位讲者相聚｜10月19日精彩继续

造船！一起创造AI大模型的未来|求职人看过来

EMNLP 2024预讲会+特邀报告，64位讲者相聚｜10月18-19全天直播

从提示词入门到智能体创造的奥秘 | 10月17日线下沙龙报名

分布偏移中的监督算法公平性研究 | 五篇顶会论文专题分享

10月16日专题分享 | 分布偏移中的监督算法公平行研究

从提示词入门到智能体创造的奥秘 | 10月17日线下沙龙报名

Big Model weekly | 第40期

10名科学家Science联名发文：开源大模型被「误解」了

矩阵略图与流数据机器学习 | 10月15日魏哲巍教授开讲

诺奖或将推动AI“爆炸式”发展，听四位PhD畅谈AI热点及首篇paper背后的故事...

2024年诺贝尔物理学奖｜颁给AI教父！机器学习算物理学？听听诺奖委员会怎么说

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉