AgentReview: 利用 LLM Agents 探究同行评审机制

创业 2024-10-11 12:09 新加坡

在学术界，同行评审制度（peer review）对论文质量和科学研究公平性至关重要。然而，随着投稿数量激增，以及评审过程更加复杂，传统的评审模式正面临诸多挑战。如评审中的偏见(bias)及评审质量不稳定等。当前很多工作致力于分析并解决这些问题。传统分析方法 基于对真实数据的统计，不能很好地分析单个变量对评审结果的影响。另外，调研真实世界的审稿数据也意味着可能有隐私泄露等问题，如审稿人身份。我们提出了 AgentReview，这是首个基于大型语言模型（LLM）的同行评审模拟框架，有效解决了上述问题。通过AgentReview，我们能够在不使用真实评审数据的情况下，通过控制变量的对比实验，模拟同行评审过程，分析其中多种隐性因素及其对评审结果的影响。这不仅解决了数据隐私的问题，也为同行评审机制的设计提供了新的见解。同时，我们发现了很多有趣的现象，如评审者偏见的影响。这些现象同很多社会学理论相关，如altruistic fatigue（利他主义疲劳）和authority bias（权威偏见）等。文章已被EMNLP 2024 main track录用，评分为444。

标题：AgentReview: Exploring Peer Review Dynamics with LLM Agents
arXiv：https://arxiv.org/abs/2406.12708
网站：https://AgentReview.github.io

引言

同行评审（Peer Review）是学术出版的重要环节。许多研究 peer review 的工作基于真实评审数据，面临多个挑战：

多变量性质（Multivariate Nature）：真实世界的评审结果受多个因素影响，如reviewer专业知识、area chair做决定的方式以及评审机制等多种因素影响，难以区分单一变量的作用；
潜在变量（Latent Variables）：很多变量，如审稿人的偏见和意图，是难以量化的，却可能显著影响评审结果；
隐私顾虑（Privacy Concerns）：评审数据敏感，可能泄露审稿人身份，调查这些数据可能导致伦理问题或影响审稿人未来参与意愿。

图1: 我们提出了AgentReview，它可以灵活配置审稿流程各个部分，以进行受控实验。通过分离同行评审中的多个变量，从而深入研究这些变量对评审结果的影响。我们的研究结果与既有的社会学理论一致。

本研究引入了 AgentReview 框架，可根据需要灵活定制不同特征的审稿人（reviewer）、作者（author）、领域主席（area chair），以及评审机制（review mechanism），有助于系统地分析同行评审中各参与方的作用与影响。

【实验】我们使用了四届 ICLR 会议（ICLR2020 -- ICLR 2023）的真实文章作为输入，根据超过500篇paper生成了超过 53,800 份评审文档，包括review、metareview、author rebuttal、reviewer-AC discussions 等。由于评审的参与者均为LLM Agents，AgentReview无需使用真实评审数据即可获得统计显著性见解，保护了审稿人隐私。

我们的研究发现如下：

社会影响（Social Influence）：审稿人在讨论阶段后往往会调整其评分以与其他审稿人保持一致，这是由于从众心理的压力所致。
利他疲劳与同伴效应（Altruism Fatigue and Peer Effects）：一位审稿人在撰写审稿意见时不够投入，便可导致所有审稿人在讨论阶段（Phase III. ）的投入度显著下降。这表明少数审稿人的消极态度会间接影响其他参与者。
群体思维与回音室效应（Groupthink and Echo Chamber Effects）：恶意审稿人通过互动会放大彼此的负面意见。这可能导致有这些审稿人的评分下降，并产生溢出效应（Spillover Effects），影响到正常审稿人的判断，使其评分下降。
权威偏见与光环效应（Authority Bias and Halo Effects）：审稿人倾向于认为知名作者的稿件更加准确，这在当前arXiv提交成为常态的情况下尤为重要。当所有审稿人知晓论文的作者身份时，决策有概率会发生显著的变化。
锚定偏见（Anchoring Bias）：尽管 Phase II. Reviewer-Author Discussion（Rebuttal）阶段旨在回应审稿人担忧和关切，但它对最终结果的影响相比其他因素（如审稿人意图、责任心和专业知识）较小。这可能是由于审稿人过度依赖于对论文的最初印象所导致的锚定偏见。

我们的贡献体现在三个方面：

多功能框架：AgentReview是首个利用大型语言模型代理来模拟整个同行评审过程的框架；
全面的数据集：我们通过模拟创建了一个大规模数据集，包含超过53,800份生成的review、rebuttal、更新后的 review、metareview和最终决定；
新颖的见解：我们的研究揭示了几个重要的发现，这些发现与社会学理论相契合。

AgentReview

框架概览

AgentReview 框架提供了一个可扩展的平台，用于研究不同利益相关者和评审机制设计对评审结果的影响。框架遵循自然语言处理（NLP）和机器学习（ML）会议的常规评审流程。

审稿人 (Reviewer) 在同行评审中起核心作用，其评审质量由三个关键维度决定：投入度（Commitment）、意图（Intention）和专业性（Knowledgeability）。其中，投入度指审稿人的责任感；意图为评审动机，是否真诚帮助作者改进；专业性则衡量审稿人在论文主题领域的专业知识。基于这三个维度，我们将审稿人分为负责与不负责、善意与恶意、知识渊博与知识匮乏这几类。

作者 (Author) 提交论文，并在reviewer与area chair (AC) 讨论期间对初步评审意见提出rebuttal。尽管通常采用双盲评审制度，但作者仍可能通过预印本或社交媒体公开其作品，从而泄露身份。因此我们考虑了审稿人知悉作者身份和未知晓两种情况，以探讨匿名性对评审过程的影响。

领域主席 (Area Chair) 负责促进评审讨论、通过接收审稿人意见、作者rebuttal并结合自身意见做出最终决策。我们从领域主席的决策过程将其分为三类：

权威型：优先考虑自己的意见决定paper录用，而忽视审稿人意见；
从众型：优先考虑审稿人意见，仅通过 reviewers 的意见决定paper录用；
包容型：综合审稿人意见和自己的专业知识决定paper录用。

评审流程

AgentReview采用结构化的五阶段流程模拟同行评审：

Phase I. Reviewer Assessment：三位审稿人独立撰写论文审稿意见；
Phase II. Author-Reviewer Discussion：作者针对评审意见提出rebuttal；
Phase III. Reviewer-AC Discussion：领域主席 (AC) 组织审稿人重新评估并更新意见；
Phase IV. Meta-Review Compilation：领域主席 (AC) 整合前三阶段的讨论写metareview；
Phase V. Paper Decision：领域主席 (AC) 根据 metareview 决定论文的接收或拒稿。我们固定接受率为32%，和真实世界保持一致。每位AC负责一批10篇论文，接受3至4篇。

图2: 本文采用的五阶段审稿流程。实心黑箭头 -> 表示作者关系，蓝色虚线箭头 --> 表示可见性关系。

数据选择

我们选择了ICLR 2020年至2023年的论文数据集，该数据集包括523篇论文（350篇拒稿、125篇poster、29篇spotlight和19篇oral)，涵盖了不同质量层次的论文，以全面反映真实会议的投稿质量。

Baseline

我们将没有任何特定角色设计的agent的数据作为baseline，这允许我们探究单变量对结果的影响。

实验结果

审稿人

结果概述

我们观察每个阶段审稿人给出的评分，表1展示了我们设定的三位审稿人起始评分和最后的评分的平均分和标准差。可以看到在所有的设定下，审稿人给出的评分逐渐变得接近，特别是在负责和知识渊博的审稿人设定中尤为明显。这符合社会影响这一经典社会学理论。

表1：我们给出了审稿人与作者讨论前后的评审分数（图2中的Phase III）。Initial 和 Final分别表示审稿人在Phase I和Phase III的评分。

同时，我们注意到负责、善意、知识渊博的审稿人给出的评分通常要比不负责、恶意、知识匮乏的审稿人给出的分数要高；最终的分数普遍要比最初的分数有所提高。这说明了交流和讨论是非常重要的。

审稿人投入度

评审投入不足和从众心理会导致评审质量下降，表现为讨论后评审字数减少和评分降低，影响学术审查的可靠性。这两种现象和利他疲惫，群体思考心理学效应保持一致。

评审字数减少：将一位正常审稿人替换为不负责的审稿人后讨论阶段的评审字数从平均195.5词降至159词，减少了18.7%
评分降低：如表三所示，将两位正常审稿人替换为不负责的审稿人后，平均审稿分从5.256减少到5.005，产生了0.25的显著降幅。

表3：正常审稿人被不负责任的审稿人逐步替换时的平均评分变化情况。‘#’表示各类评审人的数量。表的左侧显示正常审稿人的平均评分，右侧显示不负责任的审稿人的平均评分。+/− 表示rebuttal后平均评分的变化。

审稿人意图

恶意审稿人会导致评分显著下降和放大论文缺陷，这两种现象符合社会冲突理论和回音室效应。另外在内容上，恶意审稿人更倾向于批评论文缺乏新颖性，表述不清晰这些缺陷。

论文评分显著下降：图9显示，当有一个恶意reviewer参与时，评审评分会出现明显的双峰分布，这与baseline的单峰分布形成了鲜明对比。

图9：当我们在实验中改变一位评审人特质时的最终评分分布，改变包括他们的投入程度、意图和知识水平。

论文缺陷放大：图3右侧表示随着恶意reviewer数量从0增加到3，平均评分从5.11一直降低到3.35，且与不负责设定不一样的是，随着恶意审稿人占比增大，恶意审稿人的最终评分会出现更大的下降。这说明增加更多的恶意审稿人不仅放大了论文的问题，还巩固了他们对该工作的强烈负面看法。

图3：当我们在实验逐步增加不负责（左）或恶意审稿人（右），论文评分的变化。

评审内容分析：如图4，我们分类了接受和拒绝的理由。发现拒绝论文的理由在分布上存在差异显著。恶意评审经常批评工作的缺乏新颖性（图4f），这是一种常见但模糊的拒绝理由。他们还更多地强调了表述问题，尽管这对于清晰性很重要，但并不涉及研究的理论健全性。

图4：接受或拒绝文章的理由的分布。

审稿人专业性

如图4所示，知识匮乏的审稿人提及 局限性讨论不足 的可能性高出24%，而知识渊博，专业性高的审稿人不仅关注基本方面，还提供了6.8%更多的实验验证批评，给予作者更具体有益的反馈。

领域主席

我们使用BERTScore和 SentenceBERT 相似性量化评审与metareview的一致性，发现包容型领域主席与基线最一致，维护了评审完整性；而权威型一致性低，Cohen's Kappa系数仅0.266，一致性率69.8%，可能受个人偏见影响；从众型虽与评审意见重叠高，但缺乏独立判断，可能延续初始偏见。

图5：审稿人给出的review和领域主席AC给出的meta review之间的相似性。通过BERTScore（左）和Sentence embedding（右）两种方式衡量

作者匿名性

为了分析作者身份对评审结果的影响，我们设置了不同数量的审稿人（1~3）知晓作者身份的情况，并调整了已知作者身份的论文比例（10%~30%）。具体而言，审稿人被告知某些论文的作者是该领域的著名且成就卓著的人物。我们基于真实的接受决定将论文分为两类：高质量和低质量。

对于低质量的论文，当1、2或3位审稿人知晓作者的知名身份时，论文接受的Jaccard指数分别为0.364、0.154和0.008，表明这些情况下论文决策与Basline相关性很低，存在显著偏差。而对于高质量论文，即便作者身份已知，观察到的接受变化并不明显。值得注意的是，论文决策的变化更多地受到知晓作者身份的审稿人数量的影响，而非已知作者身份的论文比例。

图6：当作者身份被知晓时，不同比例论文的最终决策相对于基线的比较。较小的Jaccard指数表明与基线的相关性较低。

审稿机制

我们探究了两种机制变体：1）取消两个讨论阶段，即去除第二和第三阶段；2）取消审稿人评分，审稿人不再给出评分，从而使领域主席的决策完全依赖于评审内容。

取消讨论阶段：取消讨论阶段，对最终决策的影响却出乎意料地小，与基线情形非常接近。这可能是因为锚定偏见的作用，即初次提交时形成的初步印象（“锚”）在很大程度上影响了reviewer的判断。另一个可能的原因是所有提交的论文都在rebuttal阶段得到了质量上的提升，因此各论文之间的相对位置几乎没有变化。
取消审稿人评分：当审稿人评分被移除后，决策过程发生了显著变化，导致决策结果出现分歧。与基线结果的比较显示，两者在接收论文集合上只有极小的重叠，Jaccard指数仅为0.20（见表2最后一行）。这意味着没有评分的情况下，决策结果与有评分的情况差异较大。

表2：各种实验变种的结果和基线实验的比较结果，使用了Jaccard指数（Jacc.）、Cohen's Kappa系数（κ）和百分比一致性（%Agree）进行衡量。Jacc. 指示实验变种和基线同时接受的论文集比例。最高和第二高的值以粗体和下划线突出显示。

总结

同行评审机制目前仍然是最为有效的科学研究评价体系之一。通过使用大语言模型智能体对这一行为进行模拟，我们期待文章揭示的不同现象可以在今后被用于提高同行评审机制，让其变得更加可信、公开和公平。

http://mp.weixin.qq.com/s?__biz=MzU1MTc3ODYwNA==&mid=2247486122&idx=1&sn=95a05dbf8efa8388163055e16520a8da

王晋东不在家

分享科研与研究生活的点点滴滴，包括但不限于：机器学习、迁移学习、元学习等，以及研究生、博士生生活的经验教训。

最新文章

美国"公立常春藤"威廉玛丽学院王晋东老师招收25 Fall全奖PhD/实习生

AgentReview: 利用 LLM Agents 探究同行评审机制

ICML 2024 Oral | CompeteAI: 从理解竞争机制出发、探索大模型智能体如何助力社会科学研究

ICML 2024 | GLWS: 一个通用高效的框架统一弱监督学习

ICML 2024 | DyVal 2: 更加通用和自动的大语言模型的动态评测和洞察协议

ICLR 2024 spotlight | 基础模型时代的全新研究方向：灾难性继承与噪音模型学习

ICLR 2024 Spotlight | DyVal: 首个大语言模型的动态测试评测协议

2023年度盘点：这一年发过的那些技术文章

写在ChatGPT发布一周年之际

[征稿] ACM TIST special issue征集大模型评测方面的论文

ICCV 2023 | RiFT: 通过鲁棒关键微调提升对抗训练的泛化性

风靡朋友圈的妙鸭相机，到底用了哪些底层技术？

“评测即科学”：首篇大语言模型评测的综述，一文带你全面了解大模型评测的现状、方法和挑战

GLUE-X：基于分布外泛化的自然语言理解模型测试集 (ACL'23 Findings)

Search Anything: 给本地搜索插上大模型的翅膀—语义搜索你的电脑、手机和云端的任何信息

PromptBench: 首个大语言模型提示鲁棒性的评测基准

怎么借助ChatGPT快速肝一篇学术论文？

《大模型时代的科研》之2: Prompt Engineering (提示词工程)

PandaLM: 评估大模型的大模型：保护隐私、可靠、可复现，三行代码即可调用

大模型时代，普通人的科研何去何从：读《一本书读懂AIGC》有感

迁移学习导论英文版终于问世

ICLR 2023 | DIVERSIFY: 针对动态数据分布外泛化的表征学习新范式

ICLR 2023 | SoftMatch: 实现半监督学习中伪标签的质量和数量的trade-off

ICLR 2023半监督学习最高分论文FreeMatch: 自适应阈值法

2022年终盘点：这一年发过的那些技术文章

COLING'22 | 用于细粒度情感分类TOWE任务的多粒度半监督算法

三行代码解决长尾不平衡类别分类：间隔校准算法Margin Calibration

NeurIPS 2022 | USB: 统一、任务多样化、对学术界更友好的半监督学习算法库

你们喜欢的迁移学习开源项目，现在收获了1万星标

为什么越来越多博士逃离科研？

TMLR 22 | 充分挖掘域不变特征的域泛化框架DIFEX

什么是个性化联邦学习？简单易用、面向研究的代码库PersonalizedFL开源啦！

《迁移学习导论》第2版，重磅升级上市！

西湖大学NLP实验室招收PhD、RA、博后和实习生

ICML-22 | 通过忠诚度违规测试重新思考注意力模型的解释能力

打开人工智能“黑盒”，发展可解释、可扩展、可信赖、安全可靠的人工智能

深度学习中创新点比较小，但是有效果，可以发（水）论文吗?

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉