学者研究 | 顶会审稿人紧缺，我审我自己！作者自评能提升评审质量吗？

文摘 2024-09-18 18:59 北京

进入公众号 点击右上角“...”设为星标 防止内容走丢

【导读】宾夕法尼亚大学苏炜杰教授团队在ICML 2023会议中进行实验显示，经过作者自评校准后，审稿分数的误差降低超过20%。

近年来，以ICLR、NeurIPS、ICML等为代表的机器学习会议投稿量爆炸式增长。在短短6年间，ICML的投稿量翻了四倍。

这给现有的同行评审（Peer Review）制度带来巨大压力。每位审稿人被要求在短时间内阅读大量文章并给出审稿意见，做出“生死判决”。随着ChatGPT的出现，大量审稿意见甚至直接由AI生成。

这导致了同行评审质量的严重下降。最优秀的论文被拒，而较差的论文反而被接收。对于众多机器学习和人工智能领域的从业者来说，这种现象已经司空见惯。

审稿质量太差已经逐渐成为每次顶级会议后必谈的主题。这是因为一个有经验的审稿人往往需要多年的培养。在面对大量投稿时，优质审稿人早已成为“稀缺资源”。

由于增加优质审稿人或给每位分配更多的论文是不现实的，我们或许可以要求投稿作者提供信息来协助会议决策。

在此背景下，宾夕法尼亚大学统计系和计算机系的苏炜杰教授团队提出了一种创新的审稿方法：“我审我自己”。

论文链接：https://arxiv.org/abs/2408.13430

该方法的核心理念是让作者对自己的论文进行排序，从而为同行评审提供一个新的参考维度。团队同时提出保序机制（Isotonic Mechanism）对审稿人的打分作出调整，赋予每篇文章一个校准后的评分（Isotonic Score），以满足作者提供的排序。

该团队与OpenReview在ICML 2023会议期间进行了一项实验，邀请作者们对自己提交的论文进行排名，以此来测试校准后的评分是否更好地体现了文章的质量。

团队的实验在社交媒体上获得了广泛讨论。

实验结果发现，相比于原始评分（会议审稿人给出的平均分），校准后的评分能更准确地反映论文质量。

校准后，评分与理论上的真实评分（Ground Truth）之间的均方误差（Mean Squared Error）和绝对误差（Mean Absolute Error）显著减少。

此外，团队提出了几种将该机制应用于评审过程的低风险方法，以确保实际使用中有益无害。

这些方法包括：

1. 辅助Senior Area Chair的决策；

2. 优化论文奖项评选流程；

3. 在审稿质量不佳时引入紧急审稿人。

part

背景

保序机制简介

假设投稿人提交了n篇论文，保序机制要求投稿人提供对这n篇论文质量的排序π，然后结合审稿人给出的原始平均评分y = (y1, y2, …, yn)，通过解出一个凸优化问题得出校准后的评分——可以理解为对原始评分的调整，使其符合排序π。

数学上，这个凸优化问题表示为：

实验流程

团队建立了官方网站（https://openrank.cc）并与OpenReview合作，完成了该实验。在ICML截止日期1月26号当天，所有ICML作者都收到了一封邀请他们参加实验的邮件。

以下是ICML 2023实验中投稿人所看到的界面示例。可以发现，界面中并没有让作者提供实际文字评价的部分，只要求作者对投稿文章进行排序。

摘要性统计量（Summery Statistics）

在这次实验中，共有5634位作者完成了问卷调查，占总作者数的30.4%。其中，有1342位作者提交了多篇论文并进行了排名。共有2592篇论文至少被一位作者排名，占总提交量的39.6%。此外，单个作者最多排名了17篇论文。

在实验中，59.8%的作者对他们的排名非常自信。相反，多数作者对原始评分的信心严重不足：近半数作者认为自排最差论文的实际评分超过最好论文的概率超过40%。

part

实验结果

在评估校准后评分表现时，主要的难点在于提交论文的真实评分未知。一篇论文通常获得多个评分，所以我们假设y^avg和y'是同一论文的两个独立评分，并且都被视为真实评分的无偏估计（unbiased estimator）。

我们使用y^iso来表示基于y^avg的校准后评分。我们使用欧几里得距离（L2 distance）和, 来衡量y^iso与y^avg的表现。

这称之为校准后评分和原始评分的代理均方误差（Proxy MSE）。数学上，我们可以证明是真实均方误差的无偏估计。

因此，如果要y^iso在均方误差方面优于y^avg，那么y^iso 的代理均方误差也会比 y^avg 小，反之亦然。

另外，将L2 distance换为L1 distance，和，即得到了校准后评分和原始评分的代理绝对误差（Proxy MAE）。

实验结果表明，该团队提出的三种不同的保序机制普遍能够降低20%的代理均方误差和10%的代理绝对误差。

此外，在95%置信水平（confidence level）上，校准后评分的真实均方误差比原始评分低0.4以上。这表明在评估论文质量时，校准后评分具有更高的准确性。

从直方图中可以明显看出，相比原始评分的误差（蓝色部分），校准后评分的误差（红色部分）显著偏向y轴。

作者还发现，随着提交数量的增多，保序机制在估计准确性上有显著提升。这意味着，如果更多的作者提供他们的排名，通过保序机制可以实现更显著的误差降低。

在提交数量为2～10篇之间时，均方误差（MSE）平均降低25%，绝对误差（MAE）平均降低14%；在提交数量大于11篇时，均方误差（MSE）平均降低41%，绝对误差（MAE）平均降低22%。

part
03

应用

综上所述，校准后评分比原始评分更准确反映真实评分。此外，作者还提出了以下三种温和且谨慎的应用，确保在应用中有益无害。

审查Area Chairs的建议

背景问题：在获得原始评分后，Area Chairs会对每篇文章进行初步判断（初步接受/拒绝建议），然后由Senior Area Chairs审查这些建议，并做出最终决定。但由于时间有限，Senior Area Chairs无法逐个审查。

解决思路：保序机制可用于标记需要Senior Area Chairs仔细审查的投稿。在此应用场景中，校准后评分仅显示给Senior Area Chairs 或 Program Chairs，以便他们更有效地监督Area Chairs的建议。

具体措施：如果论文的校准后评分与Area Chairs的建议之间存在显著差异，Senior Area Chairs可以要求Area Chairs进一步审查该投稿，而不必说明原因。

Best Paper评选

背景问题：在传统的奖项评选机制中，平均分高或被Area Chairs提名的论文会组成候选名单，由委员会进一步审查以确定获奖者。然而，这些决策常常引发争议，甚至不恰当的论文被评为最佳论文奖（Best Paper Award）。一些获奖论文遭到领域内专家的一致反对。

作为隐私领域的领军人物之一，Vitaly Feldman专门写文章指出了获奖论文中的错误。

还有一些获奖论文被大佬直言批评：「Overall, this award is one of the most unfair things I witnessed in my academic life.」

解决思路：在ICML 2023年度被评为杰出论文的六篇论文中，其中三篇参与了实验，分别被其作者排在第一位。作者提供的排名可以作为评选论文奖项的一个有力补充信息。

具体措施：在论文奖项的评选过程中，排名仅向不在评选委员会中的Program Chairs公开。评选委员会依靠专业知识选择获奖论文，而不知晓作者提供的排名。一旦评选委员会做出推荐，Program Chairs可以审查这些推荐。如果某篇推荐论文的作者自排排序较低，Program Chairs可以提出质疑。这种情况下，评选委员会可能需要收集更多证据再考虑其获奖资格。

紧急审稿人的招募

背景问题：当出现低质量审稿时，常常需要招募紧急审稿人。在现有的会议中，招募紧急审稿人通常是因为出现低置信度（Low confidence）的审稿或审稿人对投稿意见分歧明显（High variance）。例如，NeurIPS 2023 建议在四名常规审稿人之外，为每个低置信度的审稿再招募一名额外的紧急审稿人。

解决思路：团队发现，校准后评分与原始评分之间的差异能够有效反映审稿质量。随着一篇文章的原始评分方差（Variance）增大和审稿置信度（Confidence）减小，校准评分与原始评分之间的差异都会显著增大。同时，校准后评分与原始评分之间的巨大差异往往表明作者对审稿质量的担忧，此时分配紧急审稿人可以有效增强学术界对同行评审的信任。因此，团队提出了一种有效分配紧急审稿人的机制，根据初轮审稿的质量自适应地分配审稿人，以经济有效地利用有限的优质审稿人资源。

具体措施：通过对比校准评分与原始评分之间的差异，负责人可以快速识别出那些审稿评分有争议的论文。负责人对参与该机制的论文指派三名初审审稿人，而对未参与的论文指派四名审稿人。我们将根据差异的大小分配紧急审稿人：对差异值在前30%的论文分配两名紧急审稿人，对差异值在前30%至70%之间的论文分配一名紧急审稿人。这样，无论论文是否参与该机制，每篇论文平均都会有四名审稿人。这样不仅能够减轻审稿人的负担，同时也可以在保证评审质量的前提下有效提高审稿流程的整体效率。

part

总结与展望

实验结果突显了保序机制在提升同行评审质量上的潜力。这种方法通过一个简单的排序过程，利用作者对自己论文的理解和判断来优化评审结果。最重要的是，这一机制完全基于现有的评审数据，不需要会议组织者进行额外的操作或资源分配。这种方法由于简便性和成本效益特性，特别适合在资源有限的情况下使用，同时也为应对日益增长的论文提交数量和评审负担提供了一种潜在的解决方案。

团队提出的几种实际应用不仅不会给任何作者带来负面影响，反而会提高整体的审稿质量。为降低风险，该团队与OpenReview在2024年的ICML会议上再次合作进行了实验，以获取更全面的实证证据。

苏炜杰

宾夕法尼亚大学

苏炜杰，《经济管理学刊》编委会专业委员，宾夕法尼亚大学沃顿统计与数据科学系以及计算机与信息科学系副教授。主要研究领域：隐私保护数据分析、优化、高维统计和深度学习理论。2020年斯隆研究奖、2022年SIAM数据科学青年奖获得者。美国两院院士Michael Jordan在2018年里约国际数学家大会1小时报告上大篇幅介绍苏炜杰在凸优化加速算法方面的工作。曾获2019年NSF CAREER Award和2020年斯隆研究奖。

*我们期待公众号原创稿件，来稿、合作请联系：qjem-wx ；推广内容如有侵权请您告知，我们会在第一时间处理或撤销；转载仅供思考，不代表《经济管理学刊》立场；其他平台任何形式转载请注明(来源：经济管理学刊 )。

点击名片·关注我们

《经济管理学刊》是机械工业信息研究院和北京大学联合主办、机械工业出版社出版的经管领域综合性学术刊物。本刊编委会汇聚了来自国内外著名高校和研究机构的近90名经济管理领域的杰出学者，并由北京大学光华管理学院院长刘俏教授担任主编。

诚挚邀请国内外专家、学者赐稿。相信在国内外学术共同体的努力下，《经济管理学刊》将成为汇聚全球重要经管理论和思想的平台，为中国的经管学术思想再添新翼，助力中国大地涌现出更多世界级的经济学和管理学研究与思想。

投稿请登录本刊官网www.qjem.cn。

投稿咨询

刘欣欣：010-62747698

编辑部联系

朱鹤楼：010-88379001

侯振锋：010-88379708

邮箱：qjem@qjem.cn

地址：北京市西城区百万庄大街22号3号楼9层

学刊相关目录

‍

文章编辑：侯曼迪；责任编辑：侯振锋；审核人：朱鹤楼

文章

来

源：新智元

http://mp.weixin.qq.com/s?__biz=MzkzNzMzMjkxNg==&mid=2247487702&idx=1&sn=ea9cc0e6acf326feeb1428993976f4a3

经济管理学刊

《经济管理学刊》立足于“站在中国看世界，站在世界看中国”，致力于以通行的学术规范和科学理性的研究方法，研究经管领域的科学、前沿问题，刊发经管领域最新的高质量学术成果，打造经管领域最具代表性的学术期刊和学术共同体交流平台。

最新文章

《经济管理学刊》| 周泽雨，翁翕，程协南：垄断平台引流的福利分析

学术资讯 | 软科世界一流学科排名——金融学

学术资讯 | 软科世界一流学科排名——经济学

学者观点 | 特朗普当选后对华经贸政策及影响分析

《经济管理学刊》| 胡丹琪，贝弗利·R.沃尔特：激进卖空者的业绩持续性

学者观点 | 张庆华：城市空间结构优化：隐藏在城市背后的发展密码

学者观点 | “经济研究杰出贡献者” 国家荣誉称号获得者张卓元的主要学术贡献

《经济管理学刊》| 刘俏，李尚宸，张峥：中国A股市场估值体系的理论探索和政策含义

学者讲堂 | 张庆华：优化城市空间规划:提升全要素生产率的新路径

学者观点 | 聚焦近期一揽子增量政策——田轩接受央视等采访解读

《经济管理学刊》| 徐灿宇，梁上坤：混合所有制程度、环境监管强度与企业环保投入

学者著作 | 刘俏：《我们热爱的金融》（赠书）

学者观点 | 刘世锦：以一揽子“刺激+改革”经济振兴方案实质性扩大内需

学者讲堂| 周羿：生育率低迷，老龄化加剧，中国如何破解人口难题

《经济管理学刊》| 黄益平，肖筱林：数字货币研究述评：私人数字货币、央行数字货币与数字人民币

学术资讯 | 学刊编委吴溪教授等发表顶刊UTD！

学术资讯 | 2024年诺贝尔经济学奖揭晓！

学术资讯 | 学刊编委张成思教授等发表管理学顶刊MS！

学术资讯 | C9+商学院联盟院长联席会议召开

学者观点丨路江涌，唐遥：全球化视野下，企业出海与中部省份的发展契机

学术杂谈 | 罗纳德·科斯

学术会议 | 第三届管理沟通课程教学工作坊（新增工作坊议程）

【征稿】2024中国科技金融学术年会征稿正式开启

学术会议 | 第四届中国金融前沿学术论坛

学者观点 | 对话涂云东：如何用统计学重塑经济金融的未来

《经济管理学刊》| 2024年第3卷第3期目录、摘要(赠刊)

学者著作 | 有理、有据、有用、有趣的战略理论——《共演战略观》荐读

学术资讯 | “最具学术影响力出版社（2014-2023）”榜单发布