ICLR审稿集体搞抽象！评审结果写半句，还有的求ta也不审，网友：科研人自己的春晚

科技 2024-12-05 14:15 北京

衡宇发自凹非寺转载 | 量子位 | 公众号 QbitAI

今天，ICLR 2025的discussion phase的ddl已经截止。回看过去14天的讨论过程，可太精彩了！

各大平台上随手一翻就是作者们的吐槽大会，都在无语这届ICLR评审的各种奇葩乱象。

譬如UCSB博士生@JiachenLi11 就在推特上非常之无奈：

我收到的评审内容，低到令人担忧——其中一条评审甚至话都没说完。难道审稿人的tokens用完了吗？？？

△图源推友@JiachenLi11

你还真别说，他这个“tokens用完”的吐槽并不是空穴来风——

ICLR 2025的论文提交数前所未有地高，约有11000篇。

为了提升审稿速度和质量，ICLR今年引入了AI参与审稿工作。

当然了，倒也不是单一AI，是多个AI大模型组成的Agent。

然而，你以为审稿人话不写完评审内容就点发送，就是ICLR 2025的全部槽点了吗？

ICLR吐槽大赏

要细数今年ICLR 2025的神奇事件，咱们先从最广为人知的一件说起：

[10,10,10,10]和3个poor得分并存

今年的ICLR出现了一篇4个审稿人同时打出了10分的论文。

假如这个分数能保持到中稿通知，这将是近5年来，ICLR的唯一一篇满分作文。

论文题目如下图，是一个叫IC-Light（全称Imposing Consistent Light）项目，是关于控制图像照明的。

作者张吕敏，也是大名鼎鼎的ControlNet的作者。

他在苏州大学拿到学士学位后，去往斯坦福读博。

IC-Light可以随意控制照片主体的光源和背景，将主体、光源、背景三者迅速地融合在一张图片里。

半年前，IC-Light就在GitHub上开源，现在共6.5k星。

与此同时，ICLR 2025还出现了几篇，某一审稿人给某篇论文全打1分的论文。

这里我们打断一下，了解一下ICLR的评分体系：

1分：太差了
3分：拒绝
5分：婉拒了哈
6分：接……吧
8分：接收
10分：强接收

就拿其中一篇来说吧，看到这个结果给作者气的，写了一篇十几页的strong rebuttal。

那审稿人为什么给人家Soundness、Presentation、Contributions都给了1分？

审稿人言辞非常犀利，直呼Paper Writing is quite bad，然后还毫不客气地提问：“Is there a human author on this paper？”

审稿人还表示，（这也是全部最低分的最重要一点），我们是可以判断一篇论文是人写的还是AI写的，“也许您在生成文本时没有进行基本的连贯性检查”。

作者继续输出长篇大论rebuttal，并回击“我可真钦佩你识别AI的能力”。

作者5页回应，审稿人在ddl突然否定领域

一位在北大CS读博的小某书网友@Kevin 对审稿人的神操作大吐苦水。

事情是这样的，ICLR不是共14天用来discussion phase嘛。

这14天里，有一位审稿人5，一共对他所在团队提交的paper提出了10个问题。

团队认真回复了整整五页，审稿人5已读不回。

团队多次希望与其讨论，审稿人5已读不回。

总之就是一整个石沉大海。

到了昨天，也就是discussion phase的最后一天，“审稿人5突然否定这个领域，并将5分改为3分”。

@Kevin非常不理解为什么审稿人这样做的意图。

真的就，令人心碎的discussion phase。

“你需要引用另一篇ICLR 2025投稿”

推友@PandaAshwinee（普林斯顿博士毕业，现在在Trails.ai从事博后工作）给看热闹的网友们画了个自己接收到的评审内容的亮点：

你需要引用另一篇ICLR 2025的投稿。

展开说说，就是审稿人链接了ICLR 2025 openreview的另外一篇论文，表示两个项目高度相关，所以小哥应该引用。

但是哭啊，小哥查过了，要求被引的论文根本不在arXiv上。

而且这不是他第一次感觉“天塌了”——他在评论区补充，之前他的项目在ICML 2024被拒，主要原因也是“与另一篇ICML 2024投稿高度相似”。

不过ICLR很快在小哥推文下面回复了，表达程序主席开始调查这个事儿。

“乞讨式”ICLR

前面提到的都是审稿人和作者有来有回（哪怕回得慢）的激情battle，更有意思的事是，无论国内还是国外，很多人都把这届称为“乞讨式”ICLR。

简而言之，就是审稿人一直不给评审不给分。

有人上个月下旬的时候，就开始给所有AC（区域主席）发了邮件，要求他们提醒审稿人回复作者。

或者至少确认审稿人们知道自己还得干这活。

当时就有网友提醒“最坏的打算”，有的审稿人会拖到最后一刻，因为他们也在为自己措辞……

果不其然，单看国内，昨天开始24h内倒计时了，很多作者还在恳求审稿人快快评审，快快给分。

哎。

对作者的奇怪请求

在Google DeepMind工作的Ahmad Beirami（@abeirami）分享了一则讯息：

发到推特上后，有ICLR作者表示出了疑惑：

如果作者们写了这玩意儿，是否真的对审稿有帮助？

他觉得这“可能是在浪费时间”，因为审稿人完全可能看都不看，直接去看paper原文。一切都是徒劳的。

不过Ahmad很快回复了这位作者：

Yes！
作为一名AC，我想确保我没有从作者的角度遗漏任何内容。可能会有很多变化、新结果等。我想确保我知道在哪里找到它们，以便能够形成观点，判断一些原始评论/关注是否适用。

得到这个答复后，作者小哥很愉快地去添加注释去了。

ICLR 2025为何这样

以上种种，只是大家或身在其中/或围观看热闹的ICLR 2025的一点点故事而已。

但，身为权威顶会，为什么会这样？

有的人认为和今年的稿件数量有关。

官方数据显示，ICLR 2025的论文提交数量达到了11,000多篇，同比增长61%。

而去年ICLR 2024组委会收到的投稿总数为7,262篇——当然了，对那时候的ICLR来说也是不小的工作量，同比增长了47%。

今年，面对如此庞大的论文数量，审稿人数量高达15,000多名。

这还不够，官方还引入了多个AI大模型构成的Agent来参与审稿。但它的功用不是完全替代审稿人，它不会撰写审稿评论或直接编辑评论，而是提供建设性和可操作性的反馈，帮助审稿人提高审稿质量。

这个Agent针对审稿中可能存在的三类问题提供建议：

鼓励审稿人改写含糊的评论，使其对作者更具可操作性；
突出文章中可能已经回答了审稿人问题的部分；
发现并处理不专业、不恰当的言论。

但很多作者认为，稿件数量激增确实加大了工作量，Agent的辅助无可厚非，但绝不是ICLR变成被看热闹的“科研春晚”的原因。

一方面，Agent提出的建议，审稿人是可以选择接受或者忽略不管的。

另一方面，极速扩张的审稿人中，是否有人并不是适合评审工作？

再一方面，为了确保审稿质量，每位审稿人平均分配3篇论文，顶天了看4篇，工作量并不是超负荷状态。

除了有点混乱以外，另一个被网友们激烈讨论的点，集中在这届ICLR的分数上。

一般来说，ICLR的传统接收率在30%左右，然后今年ICLR的排名前30%的论文，平均评分约为5.6。

前面我们介绍了，6分算是一个勉勉强强的分数，属于论文被接收的边缘门槛。

这就意味着“低于‘边缘接受’门槛的论文将被接收”。

网友谈道，“当会议接受变得如此随意时，我们正在破坏整个科学评估系统——这影响到AI研究整体的完整性。”

在此基础上，他提出了三点自己的思考，希望ICLR应有更严格和公平的程序。

当然，也有另一种声音：

期待一些超级强大到无懈可击的大模型出现，让它们充当审稿人，解决上述所有问题，以此帮助减轻审稿的负担。

只是不知道这一天什么时候会到来了。

参考链接：
[1]https://x.com/mo_danesh/status/1863964693687107823
[2]https://x.com/JiachenLi11/status/1856472250636964350
[3]https://x.com/Yuchenj_UW/status/1862541099136651536
[4]https://x.com/abeirami/status/1863629237741064608
[5]https://x.com/PandaAshwinee/status/1856384624873570749
[6]https://x.com/ysu_nlp/status/1860504185583648863
[7]https://openreview.net/group?id=ICLR.cc/2025/Workshop_Proposals#tab-accept

— 完 —

arXiv每日学术速递

工作日更新学术速递！官网www.arxivdaily.com。

最新文章

CVPR今年这情况，很严重，大家做好准备吧

arXiv每日学术速递2024.12.20

小红书MySQL数据一致性校验能力探索与实践

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

arXiv每日学术速递2024.12.19

论文一起读 | Aerial Lifting: 基于航拍图像的城市语义与建筑实例提取

北航&清华联合发力！Stag-1：视频生成模型实现超逼真的4D驾驶场景算法！

245个目标检测开源项目合集，建议收藏！

arXiv每日学术速递2024.12.18

图像标注神器 X-AnyLabeling v2.5.0 重磅发布 | 通用视觉任务全新升级，交互式视觉-文本提示功能全面上线！

头发和脂肪只能二选一？西湖大学最新Cell：长期轻断食，小心发量！

arXiv每日学术速递2024.12.17

SIGGRAPH Asia 2024 | 建筑群细节层次联合生成

预测2025顶会多模态大模型热门research！

arXiv每日学术速递2024.12.16

Gaussian的含金量还在提升！清华&鉴智强强联合GaussianFormer-2：拿下OCC新SOTA~

AWQ：适合端侧的 4-bit 大语言模型权重量化｜大模型轻量化系列解读 (二)

哗然！MIT教授NeurIPS演讲公开歧视中国学生，大会官方认错、本人道歉

跨模态微调：先对齐后细化

Rho-1：基于选择token建模的预训练方法

你不要错过的EI会议大盘点，赶紧来看看！

arXiv每日学术速递2024.12.13

一周发明GAN！时间检验奖得主分享背后故事：每件发明都不是最后的发明

专题解读 | EDA中逻辑综合的算子序列优化问题

1年内11名博士生自杀，顶尖高校陷博士生自杀危机，疑因要求学生每学期发1篇SCI

arXiv每日学术速递2024.12.12

NeurIPS 2024 | CRAYM: 基于相机射线匹配的神经场优化

没创新点！照样中顶会！

arXiv每日学术速递2024.12.11

久等了！希望这篇万字长文能帮助入门的朋友彻底搞懂车道线检测（中科院最新综述）

专题解读 | 大语言模型辅助代码文档生成

Idea也能自动生成？| 浙大阿里联合提出科研Ideas自动生成工具SciPIP

arXiv每日学术速递2024.12.10

TPAMI 2024 | 北大提出实用、紧致的智能图像压缩感知技术，代码已开源！

NeurIPS 24｜让模型预见分布漂移：动态系统颠覆性设计引领时域泛化新革命

Pattern Recognition | 同时关注局部和全局信息，利用注意力抓取不同粒度的视觉信息来描述图片

快速学会登上nature的热门算法，LSTM！

arXiv每日学术速递2024.12.9

登Science子刊！上海交大联合上海AI Lab等发布蛋白质突变体设计模型，优于最先进方法

《我的世界》搞数学研究，估算欧拉数误差仅0.00766%！数学博士的跨界花活儿火了

论文一起读 | 面向点云流时空建模的4维Transformer点云网络

CogVLM：预训练语言模型的视觉专家

刚刚，2025 IEEE Fellow名单出炉：戴琼海、姜大昕、尹首一、翟广涛、褚晓文等人入选

VeCLIP：通过视觉增强的字幕改进CLIP训练

扩散模型部署有新解，直接量化为4bit？韩松团队等提出SVDQuant：16GB笔记本上加速8.7 倍

独自一人，怒发顶会！

arXiv每日学术速递2024.12.6

MetaTransformer：一种用于多模态学习的统一框架

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉