热心网友在ICLR openreview主持正义, 质疑8分论文开领域倒车!

学术 2024-12-01 12:33

本文转载自知乎用户“sonta”的专栏文章，侵删

https://zhuanlan.zhihu.com/p/9300089039

TL;DR: 实在受不了傻13工作还有眼瞎reviewer给8分，并且作者在rebuttal阶段全程嘴硬，遂直接在Openreview

贴脸开大，正义制裁：https://openreview.net/forum?id=GrmFFxGnOR&noteId=2QR0ZJjvCm

Were RNNs all we needed? 受到了毫无相关技术背景的小编们的无脑吹捧和热议

机器之心：图灵奖得主Yoshua Bengio新作：Were RNNs All We Needed?

量子位：Bengio精简了传统RNN，性能可与Transformer媲美

新智元：RNN回归！Bengio新作大道至简与Transformer一较高下

这篇文章核心思路就是把hidden to hidden state之间的nonlinear dependency全部扔掉，然后RNN就变成了一个Linear RNN，可以用associative scan的思路来并行训练

然而这个idea早就在linear RNN领域里玩烂了。其中ICLR '18最经典也最被低估的一篇工作 Parallelizing Linear Recurrent Neural Nets Over Sequence Length 里提到的Gated Impluse Linear Recurrent (GILR) layer几乎完全等价于minGRU.

我在之前也早有blog来理清这一系列的工作的发展

sonta：RNN最简单有效的形式是什么？

https://zhuanlan.zhihu.com/p/616357772

并且我NeurIPS '23 Spotlight的一个工作，HGRN，正是基于这个思路来进行的

Hierarchically Gated Recurrent Neural Network for Sequence Modeling

arxiv.org/abs/2311.04823

其中有一个审稿人锐评道：

https://openreview.net/forum?id=GrmFFxGnOR&noteId=ZLKbCUEU7B 同时也是所有审稿人里唯一很懂领域的人

作者的狡辩是：

Martin & Cundy (2018) focus on parallelizing linear RNNs and propose the GILR (Generalized Linear RNN) architecture. GILR is used as a linear surrogate for the hidden state dependencies of traditional LSTMs, allowing for parallelization. The resulting architecture GILR-LSTM retains much of the complexity of LSTMs but with parallelizability, resulting in a larger memory footprint due to the use of surrogate states.

这是十足的偷换概念：我们可以在上面的recurrent形式可以看到，GILR完全等价于minGRU。作者在用另外一个extension GILR-LSTM来混淆视听，狡辩道

Martin & Cundy (2018) focus on parallelizing linear RNNs and propose the GILR (Generalized Linear RNN) architecture. GILR is used as a linear surrogate for the hidden state dependencies of traditional LSTMs, allowing for parallelization. The resulting architecture GILR-LSTM retains much of the complexity of LSTMs but with parallelizability, resulting in a larger memory footprint due to the use of surrogate states. In contrast, our work takes a different approach by simplifying traditional RNN architectures

rather than augmenting them

这种被审稿人按着捶还不认错，反过来混淆视听的做法真是一点b脸都不要了。此外，这篇文章的完成度低的令人发指，几乎没有稍微大一点的实验。对此，某图灵奖得主挂名的团队给的解释是：

我们穷的只能用P100辣。然而据我mila朋友的反应，mila内部有不少计算集群资源，并且这个一作的权限还不低。

而我们发表在一年前的HGRN就已经做了Billion level的language modeling的实验了。看不下去的我直接openreview发了个public comment:

提到了我们HGRN和之后一系列的work，并且重新提了minGRU和GILR的关系。作者依然用上面糊弄审稿人的做法来糊弄我，

并且解释道这篇的motivation是为了simplify existing architecture

变得新手友好，老少皆宜。

我哭笑不得，首先勒令他们解释跟GILR的区别，

并且痛批他们开倒车，把整个领域这一年的发展直接清零，梦回一年半前

同时作者团队还在解释，不是他们博人眼球特意宣传，是大家自发进行的：

（内心OS：对对对，你们有这么大一个图灵奖得主挂名，标题起的这么大，可不得是一堆自干五来做宣传吗）

我的使命到此结束，等待AC和其他审稿人的正义制裁

结言

肉眼可见，ICLR ‘25 是一届特别糟糕的会议。主办方大聪明觉得把审稿人的池子放水，引入了一堆本来没有资格审稿的人加入审稿大军，那么每个审稿人的workload不就小了吗？这一大放水的结果可想而知，这么离谱的一篇工作，还有两个reviewer给出了8分和6分的高分，并且8分reviewer直呼novel，气的我反手一个public comment:

审稿workload变低了，但审稿质量离谱了，大家又得花更多的时间去处理不称职审稿人的意见，导致本届会议的discussion氛围感人，主办方直接延期rebuttal一周，让大家感受三周rebuttal的快乐，真是不戳呢（

同时，我发现审稿人对linear RNN的进展的了解真是少的令人发指，我一个一年前的starting point工作，被人重新包装了一遍还能受到一些好评。感觉提高自己工作的曝光度是一件非常重要的事情，教育community也是（不多说了，赶紧去写blog来系统的介绍自己这两年的工作了）

【轻松参会】为所有CCF收录会议与期刊设立投稿交流群，后台回复会议名/期刊名即可进群。公众号文章会发布近期截稿会议、转投会议推荐、录用率趋势、录用分数分析等重要信息，同时会发布最新的CS/AI招聘招生信息。

轻松参会

CS最全顶会投稿\x26amp;招生招聘信息平台! 后台回会议缩写(如CVPR)进对应会议投稿群

最新文章

ICLR 2025 Workshop 征稿：推动基础模型的开源、开放、可复现

华为云盘古大模型团队招纯科研实习-CV/NLP/多模态/大模型等

ICASSP'25放榜, 速进录用交流群! 今年是否能不去印度现场参会?

为什么说在中国做科研最忌讳"老实"？

一起向MIT施压! 对于处理NeurIPS上发表种族歧视言论者的请愿!

硕士研三，期刊论文被拒稿，可能延毕，怎么办？

ICML'25 ddl倒计时一个月, 速进投稿交流群!

现在硕士毕业都要两篇CCF-A了？是变相延毕吗？

哗然! MIT教授NeurIPS演讲公开歧视中国学生, 官方认错, 本人道歉

NeurIPS'24最佳论文开奖! 北大字节NUS夺冠, Ilya连续三年获奖

ICLR 10分论文如何做到？原来掌握这些就能发顶会！

亚利桑那州立大学(ASU)计算与增强智能学院招全奖博士

终于发表了一篇SCI 一区！

ACL 2025 审稿人招募

AI顶会ICML收了一篇论文：没算法没实验，全靠idea思路好

热心网友在ICLR openreview主持正义, 质疑8分论文开领域倒车!

阿里淘天AIGC算法团队招聘学术型实习

阿卜杜拉国王科技大学招博后-7.5万美元免税年薪-MLSys/LLM

被导师放养，后果可能很严重。。。

港中文语言处理实验室招聘全职工作-语言模型相关

这条捷径走对了，顶会顶刊随便发！

南京大学田臣招操作系统/体系结构/LLM/计算机网络实习/访问学生

腾讯IEG招视觉相关实习2则-虚拟换装/新视图合成等方向

ICLR'25 desk reject大盘点! 顶着ICML的模版投稿是不是太嚣张了?

读博士，去哪找那么多创新点？水水得了...

多个中国团队斩获EMNLP'24最佳论文! 华人学者中三篇杰出论文

ICLR'25出分！rebuttal用对策略真的有用

慕尼黑工业大学(QS28)招收CSC博士-可解释性AI/人机交互等

我，再发TPAMI顶刊！

论文被NeurIPS的AC和审稿人联手拒掉并抄袭!

阿里通义实验室招研究型实习, Qwen的RAG方向相关, 细分领域头部团队

进ICLR'25参会群

导师放养无paper，面临延毕，半年自救成功，硕/博研究生可借鉴

腾讯IEG-游戏前沿技术-视频生成AIGC算法相关方向实习生招聘

高录用EI检索会议-25年国际人工智能创新研讨会(IS-AII 25)

今年顶会这情况。。。大家提前做准备吧！

【CSC奖学金】伦敦玛丽女王大学机器学习博士招生

中国中文信息学会24学术年会暨第三届全国大模型智能生成大会(CIPS-LMG2024)

全球申博/申硕选校、地区优势、申请要求、时间线安排全了！

[实习招聘]通义实验室-LLM角色扮演/分身复刻方向-可选城市

啥工作量？！60天就发了一篇大模型顶会

2025申博，变天了！必须要考虑这4点

CVPR'25投稿倒计时17天, 速进投稿交流群!

创新点公开！基于transformer的跨模态3D目标检测，易上手！

港科大(广州)招博士生/研究助理-大模型/AI4SCI/几何ML等

粤港澳大湾区数字经济研究院招大模型科研+工程实习生

IEEE会议/EI核心检索-CAIT'24第五届计算机与人工智能技术国际会议征稿

顶会创新点即插即用，不卷！

中科院深圳先进技术研究院周寿军招博后/研究助理-CV/机器人等

发论文别太老实，用对方法篇篇都是顶会顶刊

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉