笔者:Yu Li
编辑:Yimin
在中国,对于超过99%的学生来说,做本科毕业设计的目标就是查重率别超,学院别卡人,顺利毕业就好。毕业设计能够达到值得被同行评审的期刊或者会议发表的水平,这种事可能想都不会想。即便我现在已经是香港中文大学的助理教授,以做科研和发表论文为生,坦诚来说,连我大四的时候也是这样的,不求做多好,但求别出乱子,毕业最重要。而今天要分享的故事就是一个极为罕见的例子——我在2021年到2022年带的本科生的毕业设计被Nature外部送审并最终于2024年8月发表在了Nature Biotechnology上。(论文技术细节深度解析: 语言模型革新同源蛋白检测,Nature Biotechnology一作聊聊论文里没有的细节!)
即使是以科研为生的教授,其论文被Nature或者Nature Biotechnology外部送审都是非常难的事情,毕竟90%的论文都会在此之前被拒稿(详细解释参见附录一)。Nature Biotechnology的最终综合接收率甚至可能不到1%,可见其含金量。下文中提到的另外三本期刊,Nature Communications (2010年创刊), Nature Machine Intelligence(2019年创刊),和Nature Computational Science(2021年创刊),也都是非常好的期刊,但是和Nature Biotechnology(1983年创刊)这种老牌顶级期刊相比,在影响力上还是有不小差距的。在下文中将会出现的和我们这个论文相爱相杀的RECOMB是领域内的顶尖会议,其综合论文收稿率为23%。长远来看,尤其是对于评职称等大家最关心的事情,在RECOMB发文的影响力远低于Nature Biotechnology。
为什么这个本科生能够做到很多老师(包括我在内)都做不到的事情?
我现在的博士生——Hong Liang,就是该故事的主人公。他本科就读于南京大学匡亚明学院,大三下学期结束的时候联系我做暑期研究。后来他的本科毕业设计也就直接在我们组做了。本科毕业后,他留在了我们组读博,目前博士第二年。
我对他的第一印象一般,毕竟他的本科成绩不算好,科研上也几乎是零基础。但是在之后做项目的过程中,我发现他的编程动手能力非常强,对于最前沿的技术也非常感兴趣,愿意主动花时间去学习和研究。这些优点和能力在传统的教育中往往会被成绩所掩盖。在发现这一点后,我便将我非常看好的项目交给他去做。他也没有辜负我的期望,在加入了我们组进行实习半年之后,就做出了非常好的结果。在他大四上学期的时候,我给他发了博士offer。而且,他的本科毕业设计在他毕业半年之后,也就是他博士一年级的时候,被Nature正刊外部送审(项目详情简介见附录二)。经过正常的长时间的审稿和修改之后,在他博士二年级的时候,他的本科毕业设计被Nature Biotechnology正式发表。(以他的视角来看整个事件可以参考附录三)
整个事情听起来简直就像逆袭网络爽文,但其实背后的真相是我们所有人都被这个项目和论文折磨得够呛。我在这个论文开始的一年后就感到了深深的痛苦和绝望。该论文投稿之路极其曲折,大落大起,两次被RECOMB拒稿,一次被Nature Machine Intelligence拒稿,一次被Nature Computational Science拒稿,一次被Nature拒稿。在我们重整项目投Nature被送审后,又被Nature Machine Intelligence以及Nature Computational Science邀请投稿。我也一度独裁,力排众议放弃了Nature Machine Intelligence以及Nature Computational Science邀稿以及快速中稿的机会,改投了影响力大得多的Nature Biotechnology。在Nature Biotechnology审稿的过程中,我们又被其中一个专家审稿人带有偏见的评价折磨得够呛,在极度的痛苦和不安全感中终于熬到了论文被接受。在整个过程中,我们还经历了不懂行的RECOMB审稿人刻意拒稿,想法被抢先发表等等一系列的糟心事。我的感受应该也是Hong Liang以及论文另一个非常重要的作者胡志航(共同一作,博士第三年)的感受。(完整的全流程经历可参见附录四)
面对以上逆境,我们是怎么坚持下来的?对于大家又有什么样的参考和借鉴意义?
首先,Hong Liang不是一个人在战斗。Hong Liang是第一作者,但整个文章的作者总共有12人。大家各司其职,共同将这个文章发表了出去。第二,团队作战,面对逆境甚至绝境时,需要有一个意志坚定、内心强大的引路人。这样整个团队才不会轻言放弃。第三,要有自知之明,不可妄自菲薄亦不可盲目自信。我从一开始就觉得Hong Liang的这个工作是非常好的工作,一定可以发在Nature子刊上,所以我也是顶住压力只考虑了Nature子刊(RECOMB会议投稿不影响期刊投稿)。但是,这是建立在我对这个项目以及团队的信心之上。如果确实没有达到这个水平,我也不会浪费自己的时间和精力去折磨我自己、Hong Liang以及志航。第四,要有一个靠谱、有执行力且互补的团队。比如Hong Liang和志航都有各自的缺点,他们自己也知道,我也就不点明了。但是他们动手能力以及执行力是顶尖的。所以,我们能够解决审稿人的意见。至于他们的缺点,我和团队的其他人可以弥补。最后,要相互信赖。我非常理解Hong Liang、志航以及其他作者在收到Nature Machine Intelligence以及Nature Computational Science邀请投稿时的想法。他们一定是想直接转了,速战速决。但是他们相信我(也不得不相信),最后得到了远超他们预期的结果。在他们之后毕业找工作的过程中,也一定会更加感激他们之前对我的信任。
在我开启这个项目初始,以上是我不曾预料到的剧本(预设剧本可参考附录四)。客观上来说,尽管这件事情对大家有参考价值,但非常难被复制。首先,Nature及Nature Biotechnology极其挑剔。每年收的纯计算文章两只手就可以数得过来。包含生物湿实验的论文周期都会更加长,5年发一篇都很正常。即使是全球顶尖的博士生投入5年的时间,他们也不敢打包票说一定可以搞定。其次,在全球范围内,本科毕业设计能发表的都寥寥,更别说发在Nature Biotechnology这种从任何角度都没法指摘的顶级期刊上。第三,因为Nature Biotechnology这类顶级期刊论文对找工作、评职称、申基金、拉赞助等都有肉眼可见的作用。几乎在所有的研究组里,该类工作被分配给本科生的概率无限趋近于零。或者前期做的东西在后期也会因为种种斗争被收回,保留第一作者的概率也无限趋近于零。而在我们组,给我一个优秀的本科生,即使没有科研基础,只要我认为他们值得我花时间,在2024年的研究环境下,带着他们做出一篇Nature Computational Science/Nature Communications对我来说不能算是概率很低的事情,毕竟已经不止一次做到。但是Nature/Nature Biotechnology那还真得看运气,尤其是我们这些项目都不是资源密集型的,比如烧钱产生大量生物或医疗数据或者像谷歌微软一样拼命烧GPU。
用一句话总结这段经历,本科毕业设计Nature送审Nature Biotechnology发表看上去很美好,但实际上团队遇到的各种问题和痛苦折磨,其实大部分人都承受不了。科研问题本身就已经足够难了,更何况还掺杂着被抢先发表的压力、并不能算得上完全公正或者说懂行的审稿人、我这边甚至到死都不能说的各种资源以及利益的平衡,以及说不清道不明的运气和命运……很多期刊论文投稿之前,我心里大概都是有数的,但是Nature/Nature Biotechnology这类顶级期刊那真的就是上天的眷顾。而上天的眷顾不是无缘无故的,在这段被上天眷顾的故事里,有前瞻性的想法、勤奋努力有能力的学生、靠谱负责能顶得住压力的导师、团队配合、相互信任、谨慎自省,甚至还得有某些重要决策时刻的一点点独裁,缺一不可。
附录一:介绍Nature以及Nature Biotechnology及其发文流程和要求
考虑到有些读者也许对学术圈不是很了解,这里先简单介绍一下Nature以及Nature Biotechnology这两本期刊以及想要被他们接收发表的流程。对于Nature,很多非学术圈的人应该也都在各个新闻报道中听到过这本期刊。考虑到这本期刊的发文难度、含金量以及认可度,即便是在美国,2024年的行情也还是一篇Nature就可以在几乎所有学校从助理教授升到终身教授。至于在国内,用一个非常不恰当但是生动的段子来介绍下吧。“假如一个学生发了一篇Nature,那么这个学生第二天可能骑着导师或者老板上下班都可以,为什么说可能,因为也可能会骑着院长”。在现实生活里,骑着导师或者说老板上下班应该很难发生,但因为发表了一篇Nature论文而被嘉奖升职是必然发生的事情。而Nature Biotechnology是Nature的姐妹期刊,专注于生物技术方面的突破。其发文难度、含金量以及认可度也同样是顶级。每年全球范围内接收论文数量固定在100篇左右。该期刊在2024年的影响因子(某种衡量期刊影响力和论文含金量的指标)为33.1,而5年影响因子(56.9)甚至比Nature高(54.4)。学术圈内影响力如此大且回报如此丰厚的期刊,自然是科研工作者人人都想发。但这些期刊受限于版面,每年能够发表的论文数量是大体固定的。那么如果投稿的数量超过了期刊能够发表的数量,会发生什么事情?自然是择优录取。根据我能看到的数据,也许并不准确,Nature Biotechnology的录取率在去年已经低于1%了。那么如何择优录取?无疑就是层层筛选。论文投稿后,期刊的编辑们会在一周的某一天坐在一起开会,讨论这一周收到的所有论文,然后按照论文的质量、创新性以及可能的影响力,直接拒绝90%的论文。未被拒绝的论文并不意味着就可以被发表了。这些论文还会被外送到知名的专家教授手上,征求他们的意见。编辑们得到外部专家教授的建议后,会再次开会讨论,拒绝掉一批论文,并给剩下的论文修改的机会。改完之后接着外部送审征求专家教授的意见。如此循环往复,直到所有人都觉得这个论文没问题了,那这些论文才有可能在Nature或者Nature Biotechnology上发表。
附录二:该项目及论文是关于什么?为什么能够被Nature送审最终被Nature Biotechnology发表?
在该项目中,我们开发了一种超高速且超灵敏的蛋白质同源序列检测方法DHR。该方法基于蛋白质语言模型,做到了无需序列对齐,并且可以检测到其他方法遗漏的新的低相似度同源蛋白。相比于PSI-BLAST,DHR快了22倍以上,而相比于HMMER,DHR更是提速了28700倍。在速度提升的同时,DHR没有丧失精度,灵敏度相对于以上方法也提升了10%以上。
蛋白质同源序列检测是计算生物学中几乎所有序列分析的基础。最经典的工作BLAST系列被引用超过10万次。我们用一个全新的思路去进行同源序列检测,做到了无需费时的动态规划序列对齐。并且,我们证明了DHR检测到的新同源序列对我们理解蛋白质进化、结构以及功能有深刻帮助。该工作也为如何使用生物大型语言模型提供了新的思路。除了进行蛋白质结构预测,它也可以帮助我们解决其他计算生物学中的核心问题。
附录三:以第一作者Hong Liang的事件线来看该项目
2021年4月,Hong Liang联系我询问暑期科研机会。当时他大三,就读于南京大学匡亚明学院但是成绩不算很好。我一开始也没听说过匡亚明学院,后来查了下,是仿照中科大的少年班办的。所以我就面了他一下,并结合他的兴趣给了他一个蛋白质聚类的项目。该项目最终没有做完,但是我在他做项目的过程中了解到了他的学习能力和编程能力。这也为我把DHR交给他去做埋下了伏笔。
2021年9月,基于Hong Liang之前的表现,我将DHR分配给了对蛋白质语言模型以及序列处理都比较熟悉的他。他也希望将该项目作为他的毕业设计。我同意了。原本我对该项目的定位是一篇会议论文,但是后来事情的发展大起大落。后文在我的事件线中会详细讨论。
2021年11月,Hong Liang申请了我们组的PhD。尽管他的成绩不算好,写论文的能力也相对弱,考虑到他的表现以及执行能力,我还是给发了offer。原本他申请的是两年的MPhil。我让他好好考虑4年的PhD。最后他在2022年8月以PhD的身份正式加入了我们组。
2022年6月,Hong Liang通过了本科毕业答辩。我对他的表现比较满意。尽管项目投稿并不顺利,我还是鼓励他去申请毕业论文奖项。
2023年4月,DHR全文投稿到Nature,被选中外部送审。当时Hong Liang博士第一年。当然从投稿不顺利到Nature外部送审这1年时间里发生了很多事情,从我的事件线会详细展开。
2023年5月,Nature拒稿,但是Nature Machine Intelligence以及Nature Computational Science都给了修改机会,邀请投稿。
2023年9月,投稿到Nature Biotechnology,被选中外部送审。当时Hong Liang博士开始第二年。
2023年10月,Nature Biotechnology邀请根据审稿人的意见修改论文。
2024年4月,论文修改完毕,投回到Nature Biotechnology。
2024年6月,论文被Nature Biotechnology原则上接收。Hong Liang博士第二年。
附录四:从通讯作者的事件线来看该项目
从通讯作者,也就是我的角度来看,是很独特的体验。除了带学生、对项目本身的大方向进行决策、以及帮忙写文章外,我还需要考虑团队的凝聚力、被抢先发表、各种资源以及利益的平衡。在大部分情况下,无论面对什么样的压力和艰难处境,我都要保持理性和克制。我的这部分,很多东西可以说,也在下文详细展开说了,但还是有些事情因为各种原因没办法掰碎了说明白。即使朋友私下里来问我,也没法说,只能让吃瓜群众失望了。
2021年8月,我去了趟位于香港九龙湾的香港医管局数据实验室,在回学校的路上思考新的项目,并和另外两个作者王总以及孙老师讨论了相关的想法。最终我们定下的初步想法是用蛋白质语言模型去提速MSA的构建,进而提速AlphaFold2的整体运行速度。但是这个想法在项目投稿以及写作的过程中被推翻了。大概一年之后,该项目从初版DHR(fastMSA)变成了终版DHR。当然这是后话了。
2021年9月,基于Hong Liang之前的表现,我将该项目分配给了对蛋白质语言模型以及序列处理都比较熟悉的他。原本我对该项目的定位是一篇会议文章,同时看结果去尝试期刊,包括Nature Computational Science, NAR, 或者Bioinformatics。Hong Liang之后一个月得到的初步结果非常好,让我希望之后的投稿中不用去尝试NAR以及Bioinformatics。在2021年10月份的时候,我心目中该项目最理想的投稿接收情况是RECOMB接收,同时期刊版本被Nature Computational Science接收。但是后来事情的发展也是大落大起,充满戏剧性。
2021年12月,DHR的最初版本投稿到了RECOMB-22,但被拒稿(Borderline, Weak Accept, Weak Reject)。对于这次拒稿,总的来说,我们是服气的,因为项目周期确实短,很多地方确实不完善。但是,我们觉得该想法是可行的,而且以后一定是个趋势,所以我们将该稿件预印本发布在了网上。
2022年2月,TAPE(彦硕和艺璇的项目)被Nature Communications送审。TAPE和DHR在RECOMB-22的得分类似。所以,我当时没有放弃最初的想法,想要尝试下Nature Computational Science或者Nature Communications。
2022年6月,在这半年的过程中我将智航加入到了项目中,希望可以提速该项目的进行。但是,我们初步投稿到Nature Computational Science和Nature Machine Intelligence都被拒稿。我也暂时搁置了尝试Nature Communications的想法。
2022年8月,我们回顾了整个项目,发现我们的方法核心不是构建MSA,而是进行同源序列检测。MSA的构建其实只是我们这个更加底层工作的一个应用。基于此,我们在之后的项目实行、写作以及投稿的过程中更加注重了同源序列检测这件事情。DHR最终版本的雏形逐渐显现。在这段时间,我在ICML上也和相如讨论了这个项目,并从Mark那边得到了一些建议。
2022年10月,整个项目的修改和进展其实不算顺利。我们原本准备直接投期刊,但是RECOMB-23的投稿周期也如期而至。于是我们就打算把最新版投稿到RECOMB-23上。
2022年11月,DHR被RECOMB-23拒稿(Accept, Weak Accept, Weak Reject)。对于这次拒稿,我们所有人都非常不满,因为我们收到了一条评论。该评论说考虑到蛋白质语言模型的发展,MSA的构建可能已经不再重要了。这里我们不对它进行任何评价,我当时的想法是不希望再在这些会议上浪费自己的时间了。同时,我们也注意到了和我们类似的一篇文章被RECOMB-23接收,并且其期刊版发表在了Genome Research上。那段时间,整个团队的压力确实非常大。但是,不管怎么样,我们还是要往下走。即使已经被scooped了,我也始终相信我能够把这个文章给发出去,而且我还要发在影响力更大的期刊上。
2023年1月,我让团队把最新的蛋白质结果加到文章中。同时,我联系了Nature的编辑,询问他们对我们的工作是否感兴趣。在得到了肯定的答复后,我鼓励团队尽快准备高质量的图片和稿子准备投稿Nature。
2023年4月,稿子被Nature选中外部送审。我们大概松了一口气。这是在投稿一年半以来收到的唯一的好消息,而且也是无法更好的好消息。就团队管理来说,这对我来说也是非常大的好消息。如果再一直都是拒稿或者负面消息,团队的士气会很受影响,无论怎么想办法项目的进展都会变慢。我大概猜到了,而且志航后来也和我说,RECOMB-23之后他们都希望尽快投一个影响力小一点的期刊,尽快了结这个项目。Nature外部送审算是给他们吃了一颗定心丸。
2023年5月,我们收到了一个喜忧参半的消息。Nature拒稿了,但是Nature Machine Intelligence以及Nature Computational Science都给了修改机会,邀请投稿。我当时也没有明确和学生表露我的态度,只是让他们先按照Nature审稿人的意见修改稿件。在当时的状态下,内心深处我还是希望走更艰难但是影响力更大的路,即使我知道还有另外类似的项目在某个Nature子刊审稿。
2023年9月,稿子修改完毕,我选择投稿到了Nature Biotechnology。这里是有些独裁了。如果让学生选的话,他们肯定会选择投回邀请投稿的Nature Machine Intelligence或者Nature Computational Science,快速中稿。我和他们解释了Nature系列不同期刊的定位,而且如果真的中了Nature Biotechnology,他们会更加理解这里边的不同。我猜他们现在应该可以理解了。等他们之后毕业了去找工作,只会更理解。
2023年10月,Nature Biotechnology审稿意见返回,编辑给了修改的机会。其中两个审稿人的评价比较正面,另一个审稿人的评价严厉且有些偏颇。Hong Liang还有其他的作者多少有点被这个负面评价的审稿人的意见给吓到了。但是,不管怎么样,我们还是想办法把所有的意见都解决了,虽然花了比较长的时间。我原本是打算3个月内搞定的,但是在我和Hong Liang还有志航反复讨论的过程中,我们又增加了更多的实验,想尽一切办法确保整个项目万无一失。当然了,我在这个过程中,也是想尽一切办法挑刺,把Hong Liang和志航折磨得够呛。他们也可以理解这是对他们好。总好过投稿之后被审稿人挑刺,拒稿。那样就没完没了了。最后,我们用了6个月才弄完这轮修改。这在计算领域算是比较长时间的修改了。
2024年4月,修改完毕,投回了Nature Biotechnology。因为我们修改了很长时间,编辑部那边在2024年3月的时候还催了我们一下。好在没有影响到论文最后的接收。这轮审稿之后,只有一个审稿人还有两个修改建议。我这个时候的信心已经比较足了,但是还是不敢大意,依然是想尽一切办法确保万无一失把这些建议搞定。
2024年6月,修改完毕后,论文在2024年6月18号原则性接收。形式修改后,论文在2024年7月12号正式接收。也许是这个论文的整个投稿过程过于曲折,或者是被其他更加曲折的论文折磨得麻木了,更或者是被论文外的场外因素(包括被抢先发表、基金申请、各种资源以及利益的平衡等)影响,在论文被接收后我完全兴奋不起来,只希望大家在投稿的过程中都低调点,别再给我整出啥幺蛾子了。只想等到论文正式上线了再庆祝。
2024年8月,论文正式上线。
如果您对我们的内容有任何疑问需要咨询或想要联系作者,可以备注“AIMS”联系课代表。也欢迎大家投稿!课代表微信:AimNina。转载请联系本公众号获得授权。