从小白到Nature子刊发表,AI forBiology/Science学习路径

文摘   2024-08-26 12:01   日本  

文 | YU LI

信大家对于近年来十分火热的AI for Biology/Science方向都有着一定的兴趣。然而作为一个刚入门的本科生,在面对这些方向涉及的各种AI和生物相关知识时,常常会感到一头雾水,不知道从哪开始学起。
另外,对于有CS或者Science相关背景的同学,如何补齐另一部分的知识,也是容易让许多人陷入迷茫的问题。
下面将结合笔者自身指导数十位本科生的经验,总结一下我们这个方向(AI & Biology/Science)从零基础到Nature子刊发表的学习之路。
当然,需要讲的内容有很多,本文先作为一个引子,列出其中的关键点,之后的细节将在后续的文章中分享。
笔者首先介绍一下本组本科生项目发表在Nature子刊上的例子。
1. Liang Hong: 大三结束进入本组开始做科研,之前没有发表过任何论文。在本组的本科毕业设 计最终发表在Nature Biotechnology之上(第一作者)。因为期间论文被Nature正刊送审,且 投稿期刊定位要求极高,论文在博士第二年发表出来。 
2. Yanshuo Chen: 大三结束进入本组开始做科研,之前没有发表过任何论文。本科毕业毕业10月份 的时候项目发表在Nature Communications之上(第一作者)。 
3. Yixuan Wang: 大三结束进入本组开始做科研,之前发表过一篇二作数学类论文。本科毕业进入 本组读博10月份的时候项目发表在Nature Communications之上(共同一作)。 
4. Junbo Shen: 大二结束进入本组开始做科研,之前没有发表过任何论文。大四刚开始,论文发表在 Nature Computational Science之上(第一作者)。
在进入细节之前,有两点笔者需要特别说明。
1. 结合笔者自身经历,以及观察到很多不同组不同背景学生的成长之路,笔者觉得导师的重要性是 无与伦比的。【如何找到一个靠谱的课题组?可参考之前的推文→申请季前谈:如何选择适合自己的课题组(点击即可阅览)
很多背景很优秀也很努力的 学生最后发展得却不理想,其实和导师的指导缺失有莫大关系。如果读者想要在科研之路上长久地走下去,需要尽早找到一个靠谱负责的导师。缺少导师的帮助,即使按照以下的学习之路走下去,也不一定能发表出来论文。据笔者观察,每年全球范围内,在缺乏导师指导的情况下,还能 发表出高质量论文的学生不超过20个,即使包括了MIT斯坦福等顶尖名校的学生。 
2.学生自身的努力动力和兴趣非常重要。面介绍的几个学生有的学生的课业成绩并不算好,甚至可以说在班级里边处于比较靠后的位置。如果没有来我们组做科研,很可能拿不到任何地方的 Ph.D. offer。但在他们相处的过程中,笔者发现他们的动力非常足,建议他们做的事情下次讨论的时候基本都能做完。 
而另一方面,笔者也遇到过一些学生,有的成绩还非常好。但是他们自身 动力不足,也有可能人生选择比较多,不一定要做科研。有时和他们讨论完项目之后,同样的问题下次讨论的时候还存在。这会让笔者觉得在浪费彼此的时间。如果没有下定决心去把一件事情 做完做好,那么就不要去做吧。不然浪费自己时间还活得不开心。这一点,无论是做科研,还是 做任何其他事情,都是一个道理。
下面开始介绍AI for Biology/Science从零基础到Nature子刊发表的学习之路大纲, 后文会详细展 开介绍每项中最重要的部分。
假定学生起始状态:中国大陆高中刚刚毕业,还未修读任何本科知识,无论是中国大陆本科,还是海外本科
课程修读目标分级。拿操作系统为例同样的一门课程,有的是以教会学生会使用一个操作系统为目标,有的课程是以教会学生写出一个操作系统为目标。这两个课程虽然都叫操作系统,但课程难度, 学生说需要投入的时间精力犹如天壤之别。要想达到科研的最基础起始状态,我们对每门课的基础要 求不同。以下进行如下四个等级进行分类,并在每门建议的必修课程上进行相应的标注。 
1. 记忆。对信息进行记忆,比如记住12306的买火车票步骤或者Office套件的用法。不需要知道这 些软件底层如何设计,为什么我们那样使用就能达到我们想要的效果。
2. 理解。除了知道是什么,还要知道为什么。比如使用Linux操作系统,除了知道在该系统上安装软 件的步骤,还需要知道该操作系统路径寻找的逻辑。那么如果软件安装的过程中出了问题,你可 以进行debug,从而解决该问题。
3. 应用。运用所学到的知识、事实、技术和规则解决新的问题。
4. 分析。能够从不同角度分析同一个问题,不同解决方案的好坏对错。
5. 评价和创造。比如找到目前Linux操作系统中设计的不合理之处,并进行修改,达到让众人都可以 用的效果。这本身已经是一个科研项目。 
必修课程,最精简达到能够做科研(AI & Biology/Science)的初始状态,如果以下任何一项知识缺乏都会觉得进展比较吃力,需要回过头补充相关基础知识。 
在这篇文章中,我们仅对所有的课程进行罗列和分级。在后续的文章中,我们还会提供每门课的一些相关问题,来帮助刚刚入门的同学准确定位自己需要达到的熟练程度。
如果读者能够自信回答这三个问题,那么可以认为自己这方面的知识是过关的,否则可能需要补充相关知识。如果大家反馈比较积极的话,这些内容将会在近期准备好呈现给大家。
1. 语言基础:英语阅读理解能力(分析)、英文写作能力(创造)
2. 数学基础:微积分(分析)、线性代数(分析)、概率论与数理统计(分析) 
3. 计算机基础:Linux操作系统(理解使用方法,不要求能够写一个操作系统)  
4. 编程基础:Python(应用)、pytorch(分析)
5. AI基础:数据挖掘(分析)、机器学习(分析)、深度学习(分析)
6. Science特定方向基础(以Biology为例子):生物信息(尤其是生物测序以及序列处理,理解)
7. 其他工具:Latex/Overleaf(写作工具,记忆其用法)、Office(记忆其用法)
修读以上必修课程再加上以下要素之后即可达到必备的科研起始状态。只是能够保证项目比较正常起 始的状态,具体如何将科研进行下去并最终发表论文,之后有机会再详细说: 
1. 能力基础:学习能力 
2. 算力基础:计算机、GPU(需要跑大型模型的时候,大部分情况不需要)
3. 学生自身的努力动力和兴趣 
4. 靠谱负责有经验的导师 
5. 值得做的研究方向 
选修课程。最偷懒的建议自然是修的越多越好。笔者这里尽最大可能减少推荐选修的课程,控制在10 门以内(还是多了一门,11门)。 当然这并不意味着其他知识不重要,而且不同的人给出的选修列表 非常有可能不一样。这里只代表笔者个人的有偏颇的建议。会进行选修的学生一般都有一定的基础和 较强的判断能力。这里便不再标注课程修读目标。 
1. 数学:最优化方法、离散数学、随机过程(diffusion) 
2. 编程:C/C++、前端语言、 R
3. 计算机:操作系统、 算法与数据结构
4. Biology:生物化学、分子生物学、细胞生物学 
后续的文章将详细展开说明以上课程的必要性,在科研体系中的作用,其中哪些特定的概念需要重点学习,自测题目,以及相关的网络课程和学习资源。 
需要注意的是,以上的学习之路是笔者结合自身实践以及指导学生总结出来的。比较适合笔者擅长的 AI&Biology方向。对其他方向也许有指导价值,但不能作为指导纲领。该学习之路也是笔者抽空总结的,如果有纰漏或者错误,还请读者见谅。
同时,条条大路通罗马,也许还有其他更好的学习之后, 还望同行批评指教。最后,每个人的情况都各有不同,大家结合自身情况酌情选择学习。最好可以找到一个靠谱的导师给出有针对性的建议,这样效率会更高。 
下面是一些相关的课程和学习资料推荐,有兴趣的同学可以先学起来啦~
https://www.showmeai.tech/tutorials/74
https://liyu95.com/teaching.html
https://www.linkedin.com/in/eva-smorodina/

关注我!不错过任何AIMShare学术资讯!!

如果您对我们的内容有任何疑问需要咨询或想要联系作者,可以备注“AIMS”联系课代表。也欢迎大家投稿!【注意:转载请联系本公众号获得授权。】

AIMShare课代表咨询

童鞋,看这里

目前700+人已关注加入我们

       

       



推荐阅读
 high-quality content 



申请季前谈:如何选择适合自己的课题组


如何申请MPhil项目?港大学长经验贴


如何将本科毕业设计在Nature外部送审,发表在Nature Biotechnology?


AIMShare
AlMShare(Al with Mission and Social responsibility)是以推动实现有社会使命的人工智能为目标的高质量知识分享平台。我们专注于AI交叉领域研究与人才培养,致力于打破该领域信息差。
 最新文章