2024年的诺贝尔化学奖被授予美国华盛顿大学的David Baker,表彰他在“计算蛋白质设计”领域的贡献;以及DeepMind公司的Demis Hassabis和John M. Jumper,表彰他们在“蛋白质结构预测”方面的突破。
采访诺奖得主……的学生
两天内接连颁发的诺贝尔物理学奖与化学奖都与人工智能相关,引起了广泛的讨论。对此,学院邀请到了两位David Baker曾经的学生,来为我们带来近距离的诺奖解读。
王初
教授
北京大学化学与分子工程学院 教授,USTC9608
2001~2008 在华盛顿大学生物化学系Baker课题组 博士,中国科大9608校友
刘源
专职副研究员
北京大学化学与分子工程学院 专职副研究员
2013~2015 在华盛顿大学生物化学系Baker课题组 Senior Fellow,中国科大0220校友
首先想问问两位老师,导师获得了诺奖是一种什么样的体会?
北大化学
王初
作为学生来说是非常骄傲和激动的,为我的导师感到高兴,也为自己当年有幸参与和见证整个的相关工作感到很自豪。其他的倒没有什么特别的,毕竟不是自己获奖对吧?
刘源
我觉得David获得诺奖是早晚的事,这个奖颁给他实至名归。
大家都说2024年诺奖被AI占领了,您怎么看待今年的化学奖?
北大化学
王初
我觉得是物理奖和化学奖同时给了和AI相关的研究,让大家有这个想法,但单独看这两个奖都是实至名归的。至少化学奖是给了科学研究当中产生了巨大影响力的工作,而且很有突破性。大家如果关注诺奖颁奖词的话,Baker的成果其实是computational design,不是AI protein design,和AI不是直接相关的。
刘源
AI的贡献的确占了很大比例,但早在深度学习爆发之前,David就已经用经典的方案(在十几年前这可都是新方法)Rosetta成功设计了好几个全新的蛋白而具有很高的学术声誉,这次得奖可以说众望所归。
诺贝尔化学奖经常被调侃为理综奖,您作为化学生物学的老师怎么看待这两个专业的交叉?
北大化学
王初
现在的学科进入到了高度交叉的时代,比如北大有前沿交叉学院作为新型的探索机构。新的学科增长点特别是很重要的发现,都是通过多学科共同努力完成的,100年之前诺贝尔各个奖项是在传统的学科上,但每个学科发展后都会有新元素进来。很多生命过程的本质是通过化学分子调控的,从分子的层面上去模拟结构、设计蛋白、编辑基因等,这都是化学作为分子科学涵盖的内容。
刘源
不管是黑猫还是白猫,能抓到耗子就是好猫,蛋白质是生物和化学领域都非常关心的对象,解决问题需要用到各个学科的技术。
在您眼中,作为导师的Baker是什么样的人?
北大化学
王初
他能够让你感觉到一个真正的科学家是个什么样子,他是非常纯粹、非常专注做科研的,时时刻刻都在关注科学问题。所以我在想他能够拿到诺贝尔奖不是偶然的,是因为他全身心地投入到对科学的思考和研究当中。他很喜欢每天来实验室之后随机找一个人聊聊天,他就喜欢在实验室里面走来走去,他说他不喜欢被关在办公室里面。
刘源
他是一个看起来很松弛的人,非常显年轻,但实际上工作效率、交流效率都非常高,在学术上有长远眼光和敏锐的判断。
他对您的科研生涯有什么比较大的影响吗?
北大化学
王初
他对我是全方位潜移默化的影响,很难一条条列出来。我感到非常的幸运能够在他的课题组接受科研的训练,到现在为止,我可能写作的很多习惯也还是在模仿着他。
刘源
他对我的启发是要去正确地提出问题,以及要快速探索方法边界。
Baker在科研之外有什么兴趣爱好吗?
北大化学
王初
他很喜欢爬山,周末经常会有实验室的hiking trip,爬山就像他做科研一样只需要盯着前面。他也喜欢踢英式足球(soccer),不是美式橄榄球,我们组织实验室踢球的时候如果我们俩一个队的话就是碾压式的。
刘源
对,我们觉得Baker喜欢王初老师和两人都踢足球可能有关系,“Chu从来不犯错,Chu足球踢得好”。
Baker曾两次来化学学院做兴大报告,这两次经历有什么故事可以讲讲吗?
北大化学
王初
2015年来的时候,他作完报告后我们整个实验室陪他爬了长城,2019年的那次时间紧张,只来得及去吃了火锅。他来的时候和我们学院还有北大-清华生命联合中心的老师学生都有交流,他说这个地方有这么多年轻人,未来肯定会做得非常好。
刘源
Baker很喜欢爬山,他在爬长城的时候嫌路程太短不过瘾,要爬野长城,被我们制止了。他爱吃辣锅还很喜欢花椒,特意带了一大包花椒上飞机带回去。
您觉得我们的老师和学生要在化学上取得成就,除了像Baker一样时时刻刻都关注科学的问题以外,还需要有什么其他的品质吗?
北大化学
王初
我觉得要做到那点已经非常难了。重要的还要有原创性,无论是对于年轻人还是我们这样的中青年科学家,还是要多想这个工作的科学意义,是在做别人没做过的事情还是在跟随别人做他们的事情。
刘源
问题的关键是,能否提出关键的问题。
我们学院已经有一些老师的导师获得了诺奖,请问您觉得下一个机会在哪里?
北大化学
王初
很难去猜谜语。但很多拿诺奖的大牛都来过我们的兴大报告,可能想拿诺奖得先来兴大报告给我们作个讲座。这其实说明我们能够从一些比较前沿的实验室招回来一些年轻科学家,让他们去做自己想做的事情,希望有朝一日我们学院或者其他兄弟单位的原创成果可以自己去拿到这个奖项,这会让我们更加引以为豪。
刘源
AI确实帮助科研人员提高了效率,未来可能在于理解其背后的科学原理。
谢谢两位老师的分享,更多访谈内容请关注北大化学视频号和B站账号,我们后续也将请两位老师继续为大家进行科普,期待您的分享。
北大化学
王初
我们课题组的公众号每周都会做一些分享,大家也可以通过公众号来和我们有更多的交流,也希望在未来有更多机会能参与到科普中,让大家了解我们这些科学家在不同领域都在做什么。
刘源
已经写了,关于2024年诺贝尔化学奖的研究历程请大家继续阅读 👇
2024诺贝尔化学奖科普(作者:刘源)
蛋白质结构预测的基础
熟悉生物的朋友一定了解“中心法则”,生物体通过DNA存储遗传信息,并经过转录和翻译过程,表达出蛋白质,负责执行各种重要生理功能。蛋白质是由20种氨基酸组成的一条链状分子,并具有复杂的结构和功能。1965年中国成功合成了牛胰岛素,证明了蛋白质的一级结构决定其高级结构,进而决定其功能(点这里看参与人工合成牛胰岛素的汤卡罗老师的故事)。Cyrus Levinthal在1969年就指出,蛋白质的结构可以由DNA遗传编码确定(这里还有个冷知识,David Baker有个学生在西雅图开了家叫Cyrus Biotech的公司;而他还有个学生是现在北京大学的王初教授,他的学生开了家公司叫“力文所”,懂谐音的都懂)。
在科学研究中,科学家们通常把已知氨基酸序列求蛋白质的结构和功能称为蛋白质的“预测”,把希望得到特定的蛋白质结构和功能求其对应的氨基酸序列称为蛋白质的“ 设计”,二者互为逆运算但在科学研究中相辅相成,分别对应获得本次诺贝尔化学奖的两部分工作(下面会频繁提到“设计”和“预测”)。
为了研究蛋白质的结构,科学家需要花费巨大精力用NMR、X射线衍射、冷冻电镜等实验手段对原子位置进行解析,从理论上来说,只要知道基因编码,就可以利用物理规律以及生物信息等方法预测蛋白质结构。尤其是上世纪九十年代以来,在“人类基因组计划”推动下,基因测序变得更高更快更便宜,人们掌握的蛋白质序列信息飞速增加,但对结构和功能的研究速度却一直无法跟上。
牛胰岛素结构模型
其实从1994年开始,有先见的学者们就开始重视用算法来进行蛋白质结构预测的研究。CASP(The Critical Assessment of protein Structure Prediction)就是为这个目的而进行的两年一次的竞赛,世界各地的学者各显神通,看谁的方法更加有效。在这场结构预测的“奥林匹克”中,有不少华人科学家都留下过光辉的战绩,比如周耀旗(中国科大793校友)的DFIRE、SPARKS,张阳的I-TASSER、QUARK,许锦波(中国科大9111校友)的RaptorX以及首次引入深度学习的contact预测方法等。
但随着方法的不断成熟,CASP比赛成绩的进步的步伐也在逐渐减小,直到AI领域深度学习技术取得质的飞跃,这个故事我们后面细说。
David Baker与Rosetta程序的旅程
先说回这次诺贝尔化学奖中一人分得1/2的David Baker教授。他的实验室最开始研究蛋白质折叠的动力学,并发现蛋白质的折叠速率与contact order相关,进而认识到折叠可能首先发生在一些局域的“片段”,于是他们大胆推测可以通过拼接已知的蛋白片段,预测未知的蛋白质结构,基于这个假设他们开发了大名鼎鼎的Rosetta程序,用于进行结构预测。经过不断的优化算法和力场开发,他们又得到了可以较为准确表征蛋白质结构的打分函数,而这个全原子打分函数不但可以评估一个序列的不同构象,还可以比较主链构象相同的不同序列,这也打开了“蛋白质设计”的新大门,也就是根据需要设计可以完成任务的蛋白序列。
(来源:https://blog.csdn.net/soulmeetliang)
正如费曼的名言“我不能创造的东西,我就没有理解”。David Baker也曾表示:“如果你想制造飞机,不应该修改一只鸟;而应该了解空气动力学的基本原理,并基于这些原理建造飞行机器。”在一些已知的蛋白上设计成功后,他的实验室开始创造世界上没有过的蛋白。从2003年的TOP7蛋白,折叠出自然界从未出现过的新拓扑,到2008年设计出的两个自然界中不存在的催化功能的酶,再到2011年可以结合流感病毒刺突蛋白保守区域的结合蛋白,一系列成功让BakerLab声名鹊起,也让Rosetta也成为领域内广为人知的蛋白质设计软件。(Rosetta@Home和Foldit的传奇故事限于篇幅就不展开了)
2016年在取得了一系列从头设计蛋白的技术突破后,David Baker在Nature杂志上发表文章“The coming of age of de novo protein design”,宣告蛋白设计新时代的到来。
但接上前文CASP预测结构的故事,这一年正是CASP12,虽然此时共进化方法已经开始展现出巨大潜力,但可以从图中看出整体上传统方法已经遇到了瓶颈。此时命运的齿轮已经开始转动。
不摆围棋后,AI开始摆原子
同样是2016年DeepMind公司开发的围棋软件AlphaGo战胜传奇棋手李世石,举世震惊。虽然人类棋手靠“神之一手”保留了最后颜面,但AlphaGo随后几个月化身Master在围棋网站60连胜,世界第一棋手柯洁2017在乌镇连败三局,宣告智力游戏中的皇冠被机器彻底攻克。但比赛中柯洁也曾将AlphaGo逼到极致,有twitter为证:
发送这条推文的,就是DeepMind的CEO,也是今天的另一位主人公Demis Hassabis,他的公司虽然不挣钱,但一直走在深度学习领域最前沿。无敌的AlphaGo几个月后,就被“自学成才”的AlphaZero无情超越,DeepMind也随后宣布结束围棋项目,打星际争霸去了。
就在2017年,第三位诺奖得主John M. Jumper刚刚博士毕业,他在博士期间主要研究蛋白质模拟(关于Jumper的具体介绍,推荐“小王随笔”)。在加入DeepMind后,他就参与了蛋白质结构预测项目(还好不是打星际)。
2018年的CASP13中AlphaFold初露锋芒,在CASP比赛中取得桂冠,但采用的技术并没有本质突破,学界也很快跟上甚至超越了AlphaFold的性能,并准备在CASP14中与DeepMind一决雌雄(柯洁说一开始我也是这么想的)。没人想到,2020年由John M. Jumper领导的AlphaFold2石破天惊,采用全新的端到端架构,以碾压之势横扫CASP14比赛,并将蛋白质结构预测的精度提高到接近实验解析的水平,随后他们开源了自己的算法,还花费大量资源,把人类常用的模式生物的蛋白序列都预测了一遍,并免费发布了这上亿个蛋白结构,其中一大半的原子坐标是高度可信的。这对全世界的分子生物学相关研究都有重大的推动作用。
未来可期
再说回David Baker,2018年之后他就已经认识到深度学习方法的力量,在实验室投入大量精力进行研究,先是开发了超越AlphaFold的trRosetta,并在AlphaFold2发布后不久也根据DeepMind的类似的技术路径实现了RoseTTAFold,并在此基础上专门为蛋白质设计任务进行开发,像打通“任督二脉”,使得蛋白质设计的速度和成功率都比“传统”方法获得巨大提升。
David Baker喜欢爬山,而这和蛋白折叠很像,要在崎岖的表面找到登顶的路,人工智能技术的发展大大拓展了科研人员的能力,但由于存在“可解释性”的问题,人们对问题本质的理解可能并没有增加很多,为了不被“智子”锁死,我们可能还有很长的路要走。好消息是,AI使我们变强。
推荐阅读
文字 | 刘源(USTC0220),王初(USTC9608)
采访 | 肖熠,高杨,牟凯
排版 | 范成
审核 | 肖熠,王初,高珍