导读:
昨天,因破解蛋白质结构密码,David Baker以及Demis Hassabis和John Jumper获得了2024年度的诺贝尔化学奖。(参见文章:AI再次胜利:蛋白质结构预测获诺贝尔化学奖)
如果说诺贝尔物理学奖颁发给研究人工神经网络和深度学习的两位科学家是“出乎意料”,那么诺贝尔化学奖颁给计算和人工智能,可谓是众望所归。
“David Baker成功完成了几乎不可能完成的壮举,制造出全新种类的蛋白质。Demis Hassabis和John Jumper开发了一种人工智能模型来解决一个 50 年前的问题:预测蛋白质的复杂结构。这些发现具有巨大的潜力。”诺贝尔奖官网的新闻稿写道。
《赛先生》重发今年六月的文章,带您回顾David Baker如何从头设计蛋白,又是如何在竞争中向对手学习,不断精进,并通过开源推动蛋白结构预测技术的使用平权。
王承志 | 撰文
今年4月,成立仅一年的AI制药公司Xaira Therapeutics吸引到10亿美元的单轮融资,成为今年生物医药领域金额最高的一笔融资,并吸引到前斯坦福校长Marc Tessier-Lavigne担任首席执行官。
值得注意的是,这家公司的联合创始人为华盛顿大学蛋白质设计研究所所长David Baker博士。他也因开发从头设计自然界从未出现的新型蛋白的技术,获得2020年科学突破奖生命科学奖。而在人工智能预测蛋白结构,David Baker也是其中的重要力量。
他开发了著名的Rosetta软件,极大地推动了蛋白质结构预测的进展。在与AlphaFold2的竞争中,善于学习的他向商业公司DeepMind学习,将深度学习技术引入Rosetta软件,并率先公开RoseTTAFold的源代码。随后,AlphaFold2也很快开源。这成为利用竞争推动新技术的使用平权的一个经典案例。
2024年诺贝尔化学奖得主David Baker。
图源:https://www.ipd.uw.edu/david-baker/
1980年代早期,David Baker在哈佛大学读本科,那时他的专业是哲学和社会科学,和生物学并无关系。但就在大学最后一年,他选修了发育生物学。在这门课上,他看到了一个神奇的实验,整个人生随之改变。
实验是由生物化学家Christian Anfinsen在1960年代提出的:当把蛋白变性剂加入RNA酶以后,其切割RNA的活性便消失了,而把溶液中的变性剂蒸发后,RNA酶的活性又神奇地恢复了。
直到1980年代,生化学家仍然没搞明白,蛋白质是如何在一瞬间自主找到正确的构象并发挥功能的。加入变性剂会让蛋白质的结构变得无序,但在合适的条件下蛋白质便又可以自发折叠成正确的形态,这个过程就像变形金刚在短时间从钢铁巨人变成能跑的汽车一样神奇。
Baker对此产生了浓厚的兴趣,他通读了享誉国际的《细胞分子生物学》(Molecular Biology of the Cell)这本经典教材,对生物学愈发着迷。他觉得相比哲学,科学中的大部分问题都能得到明确的答案,这一点非常吸引他。他决定转专业并继续攻读生物学研究生。
不久,他加入了加州大学伯克利分校细胞生物学家兰迪·谢克曼(Randy Schekman,2013年诺贝尔生理或医学奖得主)的实验室。在谢克曼的实验室, David Baker开发了一种细胞运输过程的检测方法。也许是命运的巧合,几乎在同一时间,一位出生于芬兰的女科学家汉内莱·鲁奥霍拉(Hannele Ruohola)正在耶鲁大学苏珊·费罗-诺维克(Susan Ferro-Novick)实验室研究相同的问题,并且开发出一样的检测方法。鲁奥霍拉后来去了西雅图的华盛顿大学当教授,她在那里认识了David Baker,二人结为连理。有趣的是,鲁奥霍拉比David Baker大三岁,婚后的Baker也一路开挂,果然在蛋白质折叠领域抱上了“金砖”。
话说回来,1989年,Baker博士毕业,加入了加州大学旧金山分校的结构生物学家大卫·阿加德(David Agard)教授的实验室。开始,Baker只想短暂地学习结构生物学以更好地理解蛋白质,然后申请细胞生物学的教职。很快他便沉迷于蛋白质的氨基酸序列如何能折叠出各种千奇百怪的结构这个问题。他开始思考:如果蛋白的结构只是由氨基酸的序列决定的,那么结构生物学家繁重而枯燥的结构解析工作是否能用计算的方式替代?
带着这个问题,1993年,Baker回到家乡西雅图的华盛顿大学,开始了独立研究的职业生涯。他决定将主要精力用于开发一套能够根据序列预测蛋白质结构的软件。这就有了后来大名鼎鼎的Rosetta系列软件。
Rosetta的名字来源于古埃及的罗塞塔石碑,这块石碑上同时刻有古埃及象形文字、世俗体文字和古希腊文三种不同语言的文本,这使得人们得以通过对照不同语言的内容,破译了古埃及象形文字,从而打开了古埃及文明的大门。而蛋白质可以看做是一种自然界的语言,Baker希望通过Rosetta这个软件来解决把蛋白质的序列翻译成结构的难题。
在华盛顿大学,David Baker开始研究开发一套能够根据序列预测蛋白质结构的软件。
图源:https://sites.uw.edu/biochemistry/faculty/david-baker/
当然,Baker并不是唯一这么想的科学家。
随着人类基因组计划的进步,1990年代科学家们突然获得了大量基因的序列,并据此推导出大部分人类蛋白质的序列。但科学家对这些序列所对应的蛋白质结构还所知甚少。依靠传统的方法,蛋白结构解析成本高昂且需要耗费大量时间。如果蛋白质的结构仅由其氨基酸序列决定,那么理论上完全可以通过计算来预测它们的对应关系。
人类基因组学计划成功后,理解每个基因和其对应的蛋白质功能成为整个生物学界的下一个大目标,于是很多生物信息学家和生化学家都加入了这一大浪潮中。一时间,很多实验室都发表了各种不同的算法和软件,通过蛋白质的序列预测结构和功能。
为了评估软件预测蛋白质结构的能力,马里兰大学的John Moult教授在1994年创办了一个比赛——蛋白质结构预测技术的关键评估(the Critical Assessment of Techniques for Protein Structure Prediction),简称CASP。此后这个比赛每两年举行一次,参赛者被邀请参加一个盲测,即只使用蛋白序列来预测结构,这些蛋白已通过传统方法解析过结构但尚未公开发表,以此来评判参赛者的算法的准确率。
早期,Baker的团队使用从高分辨率蛋白质结构中提取的短片段(3~9个氨基酸残基)构建蛋白质模型,并使用了蒙特卡罗搜索的策略来进行能量函数的搜索。在第3届CASP比赛上,David Baker实验室开发的Rosetta软件开始展露头角。在其后相当长的时间里,Rosetta的成绩一直都名列前茅。直到在第7界CASP上,华人学者张阳团队开发的I-TASSER模型取得了与Rosetta相近的成绩,并在其后几届比赛中与其并驾齐驱且互有胜负。
Baker深知个人力量的局限性,他的团队从Rosetta软件创建之初就保持了相当开放的社区属性。2005年,Baker团队发布了Rosetta@home项目,这个项目利用每个用户电脑的闲置算力来进行蛋白结构的计算,也就是今天大家所熟知的分布式运算方法。全世界有数万台电脑为这个项目提供了算力。
2008年,Baker团队又在这个项目的基础上发布了Foldit,这是一个电子游戏,用户可以操纵简单的蛋白质构造来进行变动,而游戏会根据每个结构的变动来评判折叠的完善程度,进而给用户打分。最初这个游戏的题目都是结构已经被解析的蛋白质,通过分析人类拼出正确的蛋白质结构的思维模式,从而改进现有蛋白质折叠的算法。2011年,游戏玩家们真的在游戏里破解了艾滋病逆转录酶(M-PMV)的结构,而这个结构已经困扰了蛋白晶体学家十几年。可见,“众人划桨开大船”的模式确实能完成单打独斗难以完成的任务。
随着Rosetta开发人员的增多,Baker实验室也陆续有成员离开,一个新的问题出现了:如何在保护知识产权的情况下还能让更多的人继续参与Rosetta的开发。Baker实验室通过开源和搭建社区作为解决的方法。他们创建了名为RosettaCommons的社区,让所有人能都参与开发、下载并使用Rosetta,但如果是商用Rosetta的代码,则需要付费。这些费用都被投入Rosetta的继续开发,帮助Rosetta持续迭代预测蛋白结构的能力。
Rosetta的社区相当活跃。每年夏天,众多蛋白质折叠领域的专家都会齐聚华盛顿喀斯喀特山脉的一个度假胜地,讨论如何改进Rosetta软件平台。他们还给这个定期聚会起名叫罗塞塔会(Rosettacon),就像科幻迷们的星战会(Star Wars Celebration)一样。Rosetta的很多重大改进都来源于罗塞塔会上科学家们思想的碰撞。
2020年11月,第14届CASP大赛的研讨会气氛有些不同寻常。会前几个小时,主办方公布了一张参赛队伍预测蛋白质结果评分的图片,显示有一个团队以惊人的成绩超越了其它所有参赛选手。会议还没开始,这张图片已经让网络炸开了锅,整个领域的人都在热烈议论到底是哪个团队做到的。
图:左侧最高成绩为AlphaFold2,第二名为Rosetta。图源:参考文献9
会议开始后,主持人在大家迫不及待的目光中展示了比赛结果:DeepMind公司带来的AlphaFold2,正是这次比赛中的明星。在多个蛋白的预测中,AlphaFold2以惊人的准确性碾压了其它所有团队,包括第二名Baker团队带来的Rosetta。主办方宣布,AlphaFold 2成功解决了一个开放了50年的挑战:开发一种能够准确、普遍和有竞争力地通过序列预测蛋白质结构的新方法。
AlphaFold2遥遥领先的蛋白结构预测能力震惊了整个学术界。与此同时,很多该领域的科学家开始担忧,AlphaFold2来源于商业公司,他们能否自由使用AlphaFold2并在此基础上继续发展新的算法。
Baker后来回忆说,“所有人都惊呆了,先是有很多媒体报道,然后基本上就没有消息了。你处在一个很奇怪的境地,你的领域取得了重大进展,但你却不能在此基础上继续发展。”DeepMind公司的科学家在CASP14发表了一个半小时的演讲,阐述了AlphaFold2的工作机制。和Rosetta、I-TASSER等模型不同,AlphaFold模型使用了深度学习的方法,并引入了基于注意力的神经网络,学习了蛋白数据银行(Protein Data Bank)所有的蛋白结构数据,这些数据是全球结构生物学家数十年积累的结果。学习后的模型可以根据序列来预测氨基酸之间的距离和夹角并进一步推测蛋白的结构。这是深度学习方法第一次在蛋白质结构预测领域展露头角,也为这个领域指明了新的方向。
虽然当时DeepMind还未公开AlphaFold2的源代码,但Baker和他的博士后Minkyung Baek已经从这次演讲中找到了具体的方向。他们和实验室的其他成员一起全力工作了数月,发布了使用深度学习技术的新软件平台RoseTTAFold。在神经网络构建中,RoseTTAFold借鉴了AlphaFold 2的多轨网络技术,将蛋白质结构信息的不同方面分离成多个独立的轨道,不同轨道之间相互反馈一些信息,这种架构会让神经网络学习到更丰富的特征。
为了验证RoseTTAFold的能力,Baker联系了他的博士后导师大卫·阿加德教授。阿加德教授正好有一个困扰其实验室两年的问题,他想得到一种细菌在受到病毒感染后产生的蛋白质的结构。阿加德把蛋白的序列发给了Baker,实验室的人员用RoseTTAFold运算了6个小时。预测的结果完美解决了阿加德的问题。阿加德说,解决了这个瓶颈后,他们终于可以继续研究这个蛋白的功能了。
是时候把RoseTTAFold公开了。Baker知道,虽然当时它的能力离AlphaFold2还稍有距离,但已经能解决很多生物学家的问题。
2021年6月15日,Baker实验室发布了RoseTTAFold的在线版本,让所有人都能在线使用这个工具,同时还公布了详细介绍RoseTTAFold技术路线论文的预印本。三天后,DeepMind首席执行官Demis Hassabis在推特上表示,他们将公布AlphaFold2的论文和源代码,并透露论文正在审稿中。7月15日,《科学》和《自然》两大期刊在同一天分别发表了RoseTTAFold和AlphaFold2的技术论文,这场学术界和商业公司的竞赛在这天得到了一个完美的结果。
David Baker后来在一次校园活动中表示:我真的从一开始就认为我们应该分享我们所做的一切。那些代码真的传播到了全世界,基本上每个人都在使用它。
正如人类基因组计划中,学术界和以克雷格•文特尔(Craig Venter)为代表的商业公司的竞争,最终也以在两大顶刊同时发表论文落幕。两次竞争的过程都激烈而精彩,伴随的产物是科学的快速进步以及新技术的使用平权。
在蛋白质结构预测之外,Baker也在尝试另一个方向:蛋白质设计。
著名物理学家理查德·费曼(Richard Feynman)有一句名言:“我无法创造的东西,我便无法理解。”目前人类在利用的所有蛋白质都是自然界进化了数十亿年的产物,其中的很多蛋白,人类早已解析其结构并理解了工作原理,但根据现有知识创造出全新结构和功能的蛋白质,还从来没有实现过。生物学家通过定向进化等手段,可以在一定程度优化现有的蛋白,但离主动创造相距甚远。
蛋白质仅靠20种氨基酸的排列组合,就形成了生物学上不可思议的多样性和高效性,支撑起了整个生物界。既然算法可以从蛋白的序列预测出结构了,那反过来是不是可以通过功能来设计对应的结构,再用逆向算法把结构推导回序列呢?这种方式被科学家称为蛋白质的“从头设计”(De novo design),也就是在没有模板参照的情况下设计出自然界中不存在的蛋白,并完成特定功能。如果说蛋白质结构预测是为了理解自然,那么蛋白质设计就是创造自然了。
早在2003年,Baker团队里的Brian Kuhlman和Gautam Dantas就设计了一个含有93个氨基酸残基的α/β蛋白,具有全新的拓扑结构,能够自动折叠成球状并非常稳定。这个蛋白被命名为Top7,这是人类第一次获得了非自然界来源的全新蛋白质,代表着人类在从头设计蛋白领域迈出了一大步。David Baker也因此被一些媒体称为“上帝之手”。
Top7虽然惊艳了科学界,但它只是基于特定结构的设计,并没有任何功能。从头设计出有实际功能的全新蛋白质对科学界而言依然是极具挑战性的工作。
2023年发表的一篇研究,试图把AlphaFold蛋白结构预测的神经网络反转来实现从结构到序列的推导,但结果很不理想。蛋白质的复杂性和多样性意味着即使是微小的变化,也可能对功能产生重大影响。此外,蛋白质与生物体内其他分子的相互作用也是一个需要考虑的重要因素。设计出的蛋白质必须能够在复杂的生物环境中稳定存在,并且与目标分子有效互动。
David Baker的团队尝试了各种计算方法,包括计算蛋白质能量的函数、多种骨架和侧链采样方法以及一些全局优化算法,如蒙特卡洛模拟和连续优化方法。随着生成式AI和其它机器学习方法的发展,设计出具备特定生物功能的全新蛋白质正逐渐成为可能。
David Baker不仅持续保持了高水准的学术研究,还积极将技术转化为商业应用。他参与创立的公司涉及制药、诊断、农业、化学等多个领域,可以说已经形成了庞大的商业版图,而且不乏一些成功的明星公司。例如利用病毒样颗粒开发针对传染病的疫苗的Icosavax公司,2021年7月登陆纳斯达克,2022年12月被阿斯利康收购。而另一家David Baker参与创立的公司PvP Biologics开发了一款KumaMax 的口服酶,可以治疗对小麦等食品中的谷蛋白过敏。这家公司在2020年被武田制药以3.3亿美元收购。
由于设计新型蛋白质的巨大想象空间,David Baker在去年作为联合创始人创立了Xaira Therapeutics公司。公司甫一成立便聚集了多位业内资深人士,成立一年便获得了10亿美元的风险投资。这在早期阶段的投资中是极其夸张的数字。
David Baker的实验室提供了Xaira Therapeutics公司早期的主要技术,Baker的多位学生和博后也全职加入了这家公司。他们的目标是通过生成式AI等新技术来设计新的蛋白分子,特别是抗体分子。此前,David Baker实验室根据扩散模型设计了RFdiffusion模型,并用这个模型生成新的抗体分子。
在巨量资金支持下,Xaira Therapeutics公司计划用大量实验数据来训练和迭代包括RFdiffusion模型在内的各种模型,最终实现“按需设计”蛋白质的宏伟目标。对Baker和Xaira Therapeutics背后的投资方来说,这都是一次非常大胆的尝试,但也可能带来巨大的经济和社会效益。
DavidBaker的研究大大推动了蛋白质结构预测和设计领域的发展,他的工作展示了科学研究的无限可能,也证明了跨学科合作的重要性。David Baker的科研旅程和成就不仅仅局限于实验室的研究,还成功地将科研成果转化为商业应用,创造了巨大的经济价值。
现年62岁的Baker依然活跃在科研一线。他酷爱登山、探险等运动,科研之余常常徜徉于大自然之中。他认为登山探险和科研工作有许多相似之处,都需要坚韧不拔的精神、良好的判断力和团队合作。
在理解和应用蛋白质的领域,Baker无疑也是一座高山,他的工作所产生的巨大影响会持续激励着未来的科学家们。当蛋白质的“按需设计”时代真正来临,Baker和他的团队做出的卓越贡献也将被铭记。
星标《赛先生》公众号,
不要错过我们每日为您精心准备的高质量文章!
欢迎关注我们,投稿、授权等请联系
saixiansheng@zhishifenzi.com
合作请添加微信SxsLive2022