在这个充满“爱”(AI)的年代,诺贝尔化学奖的荣耀之光照亮了三位杰出的科学家——David Baker教授与谷歌DeepMind团队的Demis Hassabis和John Jumper。他们分别以RosettaDesign蛋白质设计和AlphaFold 2蛋白质结构预测技术获得了这个科学领域的最高荣誉。由于这两个方向一直也是我们课题组深入研究的范围,所以第一次可以近距离感受诺贝尔化学奖。
在蛋白质结构预测方面, AlphaFold 2算法在2020年底的蛋白质结构预测——CASP双盲比赛中遥遥领先,对有高质量同源序列的蛋白质实现了与结构实验精度相媲美的预测,初步从工程上解决了原来以为还需要两百年才能完成的艰巨任务。这个成功可以归功于DeepMind团队使用大数据、超大模型所带来的 “涌现”效应,而这种“涌现”的效应只有在抛弃不准确的能量函数、完全在神经网络内部进行蛋白质结构预测的端到端训练的条件下才能实现。AlphaFold 2并非是首个进行端到端蛋白质预测的方法,它是建立在2019年出现的两个端到端蛋白质预测小模型NEMO【2】和RGN【3】基础之上的。其中,当时是哈佛大学研究员的Mohammed AlQuraishi发展的首个端到端预测方法RGN【3】是通过预测的真实主链二面角来构建三维主链结构,并利用2016年出现的可微分损失函数的反向传播【4】来矫正和训练神经网络的参数,从而实现端到端的学习和预测。而使用神经网络预测真实主链二面角(φ和ψ),并据此直接构建并预测三维主链结构是由我们课题组开创的方向(SPINE XI【5】)。我们组同时也是首个利用深度学习来提升预测蛋白质结构(真实主链二面角)精确度的团队【6】。因此,在蛋白质结构预测这场历经50多年的接力赛中,我们课题组为AlphaFold 2的辉煌成就贡献了不可或缺的一环。
相较于蛋白质结构预测,蛋白质设计的历史虽然短暂,却同样是由无数人接力推动的。几个关键节点包括:
1987年,Willams F. DeGrado组利用经验规则成功设计了4-螺旋蛋白质【7】;
1996年,Steven L. Mayo课题组实现了基于物理能量函数的设计【8】;
2003年,David Baker组发展了基于经验能量函数的设计(RosettaDesign)【9】。
相较于物理能量函数,David Baker利用经验能量函数在一定程度上提高了设计的成功率,从而发扬光大了蛋白质设计的应用,成为该领域最具影响力的人物之一。然而,总体成功率依然偏低(千分之几或百分之几)。因此长期以来,蛋白质计算设计无法被广泛地应用。这个低成功率的问题直到最近AI人工智能深度学习方法的出现以及AlphaFold蛋白质结构预测精度的大幅度跃升才得以根本性的改变【10】。如今,利用AI人工智能深度学习进行蛋白质设计已成为主流,而我们课题组是世界上首先抛弃能量函数,提出用AI神经网络直接端到端地从结构进行蛋白质设计的团队(2013年的SPIN方法【11】以及2018年利用深度学习进行改进的SPIN 2方法【12】),因此也为这个领域的发展做出了原创性的贡献。
值得一提的是:诺贝尔奖常以发给原创者为荣。例如,1987年诺贝尔物理学奖授予了1986年在瑞士IBM研究实验室的德国物理学家柏诺兹(J. Georg Bednorz)与瑞士物理学家缪勒(K. Alexander Müller),以表彰他们首次发现陶瓷材料在30K温度有超导电性;而没有包括获得轰动性成就的休斯敦大学朱经武教授,他用不同的陶瓷材料在90K温度以上就能实现超导、首次突破了液氮温度。但今年的诺贝尔化学奖并未追根溯源,而是颁给了该领域最具影响力的人物。可能的原因是:蛋白质设计和蛋白质结构预测这两个方向被放在一起考虑,而诺贝尔奖有最多三人获奖的限制。
在科研的征途中,总有很多默默奉献的科学家们,在各自领域内做出着举足轻重的贡献。今年计算生物学领域的获奖,正是对这一领域内所有科研工作者辛勤付出的肯定与认可。这预示着,未来AI计算生物学与生物技术的结合将越来越紧密,为揭示生命的奥秘提供更加精确和高效的工具。同时,我们也要注意到,大团队在工程上的成功(无论是David Baker或者是DeepMind团队)是在多个小团队0到1原创的基础上才能水到渠成。因此,热切期盼年轻科研工作者能够从中看到,重大的科学研究的突破并非高不可攀,而是与我们每个人的科研生涯紧密相连。功成不必在我,功成一定有我。只有我们齐心协力,勇于探索未知,不断追求真理与进步,才能解决人类面临的种种挑战,为科学的繁荣与发展贡献自己的力量。
【1】Jumper,J. et al. (2021). Highly accurate protein structure prediction with AlphaFold, Nature, 596, 583-589.【2】Ingraham, J.; Riesselman, A.; Sander, C.; Marks, D. (2019)Learning Protein Structure with a Differentiable Simulator; ICLR.【3】AlQuraishi, M. End-to-End Differentiable Learning of Protein Structure. (2019)Cell Syst 8, 292-301.e3. 【4】Wang, S.; Fidler, S and Urtasun R. (2016),In Advances in Neural Information Processing Systems, vol. 29. Barcelona, Spain: Curran Associates, Inc.【5】Faraggi, E.; Yang, Y.; Zhang, S.; Zhou, Y. (2009) Predicting Continuous Local Structure and the Effect of Its Substitution for Secondary Structure in Fragment-Free Protein Structure Prediction. Structure 17, 1515–1527;Zhou, Y. et al. (2011)Trends in template/fragment-free protein structure prediction, Theor. Chem. Accounts 128, 3-16.【6】Lyons, J. et al. “Predicting backbone Cα angles and dihedrals from protein sequences by stacked sparse auto-encoder deep neural network.”, J. Comp. Chem. 35, 2040-2046 (2014)【7】 DeGrado, W. F.; Regan, L. and Ho, S. P. (1987) The design of a four-helix bundle protein. Cold Spring Harbor Symposia on Quantitative Biology 52, 521–526.【8】Dahiyat, B. I. and Mayo, S. L. (1996) Protein design automation. Protein Science 5, 895–903.【9】Kuhlman, B et al. (2003) Design of a novel globular protein fold with atomic-level accuracy. Science 302, 1364–1368.【10】Dauparas, J. et al. (2022)Robust deep learning–based protein sequence design using ProteinMPNN. Science, 378, 49-56.【11】Li, Z.; Yang, Y.; Faraggi, E.; Zhan, J. and Zhou, Y. (2014), Direct prediction of the profile of sequences compatible to a protein structure by neural networks with fragment-based local and energy-based nonlocal profiles., Proteins, 82, 2565-2573 (2014). 【12】O’Connell, J. Z. et al. (2018) SPIN2: Predicting sequence profiles from protein structures using deep neural networks Proteins, 86: 629-633.
周耀旗
资深研究员
周耀旗教授是深圳湾实验室资深研究员和系统与物理生物学研究所副所长,也是靶向RNA小分子药的公司-砺博生物的科学创始人,畅销书《出发:不断走出舒适区的科研生活之旅》的作者。在此之前,他是中国科技大学的学士,美国纽约石溪大学的博士,北卡州立大学、哈佛大学的博士后,布法罗大学助理教授、副教授,印第安纳大学正教授,澳大利亚格里菲斯大学教授,2021年全职加入深圳湾实验室。周耀旗博士在结构生物信息学及其在分子生物学应用的交叉领域多次作出独特、原创性贡献。特别是他课题组通过二面角预测构建蛋白质结构的无结构碎片蛋白质结构预测方法SPINE-XI为基于角度和距离预测的AlphaFold以及端到端蛋白质结构预测方法RGN,NEMO和AlphaFold2都打下了基础。此外,他们发展的SPIN和SPIN2开创了利用人工智能进行蛋白质设计的方向。回国后获得了中国科技部、基金委以及广东省科技厅等多个重大项目的资助。发表论文260多篇,谷歌学者总引用1万8千多次,H-index 73。他的科研成果的原创力和影响力获得了世界专家同行的肯定,入选了全球前2%顶尖科学家“终身科学影响力排行榜”和“年度科学影响力排行榜”,“中国高被引学者(生物学)榜”等。2024年成为国际著名杂志Nucleic Acids Research 的唯一中国编辑。