2024年诺贝尔化学奖:蛋白质结构预测与计算设计

文摘   2024-10-10 19:15   山东  

北京时间10月9日,2024年诺贝尔化学奖揭晓,聚焦于计算蛋白质设计与结构预测领域,标志着人类理解生命基本构件的新突破。该奖项的一半颁发给David Baker,表彰他在蛋白质设计领域的开创性贡献;另一半则授予Demis Hassabis和John M. Jumper,以表彰他们通过人工智能技术在蛋白质结构预测方面的卓越成就。

2024年诺贝尔化学奖的揭晓,标志着蛋白质研究领域的一个重要里程碑。获奖者们分别在蛋白质设计与结构预测领域做出了杰出的贡献,但两者实际上是互为补充的。蛋白质设计的创新为生物学应用奠定了基础,而蛋白质结构预测的突破则为精准设计提供了强有力的工具。这两个领域的相互交织,推动了从理论到实际应用的跨越,为现代生物学打开了新的大门。


蛋白质结构预测

蛋白质是生命的基本构件,其结构决定了它的功能。理解并设计蛋白质的三维结构,是许多生物学家长久以来的梦想。过去,科学家们需要借助复杂的实验技术,如X射线晶体学和冷冻电镜,来解析蛋白质的三维结构。然而,这些方法耗时费力,且只能获得有限数量的蛋白质结构。如何准确预测蛋白质折叠的结构是一个长达50年的公认科学挑战

通过人工智能技术的引入,这一领域发生了革命性变化。Demis Hassabis和John M. Jumper所领导的DeepMind团队研发的AlphaFold2能够以近乎实验精度预测蛋白质的三维结构。正如许多科学家所形容的,这是“皇冠上的皇冠”,为生物学的许多领域带来了新的可能。


蛋白质设计

计算机蛋白质设计的发展历程是一个从理论构想到实际应用逐步成型的过程。在这个过程中,计算能力的提升、算法的创新,以及蛋白质生物学基础的加深理解,共同推动了这一领域的飞速发展。

蛋白质设计领域的过渡,不仅反映了科学家们在算法开发和计算能力上的不断突破,也展现了理论和实验逐步结合的过程。随着对蛋白质生物学的理解不断深入,早期的探索虽然取得了一些进展,但面对更复杂的结构设计时,仍然面临诸多挑战。

以下是详细的关于蛋白质设计的历程回顾,特别聚焦于David Baker的贡献。



1980年代-1990年代:早期尝试与算法开发通知公告

计算机蛋白质设计的发展最初受到物理化学原则的指导。研究者们通过将非极性氨基酸放置在蛋白质的内部,而将极性氨基酸暴露在外部,从而尝试设计简单的蛋白质结构。例如,1988年,Regan和DeGrado成功设计了一个四螺旋束的蛋白质,其结构遵循简单的极性和非极性二元代码模型。这标志着蛋白质设计的初步成功,但这种方法在应对复杂结构时显得力不从心。

1997年,计算蛋白质设计取得了一个重要突破。Dahiyat和Mayo使用了一种称为“死端消除”(dead-end elimination, DEE)和蒙特卡罗(Monte Carlo)算法的组合,设计了锌指蛋白。这一成功展示了计算方法在设计具有特定功能蛋白质中的潜力。


2000年代:Rosetta与结构优化

进入21世纪,David Baker及其团队推出了广泛使用的Rosetta软件这是蛋白质结构预测和设计领域的一个里程碑。2003年,David Baker团队利用Rosetta设计了一个全新的蛋白质Top7。Top7的成功不仅在于其精确的预测与实验验证相吻合,还在于该蛋白质的序列与数据库中的任何自然蛋白质没有显著的相似性。这标志着从头设计全新蛋白质成为现实。

此后,David Baker及其团队不断改进Rosetta,使其能够设计出更为复杂的蛋白质结构,并开始涉足功能蛋白质的设计。这种方法超越了简单的结构预测,试图设计具有催化活性或特定结合能力的功能性蛋白质。


2010年前后:从催化到药物结合的功能性蛋白质设计

在2000年代后期,David Baker团队尝试设计新型酶,这是蛋白质设计中的另一个重大进展。2008年,他们首次设计了一种能够催化retro-aldol反应的酶和能催化Kemp消除反应的酶,目前尚未发现有天然蛋白质可催化Kemp消除反应。虽然初期设计的酶活性较低,但通过实验定向进化(2018年的诺贝尔化学奖),酶的活性得到了显著提升。这项工作展示了计算设计与实验优化相结合的力量。

除了酶设计,David Baker团队还成功设计了结合小分子的蛋白质。2013年,他们设计出一种能够高选择性结合类固醇分子的蛋白质,展示了计算设计在生物医学领域的应用潜力。这些蛋白质的亲和力通过实验进一步优化,达到了皮摩尔级别的结合力


2020年及以后:AI与蛋白质设计的新时代

在计算能力不断提升的背景下,AI技术逐渐成为蛋白质设计领域的重要工具。David Baker团队将深度学习引入到Rosetta的开发中,使得其蛋白质设计能力得到了大幅提升。与此同时,AlphaFold的诞生和发展为蛋白质结构预测领域带来了革命性变化。David Baker的RosettaFold和DeepMind的AlphaFold2共同推动了这一领域的发展,使蛋白质结构预测的精度达到了前所未有的高度。

David Baker的贡献不仅限于结构预测与设计,他还引领了蛋白质功能设计的新潮流。设计的酶、结合分子、病毒样颗粒等新型蛋白质,已逐渐进入实际应用阶段。未来,计算蛋白质设计将在新药开发、疫苗设计、材料科学等领域发挥更加重要的作用。


AI改变了科学、技术和日常生活

本次诺贝尔化学奖首次强调了人工智能与生命科学的深度融合。通过机器学习算法,我们终于对自然界中蛋白质结构完成了完整的建模,大大加快了生物研究的进展。David Baker也曾指出,没有AI的助力,他可能无法取得今日的成就。AlphaFold2以及相关的蛋白质设计技术,已经在全球科研中被广泛使用,为新药开发、疫苗设计等领域带来了巨大的希望。


推荐阅读

David Baker文章评论:人工智能推进

蛋白质结构预测与设计


(点击图片,阅读原文解读)

随着人工智能技术的快速发展,以AlphaFold2和RoseTTAFold为主的蛋白质结构预测方法,彻底颠覆了人们对蛋白预测结构的理解与应用。然而,当前方法往往聚焦于预测蛋白质单体三维结构,而蛋白往往通过与其他生物分子(包括核酸、多糖、金属、小配体等)形成各种复杂的生物分子“组装体”来执行生理功能。不同分子单元之间的复杂结合机制——从共价和非共价结合到金属螯合作用等——在维持“组装体”生物活性方面起着至关重要的作用。因此,有效预测蛋白质与其他生物分子间的结合相互作用和整体三维结构,是一个极具挑战性的科研难题,具有重大的科学研究意义。

近日,中国科学院青岛能源所房森彪助理研究员、德国格瓦大学韦韧博士、中国科学院微生物研究所崔颖璐副研究员和剑桥大学苏林博士在Green Carbon上发表题为“Advancing AI Protein Structure Prediction and Design: From Amino Acid ‘bones’ to New Era of All-Atom ‘flesh’”的文章,针对Baker等人在Science上发布的RoseTTAFold All Atom(RFAA)和RFdiffusion All-Atom(RFdiffusionAA)全原子生物分子“组装体”结构预测深度学习工具(https://doi.org/10.1126/science.adl2528),进行了系统性分析和点评。


文章简介



Baker等人在Science上发布的RFAARFdiffusionAA两个升级版深度学习工具,极大地扩展了生物分子聚合体的计算预测广度,使研究人员能够更加深入的探索复合物分子间的复杂相互作用。在该开创性工作中,Baker等人将基于序列的建模方法与共价修饰的原子图谱相结合,有效地标记了同一生物分子“组装体”中的不同单元成分。具体而言,对小分子图,采用有效图遍历方法编码重原子,从而得到基于元素类型标记顺序的一维表达元素。此外,连接节点之间的二维化学键类型信息被用以代表成对近距关系的2D/3D轨道中,并基于1D2D表达旋转不变性,Baker等人利用周围指定手性中心原子间角度,进一步将立体化学信息整合到了2D/3D轨道结构中。整个网络的优化过程主要采用FAPE全原子损失函数。此外,RFAARoseTTAFold2RF2)蛋白质结构预测网络的基础上,对网络架构进行了重塑,无缝整合了分子相关信息。RFAA算法不仅显示出与 AlphaFold2(AF2)相当的蛋白质结构预测准确性,更擅长于生物分子“组装体”结构进行高精度预测。

RFdiffusionAA方法能够直接围绕给定小分子和其它非蛋白分子结构,进行结合口袋结构预测。RFdiffusionAA扩散模型是通过使用RFAA结构预测权重训练去噪扩散概率模型DDPM来开发的。该模型旨在仅考虑小分子和其他生物分子成分的情况下,对受损的蛋白质结构进行去噪。尽管RFdiffusionAA只能产生主链,Baker等人随即使用LigandMPNN进行了蛋白质结构的序列设计,并利用Rosetta GALigandDock能量计算来达到最终预测和评估设计蛋白质-小分子界面的目的。最终预测结果表明,在给定的非蛋白质分子条件下,RFdiffusionAA方法对蛋白质结构从头设计具有显著的增强作用。更为重要的是,Baker等人选择了三种不同的小分子用于结构设计,通过后期湿法实验进一步证实了RFdiffusionAA预测具有特定构象结合口袋新型蛋白质的有效性。

虽然RFAARFdiffusionAA方法取得了巨大的突破,然而人工智能模型的准确性本质上取决于其训练数据集的质量和多样性,而这些数据集通常来源于RCSB PDB蛋白质晶体数据库中公布的现有晶体结构。尽管RCSB PDB数据库为结构信息提供了重要资源,但现有晶体结构并不包含尚未被表征的新型或独特蛋白质结构,有限数量的晶体结构偏向于某些类型的蛋白质,缺乏代表结构的多样性。此外,目前无法获得能够显著影响蛋白质功能的翻译后修饰及动态多变构象,因此在AI训练数据集中也未得到充分考量。与单个蛋白质结构相比,解析生物分子组装体的晶体结构确实是一个更复杂的挑战,在人工智能模型构建过程中并不包含有效的结构训练模型。因此,上述人工智能领域常见问题,也理所当然的限制了RFAARFdiffusionAA方法预测可靠性,严重阻碍了两种模型预测的有效性。因此,未来获取更加可靠的训练模型并相应地调整模型预测算法,能够明显提RFAARFdiffusionAA预测的准确性。



总结与展望



随着人工智能技术的迅猛发展,RAFF和RFdiffusionAA方法使得对小分子和大生物分子“组装体”的建模预测进入“全原子建模”时代。不久的未来,多种生物分子组合体和各类功能蛋白质将融入到所有研究领域中。这些工具将在阐明生物分子组合体机制、设计抑制剂、预测特定功能目标、探索变构调控以及促进基于结构的设计等方面发挥关键作用。



论文信息



S.B. Fang, R. Wei, Y.L. Cui, et al. Advancing AI protein structure prediction and design: From amino acid “bones” to new era of all-atom “flesh”[J]. Green Carbon 2(2024)209-210.



论文下载



Advancing AI protein structure prediction and design From amino acid “bones” to new era of all-atom “flesh”.pdf



论文网址



https://doi.org/10.1016/j.greenca.2024.05.001



供稿丨孙瑨原 博士 

中国科学院微生物研究所

指导崔颖璐 副研究员

中国科学院微生物研究所

编辑丨Green Carbon期刊中心

审核丨Green Carbon期刊中心






Green Carbon


关于

Green Carbon

1


Green Carbon(绿碳,ISSN 2950-1555)是由中国科学院青岛生物能源与过程研究所创办、与科爱集团联合出版的开放获取英文学术期刊,聚焦绿色碳资源的开发与利用、化石碳资源的绿色转化与利用、排放碳资源的固定与利用,以及多尺度碳循环的分析与管理等主题,推动可持续发展领域的科技创新,打造多学科融合的国际一流学术交流平台。期刊将发表原创性研究论文、综述类文章、社论、简短通讯、观点和专题类文章。

  • 中国科技期刊卓越行动计划高起点新刊
  • CAS数据库收录
  • 2025年底前稿件处理费用(APC)由编辑部承担,作者无需支付任何费用
  • 对已接收文章免费进行语言润色服务
  • 黄金开放获取期刊,已出版论文可以免费全文下载

    https://www.sciencedirect.com/journal/green-carbon

  • 优秀文章提供免费精准推送服务


官方网站


https://www.keaipublishing.com/en/journals/green-carbon/


联系方式


greencarbon@qibebt.ac.cn




欢迎访问期刊主页






扫码进入文章投稿






编辑部联系方式



邱翔  博士

电话:(0532)58261072;15640526517

邮箱:qiuxiang@qibebt.ac.cn;

greencarbon@qibebt.ac.cn

路帅敏 博士

电话:(0532)58261072;13210205278

邮箱:lusm@qibebt.ac.cn;

greencarbon@qibebt.ac.cn

地址:山东省青岛市崂山区松岭路189号,266101


长按关注

欢迎您的投稿!


往期目录

1卷1期

1卷2期

2卷1期

2卷2期

2卷3期







Green Carbon
中国科学院青岛能源所主办的国际学术期刊,以创办绿碳领域国际一流学术期刊为目标,聚焦绿色碳资源的开发与利用、化石碳资源的绿色转化与利用、排放碳资源的固定与利用以及多尺度碳循环的分析与管理等主题,打造跨学科融合的学术交流平台和学术共同体。
 最新文章