蛋白质结构预测通常是指根据蛋白质的序列来预测其结构。蛋白质从化学成份上来讲,是一种由20种氨基酸残基所连接而成的线性高分子。不同长度和不同组分的氨基酸排列组合构成了不同的蛋白质。奇特的是,这些不同氨基酸的排列组合往往能够自发形成各自不一样的结构,从而能够执行各种非常不同的功能,包括催化化学反应、支撑结构、传递信息以及作为分子马达等。
已知的蛋白质功能超过1万种。结构对理解这些功能的发生机制以及设计药物来干预蛋白质的功能至关重要,获得蛋白质原子精度的结构是生物学研究和生物医药产业的关键基础。在过去60多年里,全球结构生物学家共同努力,通过使用X-射线衍射、核磁共振、冷冻电镜等多种实验手段,也仅解析了略超1万多个非冗余的蛋白质的结构[1],这远远少于有记录的2亿条蛋白质的序列[2]。
尽管实验技术和数据计算分析能力经过了多年的提高,每个新蛋白质结构的测定依然费事耗力,而且十分昂贵,因此完全依赖实验手段来解析所有的蛋白质的结构是永远不可能完成的工程。另外,自从Haber等[3]发现蛋白质结构是自由能能量最低的构象并且能够自发折叠,计算生物学家一直努力发展计算方法,尝试以远低于实验手段的成本,从蛋白质的序列出发,预测其结构。结合蛋白质结构预测与实验解析以获得所有蛋白质原子精度的结构,是这一方向长期的奋斗目标。
如图1所示,最早的蛋白质结构预测是通过同源结构作为模板建模,这是基于一个有大量数据支持的假设:进化过程中同属于一个祖先(家族)的序列有类似的功能和结构。因此,一旦一个蛋白质结构被解析,该家族里的所有同源序列的结构也基本得以解决。但是,对于那些没有任何结构被解析的蛋白质家族,就必须进行从序列开始的从头预测。
图1 蛋白质结构预测方法的进化简史:从利用同源结构建模、结构碎片组装、无碎片角度/距离约束预测到无能量函数的端到端预测的50多年的历史过程。
从1994年以来,蛋白质结构预测能力的进展一直由坚持了20多年、每两年一次的双盲结构预测评审会(Critical Assessment of Structure Prediction,CASP)来监控。这个评审过程是:在5-7月把结构未知但即将完成实验结构解析的蛋白质序列提供给计算生物学家去预测,预测的结构将以匿名的形式与后来实验解析出来的结构,由不参与比赛的科学家在9—11月进行比较和评审,评审结果在12月举行的会议中公布。
从序列开始的从头预测需要克服两大挑战:一是蛋白质可能的结构空间几乎无穷大,不可能进行广泛的搜索;二是需要一个准确的能量函数来引导这样的搜索。在CASP会议上,长期占主导地位的从头预测方法是基于微小模板(结构碎片)进行组装的方法(如图1所示)。这类方法通过序列的片段来寻找结构数据库内可能匹配的结构碎片以减少结构空间的取样,然后用能量函数进行碎片的组装和结构的优化。
该方法进一步利用一维信息(主链二级结构:预测一个氨基酸是处于螺旋、片条,还是无规线圈的状态)来改进结构碎片的发现,以及二维信息(预测两个氨基酸之间是否接触的状态)来约束不那么准确的能量函数,从而可以得到更准确的三级结构(可以形象地描述为1+2→3)。
但是,在1994—2016年间,对于那些最难预测的蛋白质结构(已知结构数据库内无类似的结构可以用作为模板),GDT打分(Global Distance Test,满分为100分)从5分左右才进步到30多分。如果按这个进度,还需要200多年才能达到85分以上的高精度预测。进度缓慢的一个原因是CASP比赛更注重谁得到了最好的结果,因此偏好已经发展成熟的主流技术,而不是鼓励那些刚刚试水、短时间内还没有超过主流技术的新手段。
其中,有一类非主流方法是无结构碎片、基于蛋白质特定能量函数的从头预测方法(Fragment-free, Folding with Protein-specific Energy Function)。在这个2009年就出现的、无结构碎片的蛋白质结构预测方法里(SPINE XI, Structural Property Prediction with Integrated Neural Networks),蛋白质结构的主链,不再由非连续的三态二级结构来代表,而是通过真实二面角的预测来描述。有了二面角,便可以直接构建主链结构,用预测的角度作为能量函数的约束来预测三级结构。这个方法的准确度在加上距离预测的约束后得到了进一步的改进,成为AlphaFold的前身。
不同的是,AlphaFold完全避开传统能量函数,靠基于预测的角度和距离的概率所转化成的特定能量函数,打破了基于碎片组装方法的精度长期停滞不前的局面,使最难预测的蛋白质结构的平均打分从过去的不及格飞跃到及格(>60分)。
通过对连续二面角的预测来预测结构的“1→3方法”也为端到端的预测埋下了伏笔。这是因为基于主链二面角预测所产生的主链结构可以通过2016年出现的、可微分的损失函数来改进神经网络的参数,从而催生了摆脱能量函数、完全在神经网络内部进行训练和预测结构的、端到端的RGN(Recurrent Geometric Network)的“1→3方法”。
RGN方法被预测角度和距离的NEMO(Neural Energy Modeling and Optimization)方法所改进。而AlphaFold2则在NEMO的基础上直接输入所有同源序列来改进进化信息的提取,并用大数据输入、大模型训练实现了“1+2=3”的全面进步。AlphaFold2在2020年的CASP比赛里,使最难预测的蛋白质结构的平均打分从及格再一次飞跃到优秀(>85分),震动了整个科学界。
上面的分析表明,三级结构预测的进展是建立在预测连续角度和距离的精确度,在AlphaFold出现前,通过深度学习方法的突破及共进化信息的有效提取所带来的大幅度提升,才取得“1+2=3”的、水到渠成的成绩[4]。
尽管AlphaFold2在CASP比赛上取得了历史性的成功,但通过对蛋白质组学上所有蛋白质结构的预测,研究人员却发现有高置信度的预测区域只占整个蛋白质组的一小部分。置信度低的一个可能原因是有些蛋白质区域的内在结构是无序的,还有一个原因是同源序列的缺乏(如抗体、新进化出来的病毒蛋白、物种特有的蛋白)或者同源序列比对的质量低,导致没有足够多、足够准确的进化和共进化信息来指向准确的结构。此外,AlphaFold2假定一个序列只有一个结构,而对于在不同条件下有不同结构的蛋白质以及蛋白质的动态结构都束手无策。
许多蛋白质的单突变能够致病,AlphaFold2也无法预测这些突变可能带来的巨大结构变化,因为它认为所有的同源序列有一样的结构。同时,由于进化上的信息稀少,大多数情况下它对复合物的结构预测也无可奈何。而且,AlphaFold2也无法预测翻译后修饰所带来的结构变化。
不久前出现的AlphaFold3将应用范围扩展到了所有的分子类型及它们的复合物结构。尽管在更大的数据库进行了训练,AlphaFold3并没有比AlphaFold2在蛋白质单体的结构预测上有大的改进。
AlphaFold3在蛋白质复合物结构预测(包括抗体/抗原复合物)、修饰后带来的结构变化的预测上有很大进步,但仍有巨大的改进余地,而对于RNA结构预测仍旧比基于统计能量函数RNA-BRiQ的方法差。由于训练和测试集是基于结构数据库里的上传时间来区分的,数据泄漏问题可能导致AlphaFold3高估了该方法预测的精确度和泛化能力。
如图2所示,对不同时间上传至PDB数据库的抗体/抗原复合物结构进行预测后,AlphaFold3所表现的精确度在训练/测试数据集分割日期前后,上传的蛋白结构上有着明显的差别:被训练集包括的是高精度预测,没有被包括的预测精确度有限。此外,AlphaFold3也没有解决AlphaFold2的问题,如对天然同源序列质量的依赖,无法对少突变、多结构及动态结构进行预测等。而且,AlphaFold3使用的扩散结构生成器偏好塌缩紧凑的结构,导致在置信度应该低的地方产生不存在的“幻想”结构。虽然利用AlphaFold2所预测的结构进行“蒸馏”,部分排除了这些“幻想”结构,但并不能完全排除。
图2 AlphaFold3抗体/抗原复合物的预测:在预测/测试数据分割时间前的抗体/抗原复合物结构能够得到高精度预测(左),而在预测/测试数据分割时间后的抗体/抗原复合物结构(右)与真实结构(灰色)比则差别比较大(右下)。
跟AlphaFold3的结果一样,在2022年年底进行的CASP15比赛中,并没有显示出蛋白质结构预测有新的突破,大多数排名前列的方法利用AlphaFold2 进行结构预测,对天然同源序列进行去噪后处理,以及综合其他方法的预测给部分蛋白质的结构预测带来一定程度的改进。
与AlphaFold系列方法相比,预训练的蛋白质语言模型可以在一定程度上改善对缺乏同源序列或者缺乏高质量同源序列比对的蛋白质结构预测。从理论上讲,良好设计的蛋白质语言模型,可以在预训练过程中捕获到蛋白质大数据中的序列、结构和进化之间的关系,在待预测的序列附近隐式地外推出潜在的进化信息,最终改善缺乏天然同源序列时的蛋白质结构预测。
从实践上看,以ESMFold为代表的此类方法,虽然对没有天然同源序列的单序列蛋白质的预测效果确实比AlphaFold2好,但仍旧不如具备高质量的天然同源序列信息的AlphaFold2的预测,表明语言模型可以补充部分的进化信息,但仍旧不如天然同源序列所带来的进化信息丰富,目前尚不能依靠语言模型来解决所有蛋白质的结构预测这一问题。
不同于静态的单一结构,蛋白质发挥生物学功能通常依赖于构象的动态变化。关于蛋白质结构的动态变化,经典的研究方法主要有分子动力学模拟。分子动力学模拟所产生的构象系综具有重要的科学意义,但因计算的成本较高而受限。
而基于深度学习的AlphaFold和ESMFold等方法虽然对蛋白质单一构象的预测表现出色,但是它们并不能预测蛋白质多样化的构象集合。近期有不少工作在AlphaFold系列方法的基础上,通过对多序列比对的进一步处理,可以利用不同的多序列比对来生成不同的预测结构[5-8]。这类工作的核心思想是多序列比对中包含了蛋白质不同构象的共进化信息,对多序列比对进行调整可以有助于获取不同的构象类型。
另一类基于生成式模型的工作则使用扩散模型和流匹配模型等方法来预测蛋白质的动态构象分布,因此不依赖于多序列比对来生成多个构象。这类方法的核心思想是通过迭代去噪,将蛋白质结构预测转换成蛋白质序列到结构的生成模型。其中使用了流匹配模型的AlphaFLOW与基于AlphaFold的MSA 子采样方法相比,在预测结构的精度和多样性上有显著的优势。但是在总体召回率上的结果表明,AlphaFLOW并未能增加预测构象在实验所得构象集合中的覆盖率,或者说预测的构象变化尚未被实验证实。
AlphaFold的致命伤是对天然同源序列的依赖性。一个可能的解决办法是,利用人工进化的同源序列来代替天然同源序列。人工进化的同源序列,由于进化时间短,突变量少,序列相似度往往高于90%,导致信息量低。AlphaFold用来训练的天然同源序列往往把这些高度同源的序列(>80%)排除在外。
最近,我们研究发现,通过深度突变扫描和结构稳定性来筛选所获取的大量人工同源序列,可以弥补单个高同源序列信息量低的问题[9]。给AlphaFold2输入这些人工同源序列,在进行测试的5个蛋白质里面,有4个实现了高精度预测(<2 Å),3个比基于天然同源序列的预测还要准确。而唯一的一个比基于天然同源序列预测差不少的蛋白质则是由于完全暴露在溶剂中的、结构不稳定的β-发夹所引起的,而利用天然同源序列的AlphaFold2似乎“记住了”晶体堆叠所固定住的β-发夹结构。
人工代替天然同源序列的初步成功显示了光明的未来。因为人工同源序列具有许多天然同源序列无法比拟的优势(如图3所示)。
图3 利用不同来源的同源序列进行结构预测:多量少突变的人工同源序列比少量多突变的天然同源序列具有更好的信噪比,所有序列对应一个结构的可能性大。此外,人工同源序列数量、实验条件、表达系统可控可以适合各种场景的结构测定
首先,人工同源序列的突变数量少,意味着对结构干扰的最小化,所有同源序列对应一个结构的可能性比突变量多的天然同源序列大得多。
其次,天然同源序列由于进化时间长,会出现插入和缺失情况,有可能导致序列比对的错误,增加数据的噪声,且有些突变性质是功能而不是结构所决定的,因此对进化信息的提取也带来噪音。相比之下,通过结构稳定性筛选的人工同源序列有一样长的序列,没有上述的问题,从而有更好的信噪比。
最后,也是最重要的,天然同源序列能够从序列数据库里找到多少就是多少,而人工同源序列,如果需要的话,可以多做几轮的实验来增加数据量。
利用人工同源序列有望解决AlphaFold2和AlphaFold3不能解决的问题。例如,人工同源序列可以产生复合物之间的进化信息,更加有利于准确预测复合物结构;不同环境条件下翻译后修饰所产生的不同结构也可以通过不同实验条件下产生的人工同源序列来预测。
但是,利用人工同源序列只是一个临时的办法。毕竟在真实世界里,每一个蛋白质不需要知道它的家族成员是如何来折叠的。而且,有些单突变会对蛋白质结构的稳定性以及功能的执行带来极大的影响而导致遗传性疾病,这些产生较大结构变化的高度同源序列是依赖同源序列的AlphaFold所无法预测的,因为它假定所有同源序列的结构是一样的。用了这个假定也无法有效地描述结构的动态变化。因此,我们需要一个能够根据单序列来预测蛋白质结构,同时可以预测稳定性的方法。
但是,要实现这个目标,我们还有很长的路要走,靠单序列来预测蛋白质二级结构的准确度还只有74%,远远低于加上进化信息后的效果(86%)[9]。我们并没有足够的少突变对结构带来变化的数据库,也许永远不会有,这些破坏性的、导致结构不稳定的突变是没有对应的结构数据用来训练的。
因此,我们也许必须回到物理学的方法来解决这个问题:蛋白质折叠是在有溶剂存在的情况下,通过折叠自由能的引导所完成的。一种可能的折中方法是基于物理的深度学习方法,从数据中直接发现物理规律,萃取能量函数,这样也许能够避免数据永远不足的情况,特别是在蛋白质/小分子复合物结构这个问题上,毕竟小分子的化学空间远远超过只有20个氨基酸的、蛋白质的化学空间。
参考文献
[1] BURLEY S K, BHIKADIYA C, BI C X, et al. RCSB protein data bank: powerful new tools for exploring 3D structures of biological macromolecules for basic and applied research and education in fundamental biology, biomedicine, biotechnology, bioengineering and energy sciences[J]. Nucleic acids research, 2021, 49(D1): D437-D451.
[2] UNIPROT CONSORTIUM. UniProt:the universal protein knowledgebase in 2023[J]. Nucleic acids research, 2023, 51(D1): D523-D531.
[3] HABER E, ANFINSEN C B. Side-chain interactions governing the pairing of half-cystine residues in ribonuclease[J]. Journal of biological chemistry, 1962, 237(6): 1839-1844.
[4] ZHOU Y Q, LITFIN T, ZHAN J. 3=1+2:how the divide conquered de novo protein structure prediction and what is next?[J]. National science review, 2023, 10(12): nwad259.
[5] DEL ALAMO D, SALA D, MCHAOURAB H S, et al. Sampling alternative conformational states of transporters and receptors with AlphaFold2[J]. eLife, 2022, 11: e75751.
[6] STEIN R A, MCHAOURAB H S. SPEACH_AF:sampling protein ensembles and conformational heterogeneity with Alphafold2[J]. PLoS computational biology, 2022, 18(8): e1010483.
[7] WAYMENT-STEELE H K, OJOAWO A, OTTEN R, et al. Predicting multiple conformations via sequence clustering and AlphaFold2[J]. Nature, 2024, 625(7996): 832-839.
[8] MONTEIRO D S G, CUI J Y, DALGARNO D C, et al. High-throughput prediction of protein conformational distributions with subsampled AlphaFold2[J]. Nature communications, 2024, 15(1): 2464.
[9] HEFFERNAN R, PALIWAL K, LYONS J, et al. Single-sequence-based prediction of protein secondary structures and solvent accessibility by deep whole-sequence learning[J]. Journal of computational chemistry, 2018, 39(26): 2210-2216.
周耀旗,深圳湾实验室资深研究员。曾任布法罗大学副教授、印第安纳大学教授、澳大利亚格里菲斯大学教授。著有畅销书《出发:不断走出舒适区的科研生活之旅》。曾经多次在国际蛋白质/RNA结构预测和功能预测比赛中名列前茅。目前从事基于AI和高通量实验的关于蛋白质/RNA的基础和应用研究。
汤金乐,现为深圳湾实验室系统与物理生物学研究所助理研究员。主要从事蛋白质定向进化与生物大分子的结构预测等方向的研究。研究成果发表在PNAS、Nature Communications、Journal of Medicinal Chemistry等期刊上。
张哲,澳大利亚格里菲斯大学博士(GU-CAS联合培养博士项目),深圳湾实验室系统与物理生物学研究所博士后,现为助理研究员,主要研究方向为RNA和蛋白质相关的结构生物信息学。
詹剑,中国科学技术大学学士和博士,印第安纳大学博士后,澳大利亚格里菲斯大学糖组学研究院研究员,深圳湾实验室系统与物理生物学研究所研究员,现为砺博生物创始人兼CEO。曾获得国际遗传工程机器设计竞赛(iGEM)金奖和最佳基础技术奖。
文章来源 | 前沿科学
编辑 | 白 白
责编 | 远 山
欢迎投稿、建议 | media@szbl.ac.cn