随着蛋白质设计技术的快速发展,传统的物理建模方法虽然在一定程度上推动了蛋白质工程的发展,但仍然存在一些局限性。相比之下,深度学习技术凭借其出色的预测能力,显著提高了蛋白质设计的速度和成功率。然而,目前的大多数蛋白质设计模型在处理非蛋白质实体时表现仍然较差,限制了其在实际应用中的适应性。为了解决这一问题,由洛桑联邦理工学院(EPFL)和瑞士生物信息学研究所的Matteo教授研究团队开发了CARBonAra,这是一种基于几何Transformer的新型深度学习方法,能够解析蛋白质骨架原子坐标和元素类型,具备上下文感知能力,能够在复杂的分子环境中高效预测蛋白质的氨基酸序列并对序列预测进行优化。最终,实验证明这一模型可以以高成功率生成高热稳定性、具有催化活性的酶序列。近日,该项工作以“Context-aware
geometric deep learning for protein sequence design”为题发表在Nature
Communications期刊上【1】。几何深度学习是一种用于处理复杂几何结构数据的深度学习方法,特别适合于如蛋白质等分子三维结构的分析。与传统的神经网络不同,几何深度学习通过利用几何信息来处理不规则的数据结构,如点云、图形等。在蛋白质设计中,它通过操作原子坐标和几何关系,如距离和向量,从而预测蛋白质的序列和结构。在此基础上,该研究团队提出了基于原子点云的几何深度学习模型CARBonAra。该模型通过解析蛋白质骨架来预测氨基酸序列,利用几何Transformer网络处理局部和全局结构信息。其特点在于可以处理各种分子间的相互作用,包括蛋白质、核酸、小分子、脂类等。这种灵活性使得CARBonAra模型能够在更广泛的蛋白质设计任务中发挥作用。在模型设计方面,CARBonAra通过逐步处理局部邻域(从8个到64个最近邻)来编码原子间相互作用的信息,并更新每个原子的状态(图1.a)。这种处理方式使模型能逐渐从短距离上下文信息,逐步学习到中长距离的上下文信息。最终,模型将原子状态汇聚到残基水平,预测每个氨基酸的置信度。这种方法提高了模型的计算效率,使其更易于适应多种设计场景。CARBonAra的训练数据来自PDB,包含约37万个结构数据,这些数据涵盖了蛋白质与多种分子的复合物,如离子、核酸、小分子和脂类等。在训练过程中,模型只使用蛋白质骨架的原子坐标,并通过添加虚拟Cβ原子来优化几何描述。数据集构造时确保测试数据集不包含与训练集相同的域结构,并且不包含CATH中的任何数据,还过滤掉了相似性超过30%的序列,从而保证了模型的泛化能力。CARBonAra在多个蛋白质设计任务的评估中表现出色,与现有最先进的方法(如ProteinMPNN和ESM-IF1)相比,序列恢复率相当,且计算速度更快(图1.b, c)。图1. CARBonAra的模型结构、其结果与最先进方法的比较。a 该模型将多层几何Transformer应用于骨架支架的坐标和原子元素,并添加虚拟Cβ原子,以预测序列中每个位置的氨基酸置信度,以特定位置的评分矩阵表示。b 不同方法对单体和二聚体序列恢复率的比较,显示中位序列恢复率。c 在单序列模式下,使用不同方法预测序列,AlphaFold预测结构高于不同TM分数阈值的占比。
此外,实验验证表明,CARBonAra在β-内酰胺酶(TEM-1)的工程设计中成功设计出了一系列高热稳定性酶变体,这些变体在70℃下仍然保持了酶活性,表现出较好的热稳定性(图2)。
图2. 野生型TEM-1内酰胺酶和模型设计的内酰胺酶(D1-D4)在不同温度下水解硝基烯烃时的催化活性。
得益于模型逐步处理局部邻域(从8个到64个最近邻)来编码原子间相互作用的信息,CARBonAra的另一个显著优势在于其上下文感知功能,即能够根据具体的分子环境进行序列预测。在蛋白质与其他分子(如DNA或离子)相互作用的情况下,该模型的序列恢复率显著提高。例如,在一个锌依赖的DNA内切酶的测试中,加入锌离子和DNA的结构信息后,序列恢复率从29%提升至52%,图3显示了锌离子的存在对周围氨基酸的预测结果产生较大影响。这表明在分子环境中添加非蛋白质因素可以提升这一模型序列预测的准确性和可靠性。
图3. 离子存在对模型预测结果的影响。A含有两个锌离子的催化口袋(PDB ID:
3LVZ)的BJP−1金属β-内酰胺酶结构。B 不含锌离子时催化口袋的AlphaFold预测结构。C 含有锌离子时催化口袋的AlphaFold预测结构。
4. 总结
CARBonAra模型通过结合几何深度学习和上下文感知技术,能够快速准确地预测蛋白质序列,并为定制功能复杂的蛋白质提供了新的解决方案。实验结果表明:CARBonAra设计的酶变体在高温下保持活性,具有较好的热稳定性(图2)。这不仅具有科学意义,也为酶催化合成和污染物降解等工业应用提供了广阔的前景。CARBonAra模型的性能很大程度上取决于提供的非蛋白分子信息。如果非蛋白分子的结构或相互作用信息不准确,则模型的预测结果可能会受到影响。然而,在实践中多数情况下一些非蛋白信息可能会存在误差或者缺失。因此,如何获取准确的复合物结构以及提高模型的泛化能力仍然是该模型需要面对的问题。参考文献
【1】Krapp, L.F., Meireles, F.A.,
Abriata, L.A. et al. Context-aware geometric deep learning for
protein sequence design. Nat. Commun, 2024.
https://doi.org/10.1038/s41467-024-50571-y.