大家好,今天分享的文献是2024年5月发表在Nature上的“ Accurate structure prediction of biomolecular interactions with AlphaFold 3”。
1. 有关作者
DeepMind公司,AlphaFold系列模型的开发者,不仅以其知名的AlphaGo闻名,还在2016年将业务拓展至AI与结构生物学的结合。最近AlphaFold 3成功预测了几乎所有生物大分子的相互作用结构,DeepMind在结构生物学领域取得了突破性进展。
2. 背景介绍
传统上,我们依赖X射线晶体学、核磁共振(NMR)和冷冻电镜技术来解析蛋白质结构。AlphaFold 2的预测精度已与这些传统方法相媲美。而AlphaFold 3不仅能预测蛋白质结构,还通过单一深度学习框架,准确预测了PDB数据库中几乎所有分子的高精结构和相互作用,为药物研发开辟了新路径,有潜力彻底改变传统药物研发方式。
3. 模型架构
AlphaFold 3(AF3)在AlphaFold 2的基础上进行了优化和训练,不仅支持更多种类的分子,还提升了训练效率。它能够预测所有生物大分子之间的相互作用结构,得益于其更灵活和通用的设计:
令牌化方案:AlphaFold 3采用通用的令牌化策略,为每种分子类型(标准氨基酸、核苷酸和其他分子)分配独特标识符。蛋白质的每个氨基酸残基、核酸的每个核苷酸以及其他分子的每个重原子都对应一个令牌,使模型能够处理多种生物大分子。 相对位置编码:AlphaFold 3引入了相对位置编码技术,专门用于同一残基内的令牌,以解决对称性问题,帮助模型更准确地处理具有对称性的分子结构。 输入特征嵌入器:AlphaFold 3设计了复杂的输入特征嵌入器,通过注意力机制对所有原子进行操作,编码化学结构信息,形成统一的表示,使模型能够捕捉不同类型分子的结构和相互作用细节。
AlphaFold 3(AF3)的改进在确保性能的同时,简化了模型架构,使其能够适应各类生物分子。以下是AF3的架构流程:
1. 搜索与构象生成:通过基因搜索在数据库中寻找与目标序列相似的蛋白质或RNA链;模板搜索为单链蛋白质提供模板信息辅助预测;构象生成根据CCD代码或SMILES字符串生成参考构象。
2. 输入嵌入器:将所有分子的化学结构信息编码,并通过注意力机制处理所有原子,形成统一表示(single representation),同时构建对表示(pair representation),这些表示随后输入到调节网络进行循环处理。
3. 调节网络:由模板模块和MSA模块构成,分别编码模板和MSA信息到pair表示中,主要针对蛋白质和RNA序列。生成的pair表示作为输出,也是Pairformer模块的输入。
4. Pairformer模块:接收单表示和调节网络生成的pair表示,构成AF3的主循环,输出经过循环处理的single/pair嵌入。
5. 扩散模块:以single/pair嵌入为输入,进行调节扩散过程,最终输出蛋白质结构。
6. 置信度模块:接收pair表示、单表示和扩散模块的结构位置向量,计算置信度度量,如pLDDT、PAE、PDE等,这些度量帮助评估预测的可靠性,并指导样本排序和结构选择。
4. 模型表现
如图3所示为AF3所进行的一系列结构预测示例,AF3可以根据输入的氨基酸序列、残基修饰、配体SMILES进行结构预测。
4.1 蛋白质-小分子配体结构预测
AlphaFold 3(AF3)在PoseBusters数据集上进行了160项蛋白质-配体结构预测评估。该数据集包含428个蛋白质-配体结构,其中161个结构是在2021年之后加入蛋白质数据银行(PDB)的。为确保评估的准确性,训练了一个独立的AF3版本,避免使用这些新加入的数据。评估结果显示,AF3在配体的均方根偏差(RMSD)小于2埃的成功率上,明显超过了基于结构的Vina和RFAA模型。
4.2 蛋白质-核酸符合物或RNA单体
AF3能够比RoseTTAFold2NA更准确地预测蛋白质-核酸复合物和 RNA 结构(下面的图1c)。我们没有与RFAA比较,因为RFAA精度低于RoseTTAFold2NA。从下图可见,AF3的蛋白-核酸对接成功率远远高于RoseTTAFold2NA算法。
图1c,核酸相关相互作用|PDB数据库中蛋白-RNA,蛋白-双链DNA;CSAP15比赛中RNA单体的成功率。成功率针对复合物是iterface LDDT,单体RNA仅为LDDT。N表示靶点的数量。
此外还评估了CASP15的10个RNA单体,与RoseTTAFold2NA和AIchemy_RNA2对比,AIchemy_RNA2表现出更加优异的性能(上图c,右边),详细结果在拓展图5a。
AF3没有达到人类专家辅助的AIchemy_RNA2的性能 (上图)。单独预测核酸DNA/RNA(没有蛋白质)的准确性LDDT的进一步分析显示在扩展图5b中。
4.3 共价修饰
AF3还可以准确预测共价修饰(键合配体、糖基化、修饰的蛋白残基和核酸碱基) (下图 1c)。修饰包括对任何聚合物残基 (蛋白质、RNA或DNA)的修饰。成功率定义为RMSD < 2 Å。
扩展图6显示了具有共价修饰的蛋白质、DNA和RNA预测结构的示例,包括分析磷酸化对预测的影响。
4.4 蛋白-蛋白/蛋白质单体
在提升建模能力的同时,AlphaFold 3(AF3)相较于AlphaFold-Multimer v2.3,在蛋白质复合物的准确度上也取得了显著提升,具体结果展示在下图c。特别是在抗体蛋白质相互作用的预测上,AF3表现出了明显的改进。此外,蛋白质单体的局部距离差异测试(LDDT)得分也有所提高。
5总结
AlphaFold 3(AF3)作为通用模型,能够预测所有生物大分子的结构,显示出在统一框架内对各种生物分子系统结构的准确预测能力,具有广泛的覆盖率和高度的泛化性。然而,AF3也存在一些局限性:
1. 立体化学局限:AF3在处理手性问题时,即使输入了正确的手性结构,有时仍可能输出违反手性的模型。此外,在蛋白-核酸复合物等情况下,可能产生原子重叠。 2. 幻想问题:从非生成式模型AF2到基于扩散的AF3,引入了无序区域的虚假结构问题。AF3通过使用AF2的预测结果进行蒸馏训练,并引入了增加溶剂接触表面积的惩罚机制来解决这一问题。 3. 动力学问题:AF3主要预测静态结构,无法捕捉生物分子系统在溶液中的动态行为。 4. 特定目标精度问题:在某些情况下,如E3泛素连接酶,AF3可能无法准确模拟其不同状态下的构象,例如可能只预测出与配体结合的封闭状态。 5. 准确性与计算成本:为了提高预测准确性,可能需要生成和评估大量模型结果,导致计算成本显著增加,尤其是在抗体-抗原复合物预测中。
AF3的性能显示,正确的深度学习框架可以减少实现生物学相关性能所需的数据量,并增强已有数据的影响力。未来,开发者计划通过改进结构建模和采用高置信度的实验方法来提高模型的泛化能力。
撰稿:李长令
校对:何磊
编辑:侯佳宁