蛋白质是生命的重要组成部分,预测它们的 3D 结构使研究人员能够深入了解其功能和作用。AlphaFold 是由 Google DeepMind 开发的人工智能系统,可根据蛋白质的一级氨基酸序列预测蛋白质的 3D 结构。它经常达到与实验相媲美的精度。
AlphaFold 的优势和局限性介绍性指南
蛋白质是生命的基础组成部分。每个蛋白质分子都有一个独特的 3D 形状,决定了它的功能,例如催化(加速)生化反应或使肌肉收缩。准确预测蛋白质的结构使我们能够更好地了解其功能和作用。
1
回想一下蛋白质折叠问题的重要性。
2
评估 AlphaFold2 背后的基本概念,以及为什么它被认为是蛋白质结构预测的重大突破。
3
描述 AlphaFold 结构预测的优势和局限性。
什么是蛋白质,我们如何知道它们的结构?
蛋白质是我们所知的对生命至关重要的大分子。如果检查任何生物过程,会发现蛋白质参与其中并经常发挥关键作用。蛋白质的结构与其功能密切相关,但确定它们的 3D 结构非常困难。
什么是蛋白质?
每个蛋白质分子由一条或多条链组成,这些链是通过连接称为氨基酸的小分子制成的。氨基酸残基沿每条链按特定顺序排列。这些链折叠成独特的 3D 形状,由氨基酸之间的相互作用决定。
蛋白质结构和蛋白质功能之间存在很强的关系。蛋白质的 3D 形状决定了它可以执行的动作。
弄清楚蛋白质结构就像打开一个黑匣子。揭示 3D 结构使科学家能够确定蛋白质究竟是如何履行其职责的。
什么是蛋白质,我们如何知道它们的结构?
理论上,仅从蛋白质的氨基酸序列就可以预测蛋白质的 3D 结构。然而,由于可能的构象数量庞大,这极具挑战性。人工智能非常适合这个问题。
蛋白质折叠问题:从序列预测蛋白质结构
蛋白质折叠问题包括两个相互关联的挑战:理解蛋白质链折叠的过程和准确预测蛋白质的最终折叠结构
1972 年,克里斯蒂安·安芬森 (Christian Anfinsen) 分享了诺贝尔化学奖,因为他提出,在其标准生理环境中,蛋白质的结构由构成它的氨基酸序列决定。这后来被称为 Anfinsen 的教条。
这个假设很重要,因为它表明我们应该能够根据蛋白质的序列可靠地预测蛋白质的结构。此后几十年的结构生物学研究表明,Anfinsen 在很大程度上是正确的。
计算挑战
然而,事实证明,从序列预测蛋白质结构并不是那么简单。这是因为第二个概念称为 Levinthal 悖论。
在 1960 年代,Cyrus Levinthal 表明蛋白质链理论上可以采用非常多的可能构象。如果一种蛋白质要探索所有这些,那将需要难以理解的时间,与宇宙的寿命相当。
尽管如此,Anfinsen 的发现激发了人们寻找一种高效的系统,该系统可以仅根据蛋白质的氨基酸序列可靠地识别蛋白质最可能的天然结构。虽然具有挑战性,但这至少在理论上是可能的。
人工智能的作用
这就是人工智能的用武之地。现代机器学习方法可以帮助识别大型数据集中的复杂关系,从而能够预测蛋白质结构。
至关重要的是,Anfinsen 的教条意味着预测蛋白质的折叠状态不一定需要了解折叠过程。也就是说,应该有可能预测蛋白质的最终 3D 形状,而无需预测导致该形状的运动顺序——避开了 Levinthal 悖论。
AlphaFold 如何解决结构预测问题
AlphaFold 的训练数据来自蛋白质数据库 (PDB):一个免费的数据库,包含所有经过实验确定并公开可用的大分子结构。它目前有超过 215,000 个条目。(了解有关 PDB 的更多信息)。
Google DeepMind 研究人员使用来自 PDB 的蛋白质结构及其相应的序列来训练 AlphaFold 神经网络。
AlphaFold 获取一种新型蛋白质的氨基酸序列,并将其与其他类似蛋白质的序列比对。这确定了序列中在进化过程中趋于一起变化的部分,因此很可能是相互作用的,因此在蛋白质的 3D 结构中物理上很接近。在几分钟内(对于较大的蛋白质或复合物,则需要数十分钟),AlphaFold 会预测序列的 3D 结构。AlphaFold可能会也可能不会使用已知的蛋白质结构作为模板(有关详细信息,请参阅“验证和影响”和“输入和输出”部分)。
至关重要的是,AlphaFold 还提供置信度指标,例如 pLDDT、pTM 和 PAE。如果不确定结构的某个部分,它将以置信度分数的形式告诉,从而进行批判性解释
蛋白质是我们所知的对生命至关重要的大分子。如果检查任何生物过程,会发现蛋白质参与其中并经常发挥关键作用。蛋白质的结构与其功能密切相关,但确定它们的 3D 结构非常困难。
蛋白质是我们所知的对生命至关重要的大分子。如果检查任何生物过程,会发现蛋白质参与其中并经常发挥关键作用。蛋白质的结构与其功能密切相关,但确定它们的 3D 结构非常困难。
AlphaFold 可以做什么
AlphaFold2 最初是在单条蛋白质链上训练的,因此它擅长预测它们的结构。后来,AlphaFold2 的延伸被专门训练用于预测蛋白质-蛋白质复合物:这个版本现在被称为 AlphaFold-Multimer (Evanset al., 2022)。它可以预测由同一链的多个拷贝组成的蛋白质复合物(同源多聚体,如二聚体和六聚体)的结构,以及由几个不同蛋白质链组成的蛋白质复合物(异源多聚体)的结构。有关具体限制,请参阅“使用 AlphaFold2 访问和预测蛋白质结构”部分。
至关重要的是,AlphaFold2 并不简单地复制已知的蛋白质结构。独立研究人员表明,AlphaFold2 可以预测 PDB 中以前从未见过的结构,即新型蛋白质折叠(Bordin等人,2023 年;Barrio-Hernandez等人,2023 年;Durairaj et al., 2023)。
评估指标
pLDDT:了解局部置信度
预测的局部距离差值检验 (pLDDT) 是局部置信度的每残差度量。它从 0 到 100 进行缩放,分数越高表示置信度越高,通常预测越准确。
pLDDT 测量对局部结构的置信度,估计预测与实验结构的一致性。它基于局部距离差值测试 Cα (lDDT-Cα),该分数不依赖于叠加,而是评估局部距离的正确性(Mariani et al., 2013)。
在此基础上,高于 90 的 pLDDT 将被视为最高精度类别,其中主链和侧链通常都以高精度预测。相比之下,高于 70 的 pLDDT 通常对应于正确的主链预测,但一些侧链错位。
pLDDT 评分沿蛋白质链可能有很大差异。这意味着 AlphaFold2 对蛋白质某些部分的结构非常有信心,但对其他区域的信心较差。这为用户提供了预测结构的哪些部分可能是可靠的,哪些部分不太可能是可靠的(Guo et al., 2022)。
AlphaFold2 将低置信度分配给蛋白质区域的两类原因。可能是该区域天生高度灵活或本质上无序,在这种情况下,它没有任何明确定义的结构。或者,该区域可能具有可预测的结构,但 AlphaFold2 没有足够的信息来自信地预测它。这两种情况通常都会导致 pLDDT 低于 50。
值得注意的是,AlphaFold2 可能对蛋白质的球状结构域的结构非常有信心,但对结构域之间的接头结构不太有信心。这是因为 AlphaFold2 在预测球状域的结构时可以使用更多信息。这些域通常是守恒的,即它们在进化过程中的变化较小。相比之下,连接者更有可能是自然可变的、结构较少且更灵活。无法预测此类自然非结构化区域的特定结构,因此 AlphaFold2 将其预测的置信度较低。
大多数固有无序区域 (IDR) 总是无序的。然而,在一些 IDR 中,蛋白质在生理条件下在其未结合状态下缺乏明确的结构,但在与其天然大分子伴侣相互作用时发生结合诱导的折叠。在这些不常见的情况下,AlphaFold2 显示出预测具有高 pLDDT 分数的折叠状态的趋势(Alderson等人,2023 年;Piovesan et al., 2022)。
PAE:衡量 AlphaFold2 预测的全局置信度
预测对齐误差 (PAE) 是衡量 AlphaFold2 对预测结构中两个残基的相对位置的置信度的指标。PAE 定义为如果预测结构和实际结构在残基 Y 上对齐,则残基 X 处的预期位置误差以 Ångströms (Å) 为单位。
因此,PAE 实际上是衡量 AlphaFold2 对结构域排列良好以及结构域在预测结构中的相对位置是否正确的置信度的指标。
来自两个不同域的两个残基之间的低 PAE 分数意味着低预测误差。这反过来意味着 AlphaFold2 对这些残基的位置充满信心。相反,高 PAE 分数意味着 AlphaFold2 对它们的相对位置没有信心。
忽略 PAE 评分会导致对域相对位置的误解(Guo et al., 2022)。一个例子是 DNA 损伤检查点蛋白 1 的介质 (AlphaFold ID:AF-Q14676-F1)。它的两个域在空间上似乎靠得很近,但 PAE 表明这些域的位置基本上是随机的。
PAE 可以可视化为易于解释的 PAE 图。AlphaFold 蛋白质结构数据库 (AFDB) 中每个预测的蛋白质结构都附有一个 PAE 图。该图是一个 2D 图形,蛋白质残基沿轴运行。在每个正方形中,绿色阴影表示一对残基的预期距离误差,以 Ångströms (Å) 为单位。深绿色磁贴表示预测良好(低误差),而浅绿色磁贴表示预测不佳(高误差)。
PAE 图将始终具有一条从左上角到右下角的深绿色对角线。这表示残基与自身对齐,根据定义,置信度始终很高,因此它没有信息性,可以忽略不计。就相对方向而言,生物学相关信息包含在远离对角线的区域。
如果正在 AFDB 上查看 PAE 图,则可以选择该图的一个区域。AFDB 将突出显示 3D 结构上的相关区域或区域,因此可以检查序列、PAE 图的相应段和结构之间的关系。
AlphaFold-Multimer 中的置信度分数
AlphaFold-Multimer 是该软件的专用版本。它旨在预测蛋白质复合物的结构。AlphaFold-Multimer 提供了两个额外的指标来评估其预测的准确性:预测模板建模 (pTM) 分数和界面预测模板建模 (ipTM) 分数。
两者都来自一种称为模板建模 (TM) 分数的度量。这测量了蛋白质整体结构的准确性,并且对局部不准确相对不敏感(Xu 和 Zhang,2010)。
pTM 是衡量 AlphaFold-Multimer 预测复合物整体结构程度的综合指标。它是预测结构和假设真实结构之间叠加的预测 TM 分数。TM 评分高于 0.5 意味着复合物的总体预测折叠可能与真实结构相似。TM 评分低于 0.5 意味着预测的结构可能是错误的:pTM 评分遵循相同的定义。应谨慎解释 pTM 评分。例如,假设一种情况是,其中一个相互作用的蛋白质较大,并且其结构被正确预测,而较小的伴侣蛋白质被错误预测。复合物的 pTM 评分可能由较大的蛋白质主导,并显示 pTM 评分高于 0.5。
相比之下,ipTM 测量形成蛋白质-蛋白质复合物的亚基的预测相对位置的准确性。高于 0.8 的值表示有置信度的高质量预测,而低于 0.6 的值表示预测可能失败。介于 0.6 和 0.8 之间的 ipTM 值是一个灰色区域,预测可能是正确的,也可能是错误的。这些值假设建模具有多个回收步骤,因此预测过程达到一定程度的收敛。在蛋白质-蛋白质相互作用的大规模筛选中,通常会使用针对预测速度优化的设置,例如很少或没有回收步骤。在这种情况下,已使用低至 0.3 的 ipTM 阈值进行初步筛选;但重要的是,所有 ipTM 评分高于 0.3 的蛋白质对随后都进行了额外的检查(例如 Weeratunga等人,2023 年)。无序区域和 pLDDT 评分低的区域可能会对 ipTM 评分产生负面影响,即使复合物的结构被正确预测。
ipTM 可能比 pTM 对用户更有用。这是因为亚基相对位置的预测质量和整个复合物预测的质量是高度相互依赖的:如果亚基的相对位置是正确的(如高 ipTM 分数所反映),用户可以预期整个复合物也是正确的。
在实践中,对多聚体预测的总体置信度应基于所有指标的组合,包括 pTM 和 ipTM 以及 pLDDT 和 PAE。
AlphaFold 的范围
生物大分子,如蛋白质和核酸,很少单独工作。相反,它们会形成大型复合物来执行复杂的任务,例如光合作用。至关重要的是,这些复合物通常包括称为配体和结合离子的小分子。这些分子增强复合物的功能,例如通过帮助进行化学反应或调节大分子蛋白质的活性。此外,许多蛋白质和核酸在其自然生命周期中会进行化学修饰,例如通过磷酸化或糖基化。这种修改通常调节它们的功能。
为了充分了解细胞功能,我们需要包括所有这些分子和修饰的完整生物复合物的准确结构。
AlphaFold 2 已成功预测蛋白质和蛋白质-蛋白质复合物的结构。这表明有可能在单个深度学习框架内准确预测包含更广泛生物分子(包括配体、离子、核酸和修饰残基)的复合物的结构。
AlphaFold 3 可以准确预测包含蛋白质数据库中存在的所有分子类型的复合物的结构,水分子除外。AlphaFold 3 可处理蛋白质与 DNA、RNA、小分子配体和离子的复合物;这些结构可以包括蛋白质的翻译后修饰(包括糖基化)和核酸的化学修饰。
AlphaFold 3 还可以预测单分子的结构,例如蛋白质单体、单链和双链 DNA 以及单 RNA 链。
AlphaFold 3 的性能大大优于以前专注于一项任务的一流方法。它可以更准确地预测蛋白质和蛋白质-蛋白质复合物的结构,特别是抗原-抗体复合物。
输入
AlphaFold 3可以接收多种序列,包括蛋白质、DNA和RNA序列。小分子配体可以使用简化的分子输入行表示系统(SMILES)字符串指定,而离子、糖和化学修饰的氨基酸和核苷酸则使用wwPDB化学成分字典(CCD)代码。与AlphaFold 2类似,AlphaFold 3在后台使用多序列比对(MSA)作为输入,RNA链和蛋白质均包括在内。此外,它可能会使用蛋白模板结构,调整这些输入可以更改预测结果,例如生成不同的结构状态。
AlphaFold 3使用随机种子初始化结构预测运行,这些种子可以自动生成或明确指定。但对于配体、离子和化学修饰等有一定限制。
输出
AlphaFold 3输出蛋白质或复合物的预测结构,返回所有原子坐标,格式为mmCIF。默认情况下,AlphaFold 3使用一个种子进行五次扩散采样,生成五个预测结构。此外,它提供多种置信度指标以帮助评估预测结果:
- 预测的局部距离差分测试(pLDDT):反映特定原子位置的置信度。
- 预测对齐误差(PAE)得分及PAE图:显示AlphaFold对结构域、分子链和其他实体(如配体、离子)相对位置的置信度。
- 预测的TM(pTM)分数:反映整体预测结构的准确性。
- ipTM分数:衡量复合物中一个组分相对于其他组分的预测准确性。
- 每链pTM和每链对ipTM:单个链或链对的置信度。
AlphaFold 3的局限性
AlphaFold 3可建模化学上不同的实体,但也有局限。主要问题是其预测静态结构,而无法捕捉生物分子系统在溶液中的动态行为。尽管可以通过调整MSA和使用多个种子增加结构预测的多样性,但这不能保证获得目标分子的其他结构状态。
某些情况下,模型的构象状态可能不准确。例如,E3泛素连接酶在未结合配体状态下通常是开放构象,而AlphaFold 3可能预测其为闭合构象。
AlphaFold 3对于缺乏已知序列同源体的孤儿蛋白预测存在挑战。在此情况下,通过生成大量预测并对其进行排序可提高准确性。值得注意的是,AlphaFold 3偶尔会预测“幻觉”结构(即错误的有序结构),这些低置信区域通常在pLDDT得分低于50的情况下被标记为幻觉部分。
在小分子构象的预测上,AlphaFold 3可能不总是符合手性要求,其在PoseBusters基准测试中的手性违例率为4.4%。
AlphaFold Server的功能
AlphaFold Server是由AlphaFold 3支持的网络服务,能够高精度地预测包含任意组合的生物分子复合物结构,包括蛋白质、DNA、RNA、配体、离子及蛋白质和核酸的化学修饰。
图像:AlphaFold Server用户界面的屏幕截图,用户正在准备模拟一个包含钙和钠离子的蛋白质-DNA复合物。
可以使用AlphaFold Server来模拟以下类型的生物分子:
- 蛋白质
- DNA
- RNA
- 生物学上常见的配体(例如ATP和叶绿素)
- 生物学上常见的金属离子和氯离子
- 生物学上常见的氨基酸残基翻译后修饰(PTMs),包括磷酸化和瓜氨酸化
- 包括分支糖链的蛋白质糖基化,含有常见的糖类
- 生物学上常见的DNA和RNA的化学修饰,如甲基化和甲酰化
模型结构可以包含多个蛋白质、核酸、配体和离子。此外,每条蛋白质和核酸链可以包含任意数量的化学修饰。AlphaFold Server会尝试模拟输入作业中所有分子之间的相互作用。
每个建模作业的限制为5,000个token,较大的结构计算需求较高。一个token相当于:
- 一个氨基酸残基或一个核苷酸
- 配体、离子或化学修饰的氨基酸残基或核苷酸中的一个原子
大分子的最小序列长度为4个氨基酸或4个核苷酸,允许模拟肽复合物。除了总体5,000token限制外,单个蛋白质和核酸链的序列长度不设上限。
使用 AlphaFold 服务器生成预测的逐步指南
AlphaFold 服务器的输入指定非常简便:
- 蛋白质:输入单字母氨基酸序列,或粘贴 FASTA 文件的内容。若包含多个蛋白质序列,可将它们整合到一个 FASTA 文件中(见下方)。仅支持标准单字母代码,不支持非标准代码如 B、J、O、U、X 和 Z。
- DNA:输入标准(5’-3’)格式的单字母核苷酸序列,仅使用标准代码,即 A、C、G 和 T。
- RNA:同样输入标准(5’-3’)格式的单字母核苷酸序列,使用 A、C、G 和 U。
- 配体、离子及翻译后修饰:从列表中选择所需的实体。
- 实体副本:若有多个相同的实体(如同源多聚蛋白),请在相应字段中设置副本数量。
- 大型复合体:若需要模拟较大的复合体,需填入多个序列。可以通过粘贴 FASTA 文件的内容来快速完成。打开包含所需序列的 FASTA 文件,用任意文本编辑器复制内容,然后粘贴到 AlphaFold 服务器的文本输入框中。服务器会自动识别 FASTA 格式,并填入多个实体类型,还将识别蛋白质、DNA 和 RNA 序列并分配正确的实体类型。
每个实体右侧的垂直省略号(三点)菜单可提供不同选项,具体取决于实体类型:
- 所有实体类型:可以删除当前实体。
- 蛋白质:可以添加翻译后修饰(PTM)。选择 “+ PTMs” 选项将打开一个对话框,显示蛋白链的序列。点击希望添加修饰的残基,并从列表中选择支持的修饰。可逐个向不同残基添加多种修饰。完成后,通过相应按钮保存修饰。请注意,添加并保存修饰后,将无法编辑蛋白质序列。
- DNA 和 RNA 链:可以向对应的核苷酸添加化学修饰。添加方式与蛋白质中的相同。
- 单链处理:AlphaFold 服务器将“DNA”和“RNA”视作单链。这便于添加化学修饰,因为双链 DNA 的两条互补链可能需要不同的修饰。
- 双链 DNA:先添加第一个 DNA 实体并填入序列(复制粘贴或手动输入均可)。然后从垂直省略号菜单中选择“+ Reverse complement”选项,以添加互补链,该链将被作为一个独立的 DNA 实体。
可以更改实体的顺序。只需使用左侧的灰色两列三点图标拖动实体,直到获得正确的顺序。AlphaFold 服务器通常会遵循的输入顺序,因此在建模的结构和输出的 mmCIF 文件中应该能够找到相同的顺序。然而,有一个例外:mmCIF 标准规定,配体和离子必须列在最后,因此 AlphaFold 服务器可能会重新排列输入以将它们放在最后。要清除所有输入,只需使用右上角的“清除”按钮。
可以保存草稿任务,稍后进行修改或运行。如果按下“保存任务”按钮,系统会要求输入任务名称并保存它。保存的任务会显示在历史记录中,与运行中的和已完成的任务一起显示,并由相应的图标标记。为方便访问,可以单击历史记录列表顶部的类别以过滤某些类型的任务,例如“已完成”或“已保存草稿”。保存任务在用完每日任务配额时可能会很有帮助:可以保存多个任务并在第二天任务配额更新后运行它们。
准备好所有输入后,按下“继续并预览任务”按钮。该对话框允许指定一个有意义的任务名称;如果不指定,系统将使用当前日期和时间。还可以在自动和手动定义的种子值之间切换。检查所有输入是否正确。还可能需要注意剩余任务数,以便更好地规划的建模工作。最后,按“确认并提交任务”按钮。剩余任务数将减少一个,任务会出现在历史记录列表中,显示为正在进行中的任务。
通常,一个任务会在几分钟内完成。例如,预测一个包含 1000 个标记的结构通常需要 3-6 分钟,而预测一个包含 3600 个标记的结构则需要 6-8 分钟。然而,服务器负载过重可能会导致延迟。当任务完成后,其图标会发生变化,可以双击查看结果。
任务完成后,点击任务行可进入结果页面。结果页面显示:
- 结构的主链可视化图,按 pLDDT 分数上色
- PAE 图
- 总体 pTM 分数
- 如果结构是复合物,还会显示总体 ipTM 分数
- 关于任务输入的信息,包括随机种子值
- “下载”和“克隆并重复使用”按钮
可以将所有建模结果下载为一个zip文件,其中包含mmCIF格式的预测结构的原子坐标以及关于置信分数的JSON文件。
AlphaFold服务器的高级功能
AlphaFold服务器主要设计为一个易于使用的工具,旨在为生物学家(包括没有计算方法经验的用户)解锁生物分子建模的能力。然而,AlphaFold服务器确实为高级用户提供了额外的选项和自动化可能性。
可以使用JSON文件而非标准的网页界面来指定AlphaFold服务器任务。这可以用于自动生成任务,例如蛋白质-蛋白质相互作用的计算筛选。可以通过上传JSON文件一次导入多达100个草稿任务,但请注意,在历史记录中最多只能保存500个草稿任务。
要创建JSON文件,请参考相关文档和示例。然而,无需从头开始。每个从AlphaFold服务器下载的建模结果zip文件中包含一个JSON文件,命名为fold__job_request.json,其中包含通过网页界面指定的所有任务输入。这些文件为生成新任务提供了便利的起点,可以在标准文本编辑器或编程系统(如Google Colab笔记本)中轻松编辑。
准备好JSON文件后,点击“上传JSON”按钮进行上传。导入的任务将显示为任务历史记录中的已保存草稿,可以点击任务进行进一步编辑或运行。请注意,通过JSON文件指定的任务与通过网页界面指定的任务一样,都会使用的任务配额。
与旧系统相比,AlphaFold 3对于抗原-抗体复合物等难以预测的目标通常产生更准确的结构预测。然而,要达到最高的精度通常需要对潜在空间进行广泛采样,即使用不同的随机种子生成和随后排名多个预测。在这种情况下,我们观察到即使多达1000个种子也会使预测有所改进。然而,通常使用20个种子就足以获得具有合理置信度和精度的预测。
目前,AlphaFold服务器为每个任务仅运行一个种子。如果想要采样多个种子,则必须运行多个相同的任务并比较其置信度分数(例如总体pTM/ipTM)以选择最佳结果。使用任务克隆可以轻松实现这一点。在历史记录中选择任务的垂直省略号菜单中的“克隆并重复使用”选项,将其带入任务编辑器,然后提交任务多次而不进行任何更改。请确保在“确认并提交任务”对话框中的种子选项设置为“自动”。或者,如果选择手动指定种子,请为每次重复任务设置不同的种子。
在科学研究中,通常需要重现之前运行的任务或他人(包括已发表的结果)运行的任务。可以在AlphaFold服务器上轻松实现这一点。使用相同的种子值和相同的输入运行模型将生成相同或高度相似的预测结构。重现任务的确切种子值显示在结果页面上,并保存在fold__job_request.json文件中(可以在下载的zip文件中找到)。
同样,如果希望他人重现的建模结果,最简单的方法是共享fold__job_request.json文件:该文件包含重现所需的所有信息,可直接通过“上传JSON”按钮提交到AlphaFold服务器。
目的:
提供有关如何解释 AlphaFold 3 所做的结构预测的实用指导(通过 AlphaFold 服务器)。
关键信息:
除了预测结构外,AlphaFold 3 还提供一系列置信度指标,使能够评估预测的准确性。置信度指标类似于 AlphaFold 2 使用的指标。然而,由于 AlphaFold 3 可以预测多分子复合物的结构,因此还需要考虑其他因素。
AlphaFold 服务器提供的输出
AlphaFold Server 为每个作业生成 5 个预测。(从技术上讲,每个种子有 5 个扩散样本,但目前每个作业运行 1 个种子。
排名靠前的预测将显示在结果页面上。使用 ranking_score 指标对预测结构进行排序。它使用了整体结构的两种置信度度量(pTM 和 ipTM),但也包括惩罚冲突并鼓励无序区域没有假螺旋的术语。这些额外的术语意味着 ranking_score 只应用于对结构进行排名。
所有 5 个样本及其相关的置信度都可以作为 zip 文件下载。这包括:
五个名为 fold__model_cif 的 .cif 文件,其中 “
” 是预测结构的秩。结构体从 0 到 4 进行排名,其中 0 的置信度最高。.cif 文件包含 mmCIF 格式的预测结构。它们可以在任何分子查看器(如 PyMOL 或 ChimeraX)中查看。
五个名为 fold__summary_confidences_.json 的 .json 文件,其中 “
” 是预测结构从 0 到 4 的等级。这些.json文件包含预测的置信度指标的摘要(有关置信度指标的更多详细信息,请参阅下文)。
五个名为 fold__full_data_.json 的 .json 文件,其中 “
” 是预测结构从 0 到 4 的等级。这些.json文件包含预测的详细置信度指标,例如完整的 PAE 数据。
名为 fold__job_request.json.这包含建模作业的输入,可用于重新运行作业)。
JSON 是一种基于文本的格式,因此它既是可读的,也是机器可读的。可以使用任何文本编辑器检查 JSON 文件,或使用 Python 等编程系统来读取和可视化输出。
fold__summary_confidences_.json 文件内容的示例,显示多个置信度指标。
JSON 文件中的一些指标非常简单:例如,“ptm” 记录包含总体 pTM 分数。但是,其他一些指标更针对高级用户。
pae:一个方形 [num_tokens, num_tokens] 数组。元素 (i, j) 表示当使用标记 i 的帧将预测与地面实况对齐时,标记 j 位置的预测对齐误差 (PAE)。
atom_plddts:一个 [num_atoms] 数组。元素 i 表示预测中原子 i 的预测局部距离差值检验 (pLDDT)。
contact_probs:一个方形 [num_tokens, num_tokens] 数组。元素 (i, j) 表示标记 i 和标记 j 接触的预测概率,其中“接触”定义为每个标记的系统定义代表性原子之间的最大距离为 8Å(。
token_chain_ids:一个 [num_tokens] 数组,表示预测中每个代币对应的链 ID。
atom_chain_ids:一个 [num_atoms] 数组,指示预测中每个原子对应的链 ID。
ptm:0-1 范围内的标量,表示整个结构的预测 TM 分数。
iptm:0-1 范围内的标量,表示结构中所有界面的预测界面 TM 分数(预测界面的置信度)。
fraction_disordered:0-1 范围内的标量,表示预测结构的无序部分,以可访问的表面积衡量。
has_clash:布尔值,即是/否值,表示结构是否具有大量冲突原子(超过链的 50%,或具有超过 100 个冲突原子的链)。
ranking_score:范围从 -100 到 1.5 的标量,可用于对预测进行排名。它将 ptm、iptm、fraction_disordered 和 has_clash 组合成一个数字,公式如下:
0.8 × ipTM + 0.2 × pTM + 0.5 ×障碍 − 100 × has_clash
chain_pair_pae_min:PAE 值的方形 [num_chains, num_chains] 数组。数组的元素 (i, j) 包含仅限于链 i 的行和仅限于链 j 的列中的最低 PAE 值。已经发现这与两条链是否相互作用相关,因此它可以用来区分相互作用和非相互作用的分子。由于这些值是根据代币计算的,因此该指标还包括小分子和化学修饰的残基和核苷酸。
chain_pair_iptm:一个方形 [num_chains, num_chains] 数组,表示成对的 ipTM 分数。数组的非对角线元素 (i, j) 包含仅限于链 i 和 j 中的标记的 ipTM。对角线元素 (i, i) 包含仅限于链 i 的 pTM。该数组可用于根据知道相互作用的两条链之间的特定界面的准确性对结构的预测进行排序,例如抗体-抗原相互作用。由于这些值是根据代币计算的,因此该指标还包括小分子和化学修饰的残基和核苷酸。
chain_ptm:一个 [num_chains] 数组。元素 i 包含仅限于链 i 的 pTM。当最感兴趣的是单个链的结构,而不是其跨链交互时,这可用于对单个链的预测结构进行排名。
chain_iptm:一个 [num_chains] 数组,给出每个链和所有其他链之间的接口的平均置信度 (ipTM)。这可用于对特定链的预测结构进行排名,当关心该链与复杂体的其余部分结合的位置,并且不知道希望它与哪些其他链交互时。配体通常就是这种情况,系统将每个配体视为一个单独的链。
具有完整输出的 JSON 文件包含以下信息:
具有完整输出 (fold__full_data_.json) 的 JSON 文件可以与最新版本的 ChimeraX 或 PAE 查看器等工具一起使用。通过这种方式,可以可视化动态 PAE 图,并将 PAE 数据与存储在 fold__model_.cif 文件中的预测结构进行匹配
如何评估 AlphaFold 3 预测的质量
所有预测的结构都应根据置信度分数进行批判性解释。
AlphaFold 3 使用与 AlphaFold 2 相同的置信度分数,但稍作修改。至关重要的是,现在计算的是token的置信度分数,而不是像 AlphaFold 2 那样计算氨基酸。标记的使用对于使 AlphaFold 3 能够预测包含多种类型分子的异质复合物至关重要
由于 AlphaFold 3 针对复合物,因此考虑那些反映预测交互置信度的指标更为重要。这些指标包括亚基间接触的 pTM、ipTM、成对 ipTM 和 PAE。
聚合物的 AlphaFold 3 置信度分数会受到非聚合物环境(如离子或稳定配体)的重大影响。如果在仅聚合物的环境中研究某物(例如蛋白质-蛋白质相互作用),那么在适当的情况下添加非聚合物背景以提高置信度分数可能很重要。AlphaFold 2 没有此特性,因为它仅与蛋白质一起训练和使用。
AlphaFold 3 中的 pLDDT 分数
pLDDT 是 AlphaFold 3 在结构预测中置信度的每原子估计值。
它使用 0-100 的等级,其中值越高表示置信度越高。值高于 90 表示置信度高;值低于 50 表示预测结构的相应部分可能错误。这适用于 AlphaFold 3 考虑的所有类型的分子。
与 AlphaFold 2 一样,pLDDT 分数保存在包含预测结构的 mmCIF 文件的 B 因子字段中。这意味着可以使用 PyMOL 等分子图形程序根据 pLDDT 分数对预测的结构进行颜色编码。
AlphaFold 服务器显示使用 pLDDT 分数着色的预测结构。这与 AlphaFold 数据库使用的颜色编码一致。
AlphaFold 3 为多种类型的分子(如核苷酸和配体)提供 pLDDT 评分。这与 AlphaFold 2 形成鲜明对比,后者仅提供氨基酸的 pLDDT 评分。
值得注意的是,AlphaFold 3 计算结构中每个原子的 pLDDT 分数。这与 AlphaFold 2 不同,后者计算每个氨基酸残基的 pLDDT。
pLDDT 旨在预测仅考虑与聚合物的距离的修改后的 LDDT 评分。对于蛋白质,pLDDT 类似于 lDDT-Cα 指标,但它具有更大的粒度,因为它可以随原子变化,而不仅仅是每个残基。对于配体原子,修饰的 LDDT 仅考虑配体原子和聚合物之间的位置误差:它忽略了其他配体原子。对于 DNA 和 RNA,pLDDT 使用更宽的 30 Å 半径,而不是通常的 15 Å。
AlphaFold 3 中的 PAE 分数
预测对齐误差 (PAE) 是衡量 AlphaFold 3 对预测结构中两个项目的相对位置的置信度的指标。
PAE 值越高,预测误差越大,因此置信度越低,就像 AlphaFold 2 一样。这适用于 AlphaFold 3 考虑的所有类型的分子。
AlphaFold 3 计算成对标记的 PAE,而不是像 AlphaFold 2 中那样计算氨基酸对的 PAE。这使系统能够为结构中存在的所有分子和离子提供 PAE 评分。
对于不同类型的分子,PAE 的计算略有不同。对于蛋白质和核酸,PAE 是相对于由这些大分子的主链原子构建的框架来测量的。对于离子、配体和化学修饰等小实体,使用参考构象中的分子为每个原子构建一个框架,来自其最近的邻居。
如果两个标记的 PAE 较低并且属于不同的实体,例如蛋白质和核酸,则表明实体的这些部分之间存在相互作用。如果对预测某些分子之间的相互作用感兴趣,那么分析这些分子或其部分之间的 PAE 会很有帮助:低 PAE 值表明分子至少某些区域之间存在相互作用,而高 PAE 值表明没有检测到相互作用。PAE 图将帮助直观地了解这一点。
pTM 和 ipTM、每条链分数和成对分数
AlphaFold 3 旨在对包含不同成分的大分子复合物进行建模,因此衡量其预测复合物整体结构的置信度尤为重要。提供了两个值:pTM 和 ipTM 。
与 AlphaFold 2 一样,pTM 评估复合物整体结构的准确性。pTM 现在可用于单个链条以及整个复合物。
同时,ipTM 在整个大分子复合物的背景下测量每个实体的预测精度。ipTM 也可用于复合体中的每对实体:这称为成对 ipTM。
AlphaFold 3 提供的 pTM 和 ipTM 值的解释方式应与 AlphaFold 2 报告的值相同。例如,ipTM 分数高于 0.8 表示可以自信地预测交互。有关更多详细信息,请参阅“AlphaFold Multimer 中的置信度分数”。
pTM 对于小结构和短链的用处较小。这是因为 TM 评分对于较小的分子非常严格,因此当涉及的标记少于 20 个时,pTM 分配的值低于 0.05。对于这些情况,PAE 和/或 pLDDT 可能更能指示预测准确性。
如果目标大分子包含大的无序区域,则会出现进一步的复杂性。与 AlphaFold 2 一样,无序区域会降低 pTM 和 ipTM 评分。因此,如果 pTM 低于 0.5 且 ipTM 低于 0.6,仍然可以正确预测具有大无序切片的复合物的结构。在这种情况下,应该仔细检查 PAE 图。如果大分子有序部分之间的 PAE 较低,则表明这些部分之间可能存在相互作用,而不管总体 pTM 和 ipTM 评分较低。
Swi5 蛋白大部分是非结构化的,除了其可靠预测的 DNA 结合结构域:结构表示上的蓝色椭圆和 PAE 图上的蓝色矩形突出显示了这一点。尽管总体 pTM 和 ipTM 评分较低(分别为 0.27 和 0.42),但可以自信地预测 Swi5 与 DNA 的相互作用 - 根据青色矩形中 PAE 图的相应部分判断。