稿件来源
Taskin
01
前言
近日,Google DeepMind和Isomorphic Labs发布的AlphaFold3再次登上了Nature。该模型称可以准确预测蛋白质、DNA、RNA、配体的结构和相互作用。自从AlphaFold2面世,其每次的更新和发布都广受关注。先让我们来捋一捋这个大家族的发展。
2020年,AlphaFold2一经发布就震惊业界,该模型将蛋白质结构(单链)预测的误差降低到原子级水平,被誉为21世纪取得的最重要的科学突破之一。
之后的AlphaFold-multimer,实现对蛋白质复合物的结构预测。
2023年 9月,AlphaMissense作为AlphaFold2的衍生物,实现了对错义突变致病性的预测。
2023年10月31日,DeepMind发布了一则题为《A glimpse of the next generation of AlphaFold》的blog,揭示了团队的最新进展,AlphaFold的下一代会从蛋白质扩展到更广阔的生物分子上,最新的工作在配体(小分子)、蛋白质、核酸(DNA、RNA)、PTMs上有了显著提高!
而就在昨天(2024.05.09),距离该blog发布的半年后,AlphaFold3似乎揭开了该进展的神秘面纱,将这场由AlphaFold2引发的对蛋白质结构和相互作用进行建模的“革命”推向了高潮。
02
模型
AlphaFold3模型的更新主要是基于扩散架构的,它实现了对蛋白质、核酸、小分子、离子和修饰氨基酸的结构和相互作用界面的预测。
与先前专业工具相比有了以下提升:在蛋白质-配体的相互作用上,比目前最先进的docking工具精确得多;蛋白质-核酸相互作用的准确性远高于核酸特异性预测器;与AlphaFold-Multimer相比,抗体-抗原预测准确率显著提高。
这预示了在同一个深度学习框架中,跨生物分子空间的高精度建模是可行的。
为什么一个框架可以实现在多种分子之间结构和相互作用的预测?这种实质性改变其实受益于对AlphaFold2架构和训练过程的改变,其目的是为了适应更一般的化学结构和提升数据学习的效率。下面来看看这些改变。
AlphaFold3整体框架如下所示,与AF2相似。一开始是数据库的搜索和编码,然后通过一个主干网络,进化出化学复合物的成对表示(pairwise representation),最后使用该表示去生成明确的原子坐标。思路没有变,但是主要模块却发生了不小改变,其目的是为了适应更一般的化学物质。
首先改变的是模型输入部分。
为了配合多种相互作用的预测,输入信息需要被极大丰富。模型输入蛋白质的mmCIF文件,提取坐标、序列、化学成分细节、链名、共价键、生物组装等多种信息。扩散在训练时需要对真实坐标信息加噪,而推理时使用的是纯噪声,因此推理时坐标信息会被置0。这些信息会用于数据库的搜索和生成。
第一种是基因搜索(Genetic search),蛋白质链的序列搜索用了2种搜索方法,搜索了5个库(与AF2类似);RNA链在3个数据库(Rfam\RNACentral\Nucleotide collection)上进行搜索。
第二种是模板搜索(Template search),该搜索提供的是模板结构信息(与AF2类似),选择搜索到的前4个模板作为输入。需要注意的是模板搜索仅针对单链的蛋白质进行,不提供多链的模板信息。在预测复合物时,模型不会尝试从相同PDB中选择模板,从而获得有关链间的相互作用信息。
第三种是构象生成(Conformer generation),该功能提供了氨基酸、核苷酸或配体的参考构象(AF3新增)。给定输入的CCD代码(一种用于标识化学组分的简短字符串编码系统)或SMILES字符(一种用来描述分子结构的字符串表示方法),使用RDKit(一种开源的分子信息学工具包)的ETKDGv3方法(一种分子构象生成算法)生成构象。
因此,模型的输入信息可以分为两类,一种是输入自身提供的信息,如序列类型编码(20种氨基酸+unk/4种RNA核苷酸+unk/4种DNA核苷酸+unk/gap/配体被表示为未知氨基酸)、位置和链号索引、个体类型(is_protein/rna/dna/ligand)、共价键矩阵(表示任意原子之间是否成键,仅用于训练期间)等。
另一种是输入的衍生(参考)信息,包括MSA信息、模板信息以及构象生成信息。输入类型的扩充帮助模型认识了更多的分子信息,为模型能预测比蛋白质更广泛的分子结构打下基础。
此外,模型架构也需要做一些改变。
AlphaFold3引入了扩散方法,但是与其他专注于扩散部分的模型不同,它是一个条件扩散模型,其大部分计算都发生在条件部分。
首先,输入的信息会经过一个Input embedder模块,将原始特征初始化编码成single和pair表示。接下来就是重要的条件生成,如下图所示,在条件网络中,Template module会将模板信息加入pair表示,而MSA module会将MSA信息加入pair表示。
通过这两次信息的引入,pair representation在数据库知识的援助下,对该输入案例的two-body信息有了丰富的理解。然后将该pair表示和初始的single表示输入到Pairformer模块,进行互融。
AlphaFold3用更简单的Pairformer模块代替了AF2的Evoformer,该模块不再强调对MSA的处理,因为MSA module已经提前将MSA信息加入了pair表示。
因此,原本MSA表示变成了single表示,同时对pair表示的处理占据主导地位,这部分处理与Evoformer相同,最后将pair表示作为bias加入single表示。如下图所示,(a)图为Pairformer,(b)图为Evoformer:
如下图所示,条件网络输出的pair & single 表示以及初始的inputs作为生成模型的条件,去指导或者约束扩散模块的生成结果。
扩散模块的网络非常简单,以噪声为输入,条件为辅助,进行去噪,直接预测原子坐标。Confidence module用预测的结构和条件网络生成的条件预测置信度,评价预测结构的可信度。
扩散过程的多尺度特性(低噪声期间诱导网络提升局部结构)可以消除网络中对成键模式的大部分特殊处理和立体化学的损失,轻松应对任意的化学成分。
该模块没有IPA module,这是因为将AF2的结构模块中大部分复杂操作去掉以后,对预测的准确性影响不大。相对的,为了应对更一般的分子结构,骨架frame和扭转角的表示变得更复杂了。如下所示,(a)图为AlphaFold3的Diffusion Module,(b)图为AF2的Structure Module:
该扩散模块被训练成输入带噪声的原子坐标,输出预测的原子坐标。在推理阶段,采样的随机噪声会被反复去噪,产生最终结构。
这里有一个噪声尺度的问题需要解决,在噪声小的时候,去噪任务强调理解非常局部的立体化学;在噪声较大的时候,去噪任务强调系统的大规模结构。
因为这是一个生成式训练过程,产生的结果(轨迹)是一系列的分布,这意味着轨迹上的每一个点(结构),即使在网络对坐标不确定的情况下(高噪声时),局部结构也将会被明确定义。解决了该问题,就可以避免结构上氨基酸扭转角的参数化和violation(违反)损失,后者的目的是为了保持立体化学性质。此外,架构不需要分子的全局旋转和平移的不变性和等变性。
扩散方法的使用也带来了一些问题。其中最大的问题就是生成结果容易幻想,模型在非结构化区域产生看似合理的结构。
为了消除影响,模型使用了一种交叉蒸馏的方式,用AlphaFold-Multimer v2.3预测的结构丰富训练集。在这些结构中,非结构化区域通常由长的扩展loop表示,而不是紧凑的结构。
这种训练可以帮助AlphaFold3模仿类似行为。如下图所示,如果不进行交叉蒸馏,生成的结构如AF3 no cross-distillation的所示,而经过交叉蒸馏,会和AF-M 2.3相似。
第二个问题,在训练AF2的时候,误差的置信度通过结构模块输出结果的误差进行估计。但是这并不适用于扩散模块,因为扩散模块训练的是去噪过程中的单步去噪,而单步去噪产生的不是完整的结构。
为了解决这个问题,AlphaFold3设计了一个扩散"rollout"过程,它可以让模型在训练时生成完整的结构预测,如下图所示。
还有一点需要注意,之前提到主干的条件网络非常笨重,计算量大且耗时,但是扩散模块很轻便,为了提高扩散模块的训练效率,Diffusion module有一个专属的batch(图中的48 samples),它对一个结构批量加噪出48个带噪声的样本,主干网络计算一次条件,就可以在扩散模块中并行训练48个样本,这是非常高效的。
为了让模型学习结构,尤其是在扩散中,AlphaFold3设计了三类损失。
第一类是置信度损失,它主要是评价模型结构可信度的,与AF2类似,因此不做详细解释。第二类是扩散模块的损失,这部分主要是保证生成结构和相互作用界面的质量,将真实结构与去噪后的结构对齐,然后计算MSE损失。第三类是distogram loss,即标记对之间的距离,类似AF2。但是分子类型得到了扩充,对于氨基酸,仍然用C-beta原子表示(甘氨酸为C-alpha原子);对于RNA或DNA,嘌呤用C4表示,嘧啶用C2表示;所有配体每个标记都算一个原子。
需要详细说明的是扩散模块的结构损失,不同分子类型对应loss有不同的系数,蛋白质系数为1,DNA和RNA的系数为5,配体的系数为10。
此外,为了确保配体结合的共价键有正确的长度,在模型微调时会引入一种辅助loss,计算键长的误差。由于不同噪声水平生成的结构质量参差不齐,因此在loss中将t(刻画噪声强度的变量)作为loss的系数进行动态调整。
如下图所示,在训练过程中,模型起初会快速学习预测局部结构,所有链内指标快速上升,20k步的训练就能达到最大性能的97%(与AF2的训练类似),但是要花非常长的时间来学习全局接触,PPI(protein-protein interface) LDDT在60k步以后才到达97%。
由于模型想预测不同生物分子之间结构和相互作用,但是模拟能力和数据集不在同一水平。如右图所示,在训练过程中,有些模型能力相对较早地达到顶峰并开始下降(很有可能是过度拟合了有限数量的训练样本,如protein-dna, protein-rna),但是有些能力还训练不足(如protein-protein)。这时会提前结束训练,选择表现较好的模型,然后增加或减少相应数据库被采样到的概率,再继续训练模型。
所以可以看到右图出现fine tune1(橙色)和fine tune2(绿色)两个微调阶段,保证了在protein-protein相互作用界面预测性能上升的同时,不让预测protein-dna和protein-rna能力下降。
03
实验
AlphaFold3可以对多聚体、氨基酸修饰和配体的结构进行预测。左图展示了模型预测结果的例子。右图是各类相互作用界面基线性能对比。
蛋白-配体相互作用界面的预测能力在 PoseBusters 基线数据集上测试,统计口袋对齐配体的蛋白-配体对的RMSD小于2埃的比例,发现AlphaFold3明显优于传统方法Vina和RoseTTAFold All-Atom。在蛋白-核酸复合物和RNA结构预测上,AlphaFold3也优于RoseTTAFold2NA。此外,共价修饰(集合配体、糖基化、修饰蛋白残基、核酸碱基)也能能准确预测。在扩展这些建模能力的同时,相对于AlphaFold-Multimer2.3,AlphaFold3在蛋白质复合物结构预测的准确性上也有了一些提高。
实验还对模型的置信度指标进行了评价。
如下图的(a)所示,置信度指标为模型预测的相互作用界面TM score(interface predicted TM score——ipTM)。先对预测的ipTM进行分箱,统计各个区间的数量,与protein-protein的DockQ、protein-nucleic的iLDDT、protein-ligand的成功率比较,发现具有较高的相关性,因此ipTM指标可以很好的评价模型预测的结果。
另一个置信度指标pLDDT也进行了类似实验,仍旧可以得到相似结论。图(b-e)展了“7T82”这一具体案例,(b)中展示了pLDDt的着色,发现不确定性基本在链尾;(c)中按链进行着色,颜色对应了(d-e)中蛋白质的四条链(ACDF),可以发现相互作用界面的DockQ score与模型预测的PAE矩阵是相呼应的,依旧是可信评价。
04
模型局限性
即使优秀如AlphaFold3,它仍然逃不出No Free Lunch Theorem(没有免费午餐定理)。文章提到,它在立体化学、幻想、动力学和某些目标的精度方面具有局限性。
在立体化学中,有两类主要违反。第一类是模型结果不总是遵从手性。如图(b),模型输入了正确手性的参考结构,但输出还是违反了手性。为了在PoseBusters基准测试中解决该问题,模型加入了手性违反的惩罚损失,但测试中还是有4.4%的手性违反率。第二类是偶尔产生的原子重叠(clashing)的趋势。这种极端的违反有时会出现在同源异构体,如图(e)所示,所有链都重叠在一起。虽然对这种冲突做了惩罚,现象有所缓解,但仍旧不能完全消除。这些案例基本发生在蛋白-核酸复合物中,其中核苷酸大于100个且氨基酸大于2000。
在幻想问题中,从非生成式模型AF2切换到基于扩散的AlphaFold3,无序区域引入了虚假结构,如图(d)所示。虽然幻想区域被预测为低置信度,但它缺乏了AlphaFold2在无序区域产生的独特带状外观。为了鼓励这种情况,模型用AF2的预测结果做了蒸馏训练,同时加入了鼓励更大溶剂接触表面积的惩罚。
对于动力学的问题,结构预测模型的关键限制是它们通常只能预测静态结构,而不是溶液中的生物分子系统的动态行为。这种限制在AlphaFold3中仍存在,对扩散或整个网络的多个随机种子都不能产生近似的解集合。
在某些情况下,给定配体和其他输入,模型模拟的构象状态可能不正确或不全面。如图(c)所示,E3泛素连接酶在载脂蛋白状态下天然采用开放的构象,并且仅在与配体结合时观察到其处于封闭状态(图c左半部分)。但是AlphaFold3仅预测出了封闭状态(图c右半部分)。
尽管AlphaFold3在精度方面取得较大进步,但是仍有很多案例在精准度上有所欠缺。为了获得更高的准确性,可能需要生成大量结果并排序,这将带来额外的计算成本。这一问题的重灾区是抗体-抗原复合物。如图(a)所示,随着模型随机种子数量增加(甚至到了1000个),预测效果有了提升。
05
力评
AlphaFold家族又添一员“猛将”!有幸见证了DeepMind花费多年打磨出的AlphaFold系列,从蛋白质单体结构预测到现在全原子跨生物分子相互作用界面的预测,推动了行业的关键进展。分子生物学的核心挑战在于理解和调控分子结构和相互作用,这对理解分子的功能和作用机制非常重要。
AlphaFold3将蛋白质、核酸、小分子、离子和修饰氨基酸的复合物结构和相互作用界面的预测功能集成到了一个统一的框架中。虽然高精度的预测仍然具有非常大的挑战,还有一些违反和冲突没有被解决,但是单一模型在多种相互作用界面预测上的泛化性和适用性得到了证实!
Nature文章链接:
https://www.nature.com/articles/s41586-024-07487-w#Sec5
DeepMind官网新闻链接:
https://blog.google/technology/ai/google-deepmind-isomorphic-alphafold-3-ai-model/
2024丨力文所
EXPLORE EVOLUTION
DECIPHER LIFE
©️ 力文所原创内容,未经许可转载必究。
欢迎给力文所LEVINTHAL公众号 标星
在文末右下角点击 在看
给本文作者 点赞