背景
蛋白质结构预测是一种弥合序列-结构差距的方法,是计算生物学和化学的主要挑战之一。预测任何蛋白质的准确结构对科学界来说都是至关重要的,因为这些结构决定了蛋白质的功能。通过实验来对蛋白质结构进行测定的方法包括X射线晶体学、核磁共振波谱学和电镜,所有这些过程都是一个冗长而耗时的过程,并且需要大量的专业知识。为了简化整个过程,将蛋白质库中的结构数据进行整合,开发出一些计算方法作为蛋白质结构预测的工具。近年来,机器学习方法引起了蛋白质结构预测领域的兴趣。大多数用于蛋白质结构预测的机器学习方法都集中在基于协同进化的方法上。这些方法的准确性取决于数据库中可用的同源蛋白序列的数量。对于许多蛋白质,特别是那些没有足够同源序列的蛋白质来说,预测问题变得具有挑战性。而深度学习方法允许在没有任何先验知识的情况下从蛋白序列数据中提取复杂的特征,从用于训练模型的数据中得出的推断来适应新的、以前未见过的数据。
语言模型在蛋白质序列中的适用性基于这样一个事实,即一个蛋白质序列可以被认为是由20个氨基酸词汇组成的语言。蛋白质序列中氨基酸之间的联系是稳定天然蛋白质结构的主要因素,其解释类似于语言中单词之间的关系。因此,在自然语言处理中表现出高性能的模型也可以应用于蛋白质序列。目前的研究表明,当深度学习模型在未标记的蛋白质数据上训练,可以捕获蛋白质结构预测所需的大部分结构和生物物理特性。
01
AlphaFold3引发蛋白质结构预测
根本性变革
AlphaFold 2的出现引发了蛋白质结构建模及其相互作用的革命,使得蛋白质建模和设计的广泛使用成为可能。2024年5月,在Nature期刊发表的文章《Accurate structure prediction of biomolecular interactions with AlphaFold 3》,报道了新开发的AlphaFold 3模型。该模型具有更新的基于扩散的结构,能够预测包括蛋白质、核酸、小分子、离子和修饰残基等复合物的关键结构。
AlphaFold 3 (AF3)是通过AlphaFold 2 (AF2)架构和训练程序的实质性演变来实现的,以适应更一般的化学结构并提高学习数据的效率。AF3系统通过用更简单的配对(pairformer)模块取代AF2的 evoformer模块,减少了多序列比对处理的数量(图1a)。此外,AF3用扩散(diffusion)模块直接预测原始原子坐标,取代了以氨基酸特定框架和侧链扭转角为基础的AF2结构模块(图1b)。扩散过程的多尺度性质使得AF3能够消除网络中立体化学损失和特殊的键合模式,能够更为容易地容纳任意化学成分。
AF3与来自AF2的原始evoformer相比,blocks的数量减少到4个,Multiple-sequence alignment (MSA) representation的处理使用廉价的对加权平均,并且在后续处理步骤中仅使用pair representation。AF3的pairformer取代了AF2的evoformer,成为主要的block(图1a)。Pairformer只作用于pair representation和single representation,不保留MSA representation,而且所有的信息都通过pair representation传递。Pair的处理方式和48个blocks与AF2基本上没有变化。得到的pair和single representation与input representation一起传递给新的扩散模块(图1b),扩散模块取代了AF2的结构模块。
扩散模块直接对原始原子坐标和抽象的分词(token representation)进行操作,没有旋转帧或任何等变处理。AF2中观察到的现象显示,去除结构模块的大部分复杂性对预测精度只有适度的影响,而保留主框架和侧链扭转会增加分子的复杂程度。AF2需要在训练期间仔细调整立体化学违反惩罚,以加强所产生结构的化学合理性。AF3中使用一种相对标准的扩散方法,其中扩散模型被训练为接受“噪声”原子坐标,然后预测真实坐标。这个任务需要网络学习各种长度尺度下的蛋白结构,其中小噪声下的去噪任务注重了解非常局部的立体化学,高噪声下的去噪任务强调系统的大尺度结构。在预测时,对随机噪声进行采样,然后递归去噪以产生最终的结构。
生成扩散方法的最大问题是生成模型容易产生幻觉,即模型可能在非结构化区域创造看似合理的结构。AF3运用AlphaFold-Multimer (v.2.3)预测的结构丰富训练数据,使用交叉蒸馏(cross-distillation)方法来减幻觉行为。
AF3开发了预测最终结构中原子水平和成对误差的置信度措施。在AF2中,这个结果是通过在训练过程中回归结构模块输出中的误差直接完成的。而这个过程不适合扩散训练,因为扩散训练只训练扩散的单个步骤,而不是整个结构的生成(图1c)。AF3采用一个扩散“rollout”程序,用于在训练期间生成全结构预测。使用该预测结构来排列对称的ground-truth链和配体,并计算性能指标来训练置信度。置信度使用pair representation来预测修正的局部距离差检验(pLDDT)和AF2中预测的对齐误差(PAE)矩阵,以及距离误差矩阵(PDE)。这些指标反应了预测结构的距离矩阵与真实结构的差异。
在初始训练期间(图1d),模型快速学习以预测局部结构(所有链内指标快速上升,在前20000个训练步骤内达到最大性能的97%),而模型需要相当长的时间来学习全面结构(界面指标缓慢上升,蛋白质-蛋白质界面LDDT在60000步后才超过97%)。
图1 AF3准确预测了生物分子复合物结构
AF3可以通过输入复合物序列、残基修饰和配体SMILES (simplified molecular-input line-entry system)来预测结构。图2展示的是AF3预测的一些例子。预测的蛋白质链用蓝色表示,预测的抗体用绿色表示,预测的配体和聚糖用橙色表示,预测的RNA用紫色表示,真实的结构用灰色表示。从图2中可以看出,AF3所预测的复合物的结构与真实结构是相近的。
图2 AF3预测的复合物实例
AF3虽然能够预测较为准确的结构,但是在立体化学、幻觉、动力学和某些目标的准确性方面存在模型局限。
在立体化学中,观察到两类主要的立体化学违反。一是模型的输出并不总是尊重手性;二是模型在预测中偶尔产生重叠(碰撞)原子的趋势。作者尝试解决这两个问题,但只能减少发生的概率而不能消除。
从非生成AF2模型到基于扩散的A3模型的转换引入了无序区域中虚假结构秩序(也就是幻觉)的挑战。尽管幻觉区域通常被标记为非常低的置信度,但它们可能缺乏AF2在无序区域中产生的独特带状外观。为了鼓励AF3中的带状预测,AF3使用了来自AF2预测的蒸馏训练,并且添加了一个排序项来鼓励具有更多溶剂可达表面积的结果。
蛋白质结构预测模型的一个关键限制是,其通常预测PDB中的静态结构,而不是溶液中生物分子系统的动态行为。这种限制在AF3中仍然存在,其整个网络的多个随机种子都不会产生近似解的集合。
在某些情况下,特定的配体和其他输入,模拟的构象状态可能不正确或不全面。例如,E3泛素连接酶在无配体时采用开放构象,并且仅在与配体结合时处于封闭状态,但AF3预测这两种情况都为封闭构象。
总之,分子生物学的核心挑战是理解并最终调节生物系统中复杂的原子相互作用。AF3模型在这个方向上迈出了一大步,证明了在一个统一的框架内准确预测大范围生物分子系统的结构是可能的。尽管在所有交互类型中实现高度准确的预测仍然是一个重大挑战,但AF3的成功证明了构建一个对这些交互类型泛化的深度学习系统是可行的。最后,蛋白-配体结构预测的巨大改进表明,在一般深度学习框架内处理化学空间的广泛多样性是可行的,而无需将蛋白质结构预测和配体对接分离开来。
原文链接:https://www.nature.com/articles/s41586-024-07487-w
02
光反应亮氨酸通过交联质谱
引入蛋白质结构预测
虽然AF2可以从初级序列预测准确的蛋白质结构,但对于那些经历构象变化或同源序列很少的蛋白质的预测存在局限。2023年3月,在Nature biotechnology期刊发表的文章《Protein structure prediction with in-cell photo-crosslinking mass spectrometry and deep learning》,开发了一种新的算法AlphaLink。AlphaLink是AF2算法的改进版本,将实验距离约束信息纳入其网格架构中。通过使用稀疏实验接触作为锚点,AlphaLink提高了AF2在预测挑战性蛋白结构的性能。文章利用非规范氨基酸—光反应亮氨酸通过交联质谱法获得细胞内残留物接触的信息,通过实验提供的距离限制来预测蛋白质的不同构象。
交联质谱(MS)能够提供距离限制,可用于蛋白质结构预测。特别的是,光氨基酸(photo amino acid)很容易被原核和真核细胞结合,这为探测蛋白质的原位构象提供了可能。大多数可溶性交联剂的数据可能受到稀有蛋白质状态的污染,而光化学则不一样,其能够准确代表了溶液中整体。此外,光氨基酸交联产生了相对紧密的距离限制,这是协同进化接触理论(大多数蛋白质结构预测方法的基础)的关键。理论上,光交联基团能够通过反应性羰基从侧链与任何重原子进行“零长度”交联。本文使用光反应亮氨酸对大肠杆菌膜组分中615个残基进行原位光反应接触,揭示了光反应氨基酸在直接定位细胞中近端残基方面的能力。
文中开发的AlphaLink,是一个将交联模块直接纳入OpenFold1的框架。OpenFold是AF2的可训练复制版。OpenFold主要利用共同进化关系,在远程空间(Evoformer)和3D空间(Structure Module)中运行。光反应交联质谱数据提供了距离限制,与共同进化关系提供了互补的信息。交联的稀疏性可以用协同进化信息来补偿。在这些情况下,准确的交联数据可以起到锚定作用。AlphaLink利用这种关系,通过Evoformer合并交联MS和共同进化数据,将交联注入到pair representation (Z)中,产生一致和统一的约束集(图1)。
图1 AlphaLink的信息流
文中引入了两种representation来编码交联信息。实验数据用soft labels或距离分布(distograms)表示。在soft labels的情况下,每个接触都由数据集的链级错误发现率(FDR)或每个约束的FDR(如果存在)进行加权,以指示交联分配的置信度。一个特定的交联剂(或一般的距离约束)用距离分布表示。对于给定的截止点,类接触约束可以用均匀分布的distograms表示。通过根据FDR调整概率质量来直接在表示中不确定性进行建模,distogram被设计为匹配由Evoformer从包含64个bins的pair representation来预测。
作者嵌入约束并将它们添加到OpenFold的pair representation中(图1a),类似与AF2中的循环嵌入。MSA转化器(图1b)检索协同进化信息并更新MSA representation。检索与实验交联信息的pair representation有一定的偏差,使用外积均值(图1c)来依次更新pair representation。这种耦合最大化了MSA和实验信息之间的协同作用,并允许网络执行噪声抑制(拒绝错误分配的实验和共同进化关系,或拒绝不支持导致共识模型的其他信息链的联系)。
为了在实验数据上测试AlphaLink,文中预测了大肠杆菌膜组分交联质谱数据集中的蛋白质。文中将评估重点放在31个靶标蛋白上,这些靶标蛋白含有中位数为5的高分辨率交联结构(图2)。AlphaLink相较于AF2,对所有蛋白质的TM评分平均提高了5.2± 1.9%。而对于AF2没有提供准确模型的目标蛋白上,AlphaLink提高的TM评分更高。从ATP合成酶亚基AtpB、外膜脂多糖组装蛋白和铁肠杆菌素受体的结构预测可以看出(图2def),在细胞内交联数据帮助下,AlphaLink定位蛋白质的不同区域,从而在性能上优于AF2。
图2 利用细胞内光反应亮氨酸交联质谱数据预测大肠杆菌膜组分的结构
总之,本文开发的AlphaLink通过深度学习成功地利用了实验限制来改进蛋白质结构预测。通过一种基于光反应氨基酸交联质谱实验,得到类似接触的距离信息,获得了细胞内第一个大规模的光反应氨基酸交联质谱数据集。通过该数据集,AlphaLink实现了基于光反应氨基酸的蛋白质结构预测。
原文链接:https://www.nature.com/articles/s41587-023-01704-z
03
通过大模型预测原子级蛋白质结构
机器学习的最新进展是利用多序列比对中的进化信息来预测蛋白质结构。2023年3月,在Science期刊发表的文章《Evolutionary-scale prediction of atomic-level protein structure with a language model》,实现了使用大型语言模型从一级序列直接推断完整原子级蛋白质结构。当蛋白质序列的语言模型被扩展到150亿个参数时,在学习表征中出现了蛋白质结构的原子分辨率图像。这导致高分辨率结构预测的数量级加速,从而使宏基因组蛋白的大规模结构表征成为可能。文中构建了ESM宏基因组图谱,预测了超过6.17亿个宏基因组蛋白质序列的结构,其中包括超过2.25亿个高可信度的预测序列。
在进化的尺度上,蛋白质序列包含了生物结构和功能的图像。蛋白质的生物学特性将突变限制在通过进化选择的序列中,将生物学记录到进化模式中。因此,蛋白质的结构和功能可以从序列的模式中推断出来。从经典方法到深度学习的引入,再到现在的高精度结构预测,这一策略一直是计算结构预测进步的核心。
语言模型有可能在进化过程中学习蛋白质序列的模式。这个想法激发了对进化尺度语言模型的研究,其中基本模型学习反映基础生物学各个方面的表征,并以更大的表征能力以低分辨率捕获二级结构和三级结构。
文中假设,在整个进化过程中填补蛋白质序列中缺失的氨基酸的任务将需要一种语言模型来理解在序列中创建模式的底层结构。随着语言模型的表征能力和在其训练中看到的蛋白质序列的多样性增加,我们期望关于蛋白质序列的生物学特性的深入信息出现,因为这些特性产生了在序列中观察到的模式。为了研究这种深入信息的出现,文中将语言模型从800万个参数扩展到了150亿个参数。结果显示原子分辨率结构在语言模型中出现在参数尺度上提高了四个数量级。语言模型对蛋白质序列的理解与结构预测的准确性之间的强相关性揭示了语言建模和结构学习之间的密切联系。
本文证明了语言模型能够直接从序列中快速地预测端到端原子分辨率结构,利用语言模型捕获的进化模式来产生精确的原子级预测。这消除了当前最先进的结构预测模块的昂贵方面,从而消除了对多序列比对(MSA)的需要,同时大大简化了用于推理的神经结构。这导致仅向前传递推理的速度提高了60倍,同时也完全消除了相关蛋白质的搜索过程。这种速度优势使得将结构预测扩展到宏基因组规模数据集成为可能。
文中报道蛋白语言模型ESM-2的训练参数从800万个增加到150亿个,使得在结构预测基准上优于其他最新蛋白质语言模型。ESM-2语言模型直接从初级蛋白质序列生成最先进的三维(3D)结构预测,使得结构预测的速度提高了一个数量级以上,同时保持了高分辨率的准确性。
通过训练ESM-2的folding head,本文开发了ESMFold,这是一个完全端到端单序列结构预测器(图1A)。在预测时,将蛋白质序列输入到ESM-2中,序列通过语言模型的前馈层进行处理,模型的内部状态(representations)传递给folding head。folding head从一系列的折叠块开始,每个折叠块在更新sequence representation和 pairwise representation 之间交替进行。这些块的输出被传递到equivariant transformer结构模块,在输出最终原子级结构和预测置信度之前执行三个回收步骤。与当前最先进的结构预测模型相比,该架构代表了一个重大的简化,该模型通过跨MSA的行和列操作的注意力机制将MSA深度集成到神经网络架构中。
图1 利用ESMFold进行单序列结构预测
本文将ESMFold在评估集上的结果与AlphaFold2和RoseTTAFold进行比较(图1B),ESMFold在CAMEO数据集上实现了与RoseTTAFold相当的精度,差于AlphaFold2。当通过去除MSA使得在单个序列层次上评估AlphaFold2和RoseTTAFold时,它们的性能显著下降,远低于ESMFold。这是由于人工设置使得AlphaFold2没有被明确地为单个序列进行训练。ESMFold在超过一半的蛋白质上匹配AlphaFold2的性能(<0.05 LDDT差异)(图1B)。对于T1057这个蛋白质来说,TM得分为0.98,残基数为540(图1D)。在ESMFold和AlphaFold2中,准确率较低的部分结构并没有明显差异,这表明语言模型正在学习与MSA中包含的信息中相似部分的信息。同时,ESMFold能够很好地预测同源和异二聚体蛋白复合物的成分(图1D)。ESMFold以预测LDDT(pLDDT)和预测TM(pTM)的形式报告置信度,而置信度与预测的准确性有很好的相关性。因此,置信度可以用来评估模型预测结构与实验确定的真实结构相匹配的可能性有多大。对于高置信度的预测(pLDDT>0.7),ESMFold的准确性与AlphaFold2相当(图1C)。
总之,语言模型中原子级结构展示了蛋白质结构的高分辨率图像。该图像通过进化编码为蛋白质序列,可以通过无监督学习来捕获。文中讨论的模型在参数、序列数据和原则上可以应用的计算能力方面离规模极限还很远。可以乐观的认为,随着我们继续扩大规模,将会有进一步的突破。ESM-2的结果时在速度上的进步,在实际条件下可以达到一到两个数量级的提升,这使得更多的序列可以达到精确的原子级预测。进化尺度的结构预测可以深入了解蛋白质的自然多样性,并加速蛋白质结构和功能的发现。
原文链接:https://www.science.org/doi/10.1126/science.ade2574
总结
本课题组常年全球招募具有化学材料、基因治疗、生物医学和生物信息等相关背景的副研究员、助理研究员、博士后和科研助理。
有意者请将简历发送至宋杰老师邮箱:jiegroup@126.com,或点击此处查看详情。
往期回顾
Nucleic Acids Research | MELD-DNA:蛋白质-DNA 复合物的结构预测
Nucleic Acids Research | UFold:通过深度学习进行快速准确的RNA二级结构预测
Nature Materials | 基于图神经网络的DNA折纸形状预测
M3R Lab
作者|wj
审核|sj
排版|xjc