AI蛋白质语言模型与结构信息的创新整合:EasIFA引领酶学新时代

学术   2024-10-30 21:00   北京  

独家整理,盗用必究


在生物化学和生物技术领域,酶的活性位点注释一直是一个极具挑战性的任务。准确识别酶的活性位点对于药物发现、疾病研究、酶工程和合成生物学等多个领域都至关重要。然而,目前的自动注释算法在速度和准确性之间存在显著的权衡,限制了它们在大规模实际应用中的表现。

近日,浙江大学等机构的研究人员在Nature Communications上发表了题为"Multi-modal deep learning enables efficient and accurate annotation of enzymatic active sites"的研究论文,提出了一种名为EasIFA的新型酶活性位点注释算法。该算法融合了来自蛋白质语言模型和3D结构编码器的潜在酶表征,并通过多模态交叉注意力框架将蛋白质水平信息与酶促反应知识对齐。

论文链接:https://www.nature.com/articles/s41467-024-51511-6

EasIFA算法的创新点

EasIFA算法的主要创新点包括:

  1. 结合了蛋白质语言模型(PLM)和3D结构编码器,生成更全面的酶结构信息描述。

  2. 开发了基于原子距离感知注意力机制的轻量级图神经网络,在更广泛的有机化学反应数据集上进行自监督预训练,以表示相对有限的酶反应信息。

  3. 设计了基于注意力机制的可解释信息交互网络,将酶表征与其催化的生化反应表征相结合,用于活性位点注释任务。

EasIFA的架构设计

EasIFA的整体架构如下图所示:

该图展示了EasIFA模型的整体架构,包括化学反应的图注意力表示(左上分支)、酶的PLMs-Structure融合表示分支(右上分支)、酶-反应信息交互网络(中间),以及两种类型的多层感知器残基活性预测器(底部)

EasIFA的主要组成部分包括:

  1. 酶的序列和结构融合表示分支:该分支包含三个计算阶段:基于PLM的序列嵌入阶段、使用GearNet的嵌入阶段,以及节点表示线性变换阶段。

  2. 反应的原子距离感知全局注意力交互表示分支:该分支包括两个子分支,分别使用MPNN表示底物(反应物)和产物的分子图。

  3. 基于注意力机制的酶-反应信息交互网络:该网络使用注意力机制将反应信息整合到酶的图形表示中。

  4. 多层感知器残基活性注释网络:该网络包括二分类和多分类版本,分别用于预测氨基酸残基是否为活性位点以及预测残基的活性类型。

EasIFA的性能评估

研究人员在SwissProt E-RXN ASA数据集上对EasIFA进行了全面的性能评估,并与其他主流算法进行了比较。结果表明,EasIFA在注释质量和速度方面都显著优于现有方法。

该表展示了EasIFA与基线模型在SwissProt E-RXN ASA测试集上的性能比较

从表中可以看出:

  1. 在活性位点定位注释任务中,EasIFA展现出卓越的精确度、召回率、假阳性率(FPR)、F1分数和Matthews相关系数(MCC)。

  2. 在活性位点类型注释任务中,EasIFA-ESM/EasIFA-SaProt在"催化位点"的召回率上与专门的AEGAN模型相当,但FPR显著降低,表明减少了假阳性的数量。

  3. 在酶结合位点识别任务中,EasIFA-ESM/EasIFA-SaProt的性能明显优于Schrodinger-SiteMap。

  4. 与BLASTp相比,EasIFA在F1分数上高出10.15%,在MCC上高出0.1012。

为了更清晰地展示EasIFA模型和基线方法在不同序列同一性水平的测试样本上的预测能力,研究人员使用CD-HIT将测试集分为五个子集,每个子集与训练集中的酶序列具有不同的序列同一性水平:0~40%、40~50%、50~60%、60~70%和70~80%。

这些图分别展示了EasIFA和基线方法在不同序列同一性水平的测试子集上的F1分数、MCC、召回率和FPR比较

从图中可以看出:

  1. EasIFA-ESM-bin、EasIFA-SaProt-bin和BLASTp的预测性能在所有序列同一性区间内都显著优于AEGAN和Schrodinger-SiteMap。

  2. 随着序列同一性的降低,这些算法的性能也有所下降,但EasIFA的下降幅度较小。

  3. 在0~40%序列同一性子集中,EasIFA-SaProt-bin与BLASTp在F1分数和MCC上的差距分别扩大到15.23%和0.1629。

  4. EasIFA在所有序列同一性区间内都保持显著较低的假阳性率,始终优于BLASTp和其他基线方法。

EasIFA的推理速度

研究人员还比较了各算法在大规模注释任务中的计算能力。结果如下表所示:

该表展示了EasIFA与基线算法在SwissProt E-RXN ASA测试集上的推理速度比较

从表中可以看出:

  1. EasIFA算法具有出色的推理速度,平均只需0.144秒(EasIFA-ESM-bin)即可完成一个酶的活性位点注释。

  2. 与AEGAN相比,EasIFA的推理效率提高了约1300倍。

  3. 与使用整个SwissProt作为知识库的BLASTp相比,EasIFA的速度快约10倍。

这些结果凸显了EasIFA算法在注释质量和推理效率方面的优势。

消融实验

为了评估各种因素对酶活性位点注释的影响,研究人员进行了一系列消融实验。实验结果如下表所示:

该表展示了EasIFA不同变体在SwissProt E-RXN ASA测试集上的性能比较

主要发现包括:

  1. 纳入反应分支信息显著提高了EasIFA模型的预测性能,F1分数提高了3.79%,MCC提高了0.0388,AUPRC提高了0.0375。

  2. 从头训练的反应分支(EasIFA-RS-bin)表现不佳,说明在有限的酶反应集上准确表示反应可能具有挑战性。

  3. 使用RXNFP替换反应表示(EasIFA-RXNFP-bin)的性能接近于不包含反应表示分支的EasIFA-E-bin。

  4. 去除GearNet酶表示(EasIFA-NG-bin)导致性能下降,但计算负载减少,推理速度加快。

  5. 将序列表示更改为SaProt(EasIFA-SaProt-bin)略微提高了召回率,但其他指标略有下降。

这些结果表明,反应信息、预训练的反应表示和3D结构信息对EasIFA的性能都有重要影响。

案例研究

研究人员还展示了EasIFA在实际酶活性位点注释中的应用案例。以下是两个典型例子:

该图展示了EasIFA模型在测试集中对两种酶的活性位点注释结果可视化

左侧展示了EasIFA对蛋白酪氨酸磷酸酶(UniProt ID: Q4G0W2, EC Number: 3.1.3.48)的注释结果。EasIFA准确预测了第103位的半胱氨酸残基作为活性位点,这与UniProt数据库中的记录一致。

右侧展示了EasIFA对肉毒碱N-甲基转移酶(UniProt ID: P53934, EC Number: 2.1.1.22)的注释结果。EasIFA不仅准确识别了UniProt中记录的所有底物结合位点,还发现了一个潜在相关但未在UniProt中注释的位点(ASN274)。

这些案例突出了EasIFA在识别不同类型酶的活性位点方面的准确性和潜力。

知识库迁移实验

为了解决不同酶催化位点数据库之间的差异问题,研究人员开发了一种知识库迁移方案。他们使用在SwissProt E-RXN ASA数据集上预训练的EasIFA算法,通过迁移学习对MCSA E-RXN CSA数据集进行建模。结果如下表所示:

该表展示了EasIFA-ESM-bin、EasIFA-SaProt-bin与基于序列相似性的算法BLASTp在MCSA E-RXN CSA数据集上的性能比较

主要结果包括:

  1. EasIFA-SaProt-bin在MCSA E-RXN CSA数据集上取得了最佳性能,精确度为66.59%,召回率为65.32%,F1分数为61.33%,MCC为0.6295。

  2. 相比之下,BLASTp方法在这个数据集上表现较差,最高F1分数仅为22.99%,MCC为0.2394。

  3. 引入3D结构数据(Foldseek)显著增强了EasIFA在不同数据空间之间迁移知识的能力。

  4. 在这个样本变异性较大的数据集上,EasIFA算法显示出明显优于基于序列对齐的BLASTp方法的优势。

这些结果表明,EasIFA能够有效地将从大规模粗略注释数据中学到的知识迁移到高质量的小规模数据集上,展现了良好的适应性和迁移能力。

作为人工设计酶催化位点监测工具的潜力探索

随着蛋白质设计和酶工程的重大进展,越来越多的人工蛋白质和酶被创造出来。这些人工设计的酶可能具有与天然酶完全不同的结构模式,为预测它们的性质带来了挑战。为了探索EasIFA在这一领域的潜力,研究人员开发了一个工作流程,使EasIFA算法能够注释落在天然酶分布之外的酶的催化位点。

该图展示了EasIFA对人工设计的4-α-葡聚糖转移酶(左)和脱氧核糖磷酸醛缩酶(右)结构的活性位点注释结果

从图中可以看出,EasIFA成功识别了这些人工酶的关键催化位点:

  1. 对于4-α-葡聚糖转移酶,EasIFA准确识别了关键的三联催化位点,并发现了一个可能相关的额外位点(Asp93)。

  2. 对于脱氧核糖磷酸醛缩酶,EasIFA准确识别了ASP35-LYS61-LYS82的三元活性位点。

这些结果表明,通过适当的数据增强过程,EasIFA能够成功识别人工酶的活性位点,这对当前的其他算法来说是一个挑战。

可解释性信息交互网络的注意力权重可视化

EasIFA模型中酶-反应信息交互网络的注意力机制提供了很高的可解释性。研究人员通过分析MCSA E-RXN CSA验证集中的一些案例,识别出专门关注关键酶-反应相互作用的注意力层和头。

该图展示了酶-反应信息交互网络中注意力权重的可视化

图中展示了半胱氨酸裂解酶的注释结果(左)和活性位点在底物分子上的权重可视化(右)。中间显示了整个半胱氨酸裂解反应,突出了反应中心。值得注意的是,His144在L-半胱氨酸两性离子的反应中心,特别是氨基组,表现出很高的注意力权重。这与酶的催化机制相一致,突显了His144在去质子化L-半胱氨酸两性离子氨基中的关键作用。由于L-半胱氨酸两性离子的对称结构,EasIFA模型关注反应中心的两侧。然而,值得注意的是,该模型的交互网络对水分子的关注较少,这在其他样本中也观察到了类似的趋势。

这种可视化方法不仅提供了EasIFA预测结果的直观解释,还为深入理解酶催化机制提供了新的视角。

EasIFA网络服务器

为了使EasIFA更易于使用,研究人员开发了一个网络服务器(http://easifa.iddd.group)。该服务器不仅支持传统的酶结构和相应酶催化反应方程输入来注释催化活性位点,还提供了一个自动化工作流程,可以从UniProt检索酶结构和催化化学反应方程,然后使用EasIFA自动注释酶的活性位点。

主要功能包括:

  1. 用户可以直接输入反应SMILES或在JSME分子编辑器中绘制相应的酶催化反应。

  2. 用户可以上传并预览酶结构。

  3. 结果界面显示酶的序列结构,不同类型的催化活性位点氨基酸残基用不同颜色标记。

  4. 提供交互式酶结构查看界面,不同类型的活性位点用不同颜色标记。

  5. 显示催化反应方程和活性氨基酸残基的详细信息。

  6. 支持从UniProt ID开始的预测工作流程,自动检索酶的结构数据和相应的催化反应数据进行预测。

EasIFA的基于结构的预测速度非常快,在GPU支持下只需几秒钟即可注释一个酶的活性位点。从UniProt开始的预测取决于EasIFA部署服务器的网络环境,通常在一分钟内就可以完成一个UniProt ID下的酶及其所有催化反应组合的注释。

讨论与展望

EasIFA算法的成功开发为酶活性位点注释领域带来了新的突破。它不仅在注释质量和速度方面显著优于现有方法,还展现了良好的可解释性和迁移能力。以下是EasIFA的几个关键优势和潜在应用:

  1. 高效准确的注释:EasIFA在SwissProt E-RXN ASA数据集上的表现显著优于主流算法(如BLASTp、AEGAN和SiteMap),同时注释速度比AEGAN快1300倍,比使用整个SwissProt作为知识库的BLASTp快10倍。这使得EasIFA能够满足大规模酶注释任务的需求。

  2. 多模态深度学习架构:EasIFA融合了蛋白质语言模型、3D结构编码和反应信息,通过多模态交叉注意力框架实现了更全面的酶表征。这种方法不仅提高了注释准确性,还为理解酶结构-功能关系提供了新的视角。

  3. 知识迁移能力:EasIFA展示了从大规模粗略注释数据库到小规模精细注释数据库的知识迁移能力。这为解决不同酶催化位点数据库之间的差异问题提供了新的思路,有助于扩展酶反应催化机制数据库的知识域。

  4. 人工设计酶的活性位点预测:通过适当的数据增强策略,EasIFA能够将从天然酶中学到的活性位点知识扩展到更广泛的人工酶领域。这对于酶工程和蛋白质设计领域具有重要意义,可能为设计具有特定功能的新型酶提供指导。

  5. 高可解释性:EasIFA的酶-反应信息交互网络通过注意力机制提供了高度可解释的结果。这不仅有助于验证预测结果,还为深入理解酶催化机制提供了新的工具。

  6. 易用性:EasIFA网络服务器的开发使得该算法可以被更广泛的研究人员使用,无需复杂的计算环境即可进行高质量的酶活性位点注释。

未来的研究方向可能包括:

  1. 进一步优化EasIFA的反应表示方法,以更好地捕捉复杂的酶催化反应机制。

  2. 扩展EasIFA的应用范围,如预测新酶的潜在催化功能,或辅助设计具有特定催化活性的人工酶。

  3. 结合实验验证,深入探究EasIFA预测的新颖活性位点的功能意义。

  4. 探索将EasIFA与其他蛋白质功能预测方法集成,以提供更全面的酶功能注释。

  5. 研究如何利用EasIFA的预测结果来指导药物设计,特别是针对酶靶点的抑制剂开发。

总的来说,EasIFA为酶活性位点注释领域带来了一种高效、准确、可解释的新方法。它不仅可以减轻研究人员的工作负担和成本,还有望推动药物设计、疾病机制阐明和酶工程等多个领域的进展。随着深度学习和生物信息学技术的不断发展,我们可以期待看到更多类似EasIFA这样的创新算法,为生命科学研究带来新的突破。


高颜值免费 SCI 在线绘图(点击图片直达)


最全植物基因组数据库IMP (点击图片直达)

往期精品(点击图片直达文字对应教程)

机器学习




生信宝典
学生信最好的时间是十年前,其次是现在!10年经验分享尽在生信宝典!
 最新文章