将 ScienceAI 设为星标
第一时间掌握
新鲜的 AI for Science 资讯
编辑 | 萝卜皮
酶在许多生物过程中起着至关重要的作用,Enzyme Commission(EC)编号是编码酶功能的常用方法。然而,目前的 EC 编号预测技术尚未充分认识到酶活性位点和结构特征的重要性。
中山大学的研究团队提出了 GraphEC,这是一个基于几何图学习的 EC 数量预测器,使用 ESMFold 预测结构和预训练的蛋白质语言模型。同时,GraphEC 能够从蛋白质结构中提取功能信息。
该技术可用于识别未注释的酶功能,以及预测其活性位点和最佳 pH 值,有可能促进合成生物学、基因组学和其他领域的进步。
该研究以「Accurately predicting enzyme functions through geometric graph learning on ESMFold-predicted structures」为题,于 2024 年 9 月 18 日发布在《Nature Communications》。
酶通过催化多种反应在各种生物过程中发挥着重要作用。识别酶的功能对于研究代谢和疾病至关重要。通常采用酶委员会(EC)编号来将酶的功能表述为四位数字的结构,这提供了统一的方案并加快了酶工程领域的进步。然而,通过实验确定 EC 编号既费时又费钱,开发用于识别 EC 编号的计算方法已势在必行。
在最新的研究中,中山大学的研究团队提出了 GraphEC(geometric Graph learning-based EC number annotation),这是一种基于预测的蛋白质结构和酶活性位点的酶功能预测精确网络。
GraphEC 是一种基于几何图学习的精确 EC 数量预测器,它将酶活性位点和预测的蛋白质结构纳入酶功能预测中。给定一个蛋白质序列,用 ESMFold 预测其结构并用于构建蛋白质图。
通过预测结构提取几何特征,并通过预训练语言模型 (PtrotTrans) 计算序列嵌入来增强这些特征。这些特征被输入到几何图形学习网络中,用于学习几何嵌入,用于预测活性位点、EC 值和最佳 pH 值。
图示:酶 EC 数预测。(来源:论文)
在这里,首先通过 GraphEC-AS 预测酶活性位点,并为每个残基分配权重分数。在权重分数的指导下,使用注意层和池化层计算 EC 数量的初始预测,并通过提取同源信息通过标签扩散算法进一步改进。最后,通过注意力池将模型扩展至最佳pH值预测,以更好地表示反应条件(GraphEC-pH)。
通过对多个独立测试的全面比较,该模型在预测活性位点、EC 值和最适 pH 方面优于所有最先进的方法。进一步分析表明,GraphEC 能够从酶结构中学习功能信息,进一步强调了几何图学习的有效性。
图示:GraphEC 可以从蛋白质结构中提取功能信息。(来源:论文)
虽然 GraphEC 表现出色,但在多个方面仍有改进空间。考虑到预测结构质量的影响,未来可以探索通过改善结构质量或合并其他序列特征来增强模型的稳定性。此外,随着大型语言模型的不断发展,研究人员可以利用它们从文本描述中提取重要信息并增强模型的预测能力。
总而言之,该团队开发了一种准确、快速的 EC 数量预测器 GraphEC。研究人员可以利用它仅从酶序列中准确预测酶的功能。对于特定的酶,研究人员可以进一步分析它们的功能区域(活性位点)并确定它们的反应条件(pH值),这将有助于实验研究。
论文链接:https://www.nature.com/articles/s41467-024-52533-w
人工智能 × [ 生物 神经科学 数学 物理 化学 材料 ]
「ScienceAI」关注人工智能与其他前沿技术及基础科学的交叉研究与融合发展。
欢迎关注标星,并点击右下角点赞和在看。
点击阅读原文,加入专业从业者社区,以获得更多交流合作机会及服务。