AI蛋白质预测重大突破!中国科学家提出新算法,性能大幅提升,登上Nature子刊!
文摘
2025-01-08 18:46
四川
蛋白质是生命活动的基本单位,其功能的准确预测对于理解生物机制和治疗复杂疾病具有重要意义。然而,现有的蛋白质功能预测方法往往缺乏解释性,难以揭示蛋白质结构与功能之间的关系。近日,中南大学李敏教授团队在Nature Communications上发表了题为“DPFunc: accurately predicting proteinfunction via deep learning with domainguided structure information”的研究论文,为蛋白质功能预测这一复杂难题提供了创新解决方案。该研究提出了一种名为DPFunc的基于深度学习的蛋白质功能预测方法,通过引入结构域引导的结构信息,显著提升了蛋白质功能预测的准确性和可解释性。DPFunc已开源,其源代码可在 GitHub 上获取,地址附在文末。李敏教授长期从事生物信息学与数据挖掘研究,现任中南大学计算机学院院长、生物医学智能计算湖南省工程研究中心主任、生物信息学湖南省重点实验室副主任、中国计算机学会生物信息学专委会委员等,在Nature Communications、Genome Research、Genome Biology等国际期刊和国际会议上发表学术论文100余篇,获国家授权发明专利30余项。蛋白质功能预测的挑战
蛋白质功能的确定通常依赖于传统的湿实验,但这些方法耗时且成本高昂。随着高通量测序技术的快速发展,已知的蛋白质序列数量迅速增加,但仅有不到1%的蛋白质序列通过GO(Gene Ontology)分析进行了功能注释。为了填补已知注释与蛋白质序列之间的巨大鸿沟,开发自动化的蛋白质功能预测方法显得尤为重要。传统的计算方法主要依赖于同源性相似性,即通过已知蛋白质的功能推断目标蛋白质的功能。近年来,机器学习和深度学习的引入使得蛋白质功能预测取得了显著进展。然而,基于结构的预测方法却往往忽略了不同氨基酸在结构和功能中的重要性差异,无法有效地捕捉到蛋白质结构中那些与功能密切相关的关键结构域。
事实上,蛋白质是由众多特定的结构域构成的复杂分子机器,这些结构域如同一个个功能模块,不仅在结构上具有独特的特征,而且在功能上也起着决定性的作用。先前的研究已经明确表明,检测蛋白质序列中的结构域对于准确预测其功能具有极高的价值,但如何有效地整合结构域信息到预测模型中是一个亟待解决的难题。DPFunc的架构
为了解决上述问题,研究团队提出了DPFunc模型。其核心思想是利用蛋白质序列中的结构域信息,指导模型学习氨基酸在其对应结构中的功能相关性,突出与功能密切相关的结构区域,实现更准确的蛋白质功能预测。残基级特征学习模块:该模块以蛋白质序列和结构为输入,基于预训练的蛋白质语言模型(如ESM-1b)生成每个残基的初始特征,并根据蛋白质的三维结构构建接触图,这些接触图和残基特征被输入到图神经网络(GCN)中。在这个过程中,受ResNet的启发,DPFunc还引入了残差学习框架,使得模型能够更好地捕捉残基特征之间的细微差异,避免了信息在多层网络传播过程中的丢失。蛋白质级特征学习模块:作为DPFunc的关键部分,该模块首先通过InterProScan扫描蛋白质序列,检测其中的结构域,并将这些结构域转换为密集表示。随后,引入基于Transformer架构的注意力机制,结合结构域信息和残基特征,计算每个残基的重要性得分,并通过加权求和生成蛋白质级特征。蛋白质功能预测模块:将前两个模块所提取的特征进行整合,利用多层感知器(MLP)对蛋白质的功能进行预测。在这个过程中,考虑到GO术语之间的层次结构关系,DPFunc引入了一个后处理程序,确保预测结果在语义上的一致性。性能显著提升
为了全面评估DPFunc的性能,研究团队进行了一系列实验,将DPFunc与多种现有先进方法进行了对比。在实验中,研究团队使用了两个具有代表性的数据集:第一个数据集为PDB数据集,其中的蛋白质结构均经过实验验证,为模型评估提供了可靠的基准;另一个数据集则是按照CAFA挑战的标准构建的大规模数据集,该数据集涵盖了来自UniProt和GO数据库的丰富信息,包括蛋白质序列、功能注释以及从AlphaFold数据库获取的预测结构。此外,通过将数据集按照时间戳划分为训练集、验证集和测试集,研究团队模拟了真实世界中的数据分布情况,使得实验结果更具说服力。研究结果表明,DPFunc在多个评估指标上均优于现有的最先进方法。在PDB数据集上,与传统的仅基于序列的方法(如Naive、Blast、DeepGO)以及基于结构的方法(如DeepFRI)相比,DPFunc在Fmax(最大F值,衡量精度和召回率的调和平均值)和AUPR(精度-召回率曲线下面积)这两个关键指标上均取得了显著的提升。而在应用后处理程序后,DPFunc的性能进一步得到增强,在MF(分子功能)、CC(细胞成分)和BP(生物过程)方面的Fmax分别比表现优异的GAT - GO方法提高了16%、27%和23%,AUPR值也分别提高了8%、26%和19%。在大规模的CAFA数据集上,DPFunc同样表现出色,与包括BlastKNN、Diamond、DeepGOCNN、TALE等在内的多种方法以及NetGO3.0和COFACTOR等网络服务器进行对比时,DPFunc在Fmax和AUPR指标上始终名列前茅。尤其在AUPR指标上,DPFunc在MF、CC和BP方面的表现相较于其他方法至少提高了9.6%、9.3%和8.8%,这表明DPFunc在准确预测蛋白质功能方面具有显著的优势。进一步的实验分析表明,DPFunc在处理复杂的蛋白质功能预测任务时具有强大的能力。值得注意的是,尽管部分方法(如ATGO +)在某些情况下能够取得与DPFunc相当的分数,但这些方法往往只能预测部分已知功能,而DPFunc能够全面地预测所有已知功能,这进一步凸显了DPFunc在功能预测全面性和准确性方面的优势。通过对枯草芽孢杆菌蛋白质的功能注释实验,研究团队发现DPFunc在绝大多数蛋白质上的性能优于传统的S2F18方法。图:在对47种枯草芽孢杆菌蛋白质的测试中,DPFunc仅在3种蛋白质上的性能略弱于S2F18这一结果表明DPFunc在处理实际生物体系中的蛋白质功能预测问题时具有良好的应用潜力,尤其对于那些缺乏额外信息的细菌蛋白质,DPFunc能够提供更为准确和可靠的功能注释。此外,DPFunc在检测酶的活性位点方面也展现出了强大的能力。通过对两种半胱氨酸蛋白酶以及四种来自拟南芥的蜡酯合酶/二酰甘油酰基转移酶的研究发现,DPFunc不仅能够准确预测这些酶的功能,还能够精确地检测到与酶活性密切相关的关键残基,进一步证实了DPFunc在蛋白质功能研究中的重要价值。写在最后
DPFunc是一种基于深度学习的蛋白质功能预测方法,通过结合结构域引导的结构信息,能够有效识别蛋白质结构中的关键区域,并基于潜在的结构基序和关键残基准确预测功能。与现有方法相比,DPFunc在预测罕见功能、特定功能以及低序列相似性蛋白质方面表现优异,尤其在结构域信息的指导下,显著提升了预测准确性。另一方面,DPFunc能够区分结构不同的蛋白质,并检测与功能密切相关的关键残基,提供了功能与结构之间的可解释性。而作为仅需蛋白质序列作为输入的算法,DPFunc也适用于大规模蛋白质功能预测,具有广泛的应用潜力。展望未来,DPFunc的研究团队计划引入更多与蛋白质结构相关的生物知识,以丰富模型对蛋白质结构和功能关系的理解。考虑到蛋白质在细胞内并非孤立地发挥作用,而是通过复杂的相互作用网络参与各种生物学过程,如何准确预测动态功能是需要解决的另一个挑战。https://github.com/CSUBioGroup/DPFunc推荐阅读
智药局
了解和投资中国合成生物、AI制药的重要信源