文章下载
蒲奕霖, 王苏慧, 夏瑜豪, 张贵军. 蛋白质复合物链间残基距离深度学习预测方法. 中国科学:信息科学, 2025, 55(1): 94-109, doi: 10.1360/SSI-2024-0296
蛋白质—蛋白质相互作用在细胞信号传递、代谢调控和免疫防护等生命过程中发挥着至关重要的作用。通过相互作用,单体蛋白质能够形成不同结构形态的复合物,从而发挥各种生物学功能。复合物链间残基距离能够有效表征蛋白质—蛋白质相互作用,是蛋白质结构预测领域的重要研究内容。准确预测链间残基距离能够提高复合物结构预测精度,并有助于应对柔性、动态复合物结构建模等挑战性问题,有望为蛋白质生物学功能和相互作用机制等研究提供新的见解。本文提出了一种蛋白质复合物链间残基距离预测方法DPIC,流程图如图1所示。在DPIC中,首先针对输入的序列,分别构建单体序列的多序列比对和复合物序列的配对多序列比对,并预测单体结构;然后,从序列中提取残基独热编码和理化性质作为序列特征,利用蛋白质语言模型从多序列比对中提取注意力图和向量嵌入并结合位置特异性打分矩阵作为多序列比对特征,从单体结构中提取界面残基倾向、超快速形状识别和链内残基距离作为结构特征;最后,通过设计的集成多列卷积神经网络模块和三角相互作用模块的深度学习网络,实现对蛋白质复合物链间残基距离的高精度预测。(1) 构建了链间结构域—结构域相互作用数据集,有助于网络模型捕获更本质的蛋白质—蛋白质相互作用,显著提升了链间残基距离预测精度。(2) 设计了对序列、多序列比对和结构进行多维度表征的特征组合,测试结果表明了特征的有效性。(3) 构建了由多列卷积神经网络模块和三角相互作用模块组成的集成深度学习网络,并设计了适合预测任务的损失函数,有效提升了预测性能。本文在第13届至第15届蛋白质结构预测关键评估竞赛(critical assessment of protein structure prediction, CASP)中的46个二聚体目标上进行测试。实验结果表明,DPIC的链间残基接触预测精度优于主流方法DeepInter和CDPred,其中Top L/10精度分别提升了7.87%和13.74%,在F1-score上也显著优于两种对照方法,如图2所示。图2 不同方法在CASP13-15二聚体测试集上的链间残基接触预测性能比较. (a)在Top n精度指标上的性能; (b)在精度、召回率和F1-score指标上的性能
此外,在链间残基距离预测方面,DPIC在各阈值的平均绝对误差(mean absolute error, MAE)指标上均优于CDPred,如图3所示。测试结果表明,DPIC能够从链间结构域—结构域相互作用数据中学习到了更为精细的蛋白质相互作用模式。图3 DPIC-22Å和CDPred在CASP13-15二聚体测试集上的链间残基距离预测值的MAE结果比较本文设计了消融实验,以评估不同特征和数据集对DPIC性能的影响,如图4所示。实验结果表明,当去除链间结构域—结构域相互作用数据集时,模型的预测性能出现了显著下降,这表明结构域间相互作用对提升链间残基距离预测质量至关重要。此外,注意力图、界面残基倾向和超快速形状识别特征也都对模型性能产生了显著影响。图4 DPIC与消融模型在CASP13-15二聚体测试集中同源二聚体上的性能比较. (a)在MAE 8Å指标上的性能; (b)在Top L接触预测上的ROC曲线此外,本文将DPIC预测的链间残基距离作为约束信息,并结合Rosetta工具对CASP15中的大型蛋白质复合物目标T1170(PDB ID: 7PBR)和H1111(PDB ID: 7QIJ)进行了建模,DockQ-wave分数分别达到了0.56和0.57,如图5所示。建模结果表明DPIC在一定程度上有助于应对大型蛋白质复合物结构建模这一挑战性问题。图5 DPIC预测的链间残基距离指导的蛋白质复合物建模结构和天然蛋白质复合物结构对比