EquiScore: 融合物理先验知识与数据增强模型蛋白质-配体相互作用评分方法

文摘   2024-06-15 09:01   广东  


  榴莲忘返 2014  

导读

EquiScore 利用异质图神经网络在等变几何空间中表征蛋白质-配体相互作用,并提高评分方法的准确性和通用性。

EquiScore 采用了一种异构图神经网络,利用物理先验知识来表征蛋白质与配体在等变几何空间中的相互作用。这种方法不仅仅学习训练数据中的蛋白质和配体,而是通过一种新的数据集构建方法,该方法包括多种数据增强策略和严格的冗余去除方案,从而确保了模型的高效泛化能力。在两个大型外部测试集上,EquiScore 展示了其顶尖的性能,与 21 种其他评分方法相比,显示出其卓越的优势。此外,当 EquiScore 与不同的对接方法结合使用时,可以有效增强这些对接方法的筛选能力。在一系列结构类似物的活性排名任务中,EquiScore 也展示了良好的性能,表明其在引导先导化合物优化方面的潜力。最后,通过研究 EquiScore 的不同解释性级别,研究者提供了关于基于结构的药物设计的更多见解。

PDBscreen 数据集构建与对接流程解析

蛋白准备

所有蛋白质结构均利用 Schrödinger 软件的 Maestro 模块中的 Protein Preparation Wizard 进行优化处理,具体步骤如下:

  • 添加氢原子
  • 指定键类型
  • 填补缺失的侧链和环结构
  • 移除距离配体超过 5 埃的水分子
  • 使用 OPLS-2005 力场对体系进行能量最小化,直至重原子的均方根位移达到 0.30 埃

配体预处理与对接准备

采用 LigPrep 模块中的 Epik 功能,计算在目标 pH 值 7.0±2.0 条件下可能的分子离子化状态。随后,使用 OPLS-2005 力场生成能量最低的配体构象,作为后续对接实验的初始结构。

受体网格生成与分子对接

  • 受体网格生成: 在 Schrödinger 软件中生成受体网格,内部盒子大小为 10×10×10 埃,外部盒子向每个方向扩展 10 埃。
  • 分子对接: 使用 Glide 模块进行分子对接,采用标准精度模式。

数据收集与重新对接

从 PDB 数据库下载所有蛋白质-配体复合物结构,筛选出分辨率高于 2.5 埃的晶体结构。对这些复合物进行重新对接,并仅保留重新对接后排名靠前的构象。

跨蛋白对接与诱饵结构生成

  • 跨蛋白对接: 利用 UniProt 网站将 UniProt ID 与 PDB ID 进行映射,并对不同的蛋白质进行对接实验。
  • 诱饵结构生成: 使用生成模型 DeepCoy 为每个 PDB ID 生成 500 个诱饵结构,并通过分子对接获得这些诱饵结构的构象。

数据去重与模型训练

为避免数据泄露对模型性能的影响,从训练集中移除与外部测试集中相同 UniProt ID 的数据,并在模型训练过程中使用 Adam 优化器,以提升模型的泛化能力。

实验方法与性能评估

  • 基线模型: 对比了包括 Kdeep、3D-GNN 和 PIGNet 在内的多个模型。
  • 外部测试数据集: 使用 Schrödinger 公司发布的 LeadOpt 数据集进行评估。
  • 虚拟筛选数据集: 采用 AUROC、BEDROC 和 EF 等指标评估模型在虚拟筛选方面的性能。

结果

  • 数据集构建中存在的偏差限制了模型的泛化能力。
  • 作者采用多种策略优化正负样本的构建,以增强模型的泛化能力。
  • 经过优化的数据集在未知蛋白质上展现出更优的虚拟筛选性能。

研究人员发现,虚拟筛选 (VS) 训练数据集的构建过程中存在三种潜在偏差:人为富集偏差、类似物偏差和假阴性偏差。这些偏差会限制训练模型的泛化能力,并增加出现假阳性的可能性。为了解决这些问题,研究人员从蛋白质数据库 (PDB) 中收集了复杂的晶体结构,以增加正样本的多样性,减轻数据集的类似物偏差问题。此外,通过保留近似天然构象的样本,并使用生成模型 DeepCoy 生成 500 个物理和化学性质相似的伪样本作为负样本,可以限制人为富集偏差,并改进负样本的分子多样性。

使用不同的数据集和评估方法测试了模型在未知靶标上的泛化能力。结果表明,新构建的数据集 PDBscreen 在对未知蛋白质进行虚拟筛选时表现出更高的性能。此外,EquiScore 模型在处理由不同分子对接软件生成的构象时,展现出稳健的重新评分能力,进一步验证了数据集和模型策略的有效性。通过对模型各组成部分进行消融研究,研究人员发现数据增强方法和模型设计在不同应用场景中的贡献差异显著。

图 1:PDBscreen 数据集构建流程

图 1 展示了从 PDB 数据库收集数据以及构建数据增强的流程示意图。左侧面板为数据收集流程图,右侧面板为数据增强示意图。

图 2:EquiScore 总体架构

图 2 描述了 EquiScore 的构建流程:(a) 构建异构图作为输入;(b) 利用嵌入层初始化特征到潜在空间;(c) EquiScore 层用于特征提取和融合;(d) 将配体的特征传送到任务层以预测蛋白质-配体相互作用;(e) 应用场景。其中,Attn 代表注意力机制,Emb 代表嵌入,MLP 代表多层感知器,xN 表示重复 N 次。

图 3:22 种评分方法在 DEKOIS 2.0 上的评估结果

图 3a-e 分别根据曲线下面积(AUROC) (a,d)、玻尔兹曼增强判别受试者工作特征(BEDROC) (α = 80.5) (b,e) 和 5.0%富集因子(EF) (c,f) 对 22 种评分方法进行评估。蓝色三角形代表每个区间的均值,所有方法按均值排序。图 3a-c 为在完整数据集上的结果(数据点数量 n = 81),图 3d-f 为在与 PDBbind 2020 数据库去重后的数据集上的结果(数据点数量 n = 11)。所有箱线图均包含中位数线:箱体代表四分位距(IQR),须线代表数据分布的其余部分,范围为 ±1.5 × IQR。

图 4:22 种评分方法在 DUD-E 上的评估结果

图 4a-e 分别根据 AUROC (a,d)、BEDROC (α = 80.5) (b,e) 和 5.0% EF (c,f) 对 22 种评分方法进行评估。蓝色三角形代表每个区间的均值,所有方法按均值排序。图 4a-c 为在完整数据集上的结果(数据点数量 n = 102),图 4d-f 为在与 PDBbind 2020 数据库去重后的数据集上的结果(数据点数量 n = 12)。所有箱线图均包含中位数线:箱体代表 IQR,须线代表数据分布的其余部分,范围为 ±1.5 × IQR。

图 5:EquiScore 对 DEKOIS 2.0 上不同对接构象的重评分性能比较

图 5a-c 分别根据 EF (top 1.0%) (a)、BEDROC (α = 80.5) (b) 和 AUROC (c) 对 EquiScore 在 DEKOIS 2.0 上不同对接构象的重评分性能进行评估。数据点数量 n = 81。所有箱线图均包含中位数线:箱体代表 IQR,须线代表数据分布的其余部分,范围为 ±1.5 × IQR。

图 6:通过可视化注意力分布解释 EquiScore

图 6a 为注意力得分分布在分子间作用指纹(IFP)边和共价边上的结果(数据点数量 n = 10,000,从内部测试数据中随机抽样)。图 6b 和图 6c 分别为配体 PTP1B 23484 (b) 和 PTP1B 23485 (c) 上的注意力权重,颜色越深代表权重越大。图 6d 为 PTP1B 23485 与人类 PTP1B (PDB ID: 2QBS) 的预测结合模式。图 6e 为 PTP1B 23485 的甲基(橙色节点)与蛋白质口袋原子(蓝色节点)之间相互作用的注意力权重。

总结

作者首先使用数据增强策略创建了一个新的数据集 PDBscreen,通过增加近原生配体结合构象的正样本和生成具有高欺骗性的干扰样本来扩大样本量。其次,利用此数据集训练了一个模型,该模型采用不变性的异构图架构,结合了不同的物理和先验知识。模型性能评估结果显示,EquiScore 在两个外部数据集 DEKOIS2.0 和 DUD-E 上与 21 种现有评分方法相比,在未见蛋白质的虚拟筛选场景中持续获得顶级性能。在先导化合物优化场景中,EquiScore 性能仅次于 FEP+,但考虑到 FEP+ 计算的高成本,EquiScore 显示出更平衡的速度和准确性优势。此外,EquiScore 在应用于不同分子对接方法生成的构象时表现出稳定的重排序能力,能够增强所有评估方法的虚拟筛选性能。最后,作者分析了模型的解释性,发现该模型能够捕捉关键的分子间作用,证明了模型的合理性,并为合理的药物设计提供了有用的线索。强大的蛋白质-配体相互作用预测能力将为学习蛋白质的生物学提供宝贵的机会,并确定它们对未来药物治疗的影响。


参考资料:
  • Cao, D., Chen, G., Jiang, J., Yu, J., Zhang, R., Chen, M., Zhang, W., Chen, L., Zhong, F., Zhang, Y., Lu, C., Li, X., Luo, X., Zhang, S., & Zheng, M. (2024). Generic protein–ligand interaction scoring by integrating physical prior knowledge and data augmentation modelling. Nature Machine Intelligence. https://doi.org/10.1038/s42256-024-00849-zIF: 23.8 Q1 B1

  • PDF Download: https://is.gd/RIVub2

— 完 —

对相关内容感兴趣的读者,可以添加小编微信加入读者实名交流互助群添加时请主动注明姓名-企业-职位/岗位 或  姓名-学校-职务/研究方向

点击这里 👉 关注我,记得标星哦~


榴莲忘返 2014
科研如榴莲,又臭又甜!
 最新文章