SurfDock—蛋白质-配体对接新工具

2024-12-19 20:35   新加坡  
蛋白质与小分子配体的相互作用是维持生命活动的核心。无论是酶催化、信号传递还是基因表达调控,这些相互作用都扮演着重要角色。然而,如何精准预测蛋白质与配体的结合位点及其三维结构一直是结构生物学和药物设计中的关键难题。


近日,一项发表于Nature Methods 的研究引入了名为SurfDock 的全新工具。该工具基于深度学习的扩散生成模型,整合了蛋白质的表面信息,为蛋白质–配体对接预测提供了更高的准确性和广泛的适用性。


什么是SurfDock?


SurfDock 是一种结合人工智能技术的新型蛋白质–配体对接方法。它突破了传统方法的限制,通过整合蛋白质的序列、残基结构图和表面几何信息,为配体结合姿态的预测提供了更加全面和精准的描述。

SurfDock 的核心包括以下几个创新点:

  1. 多模态蛋白质信息整合

  • 蛋白质结合口袋的信息被分为三层:序列级别、残基图级别和表面级别。尤其是表面信息的使用,提供了几何和化学特征的细致表示。
  • 扩散生成模型

    • 模型通过逐步去噪生成接近真实结合状态的配体姿态,能够模拟配体的平移、旋转和扭转自由度,精准再现动态分子相互作用。
  • 可信度评分模块(SurfScore)

    • 该模块利用晶体复合物数据进行训练,对每个生成姿态进行评分,帮助研究人员快速筛选出最合理的结合状态。
  • 后处理优化

    • SurfDock 提供了可选的能量最小化步骤,进一步提高了预测的物理合理性。


    为什么 SurfDock 更出色?


    SurfDock 的研究团队在多个基准数据集(如 PDBbind2020、PoseBusters)上验证了其性能,与传统方法和其他深度学习模型相比,SurfDock 具备以下优势:

    1. 更高的对接成功率

    • 在结合姿态预测中,SurfDock 的成功率(即与晶体结构的均方根偏差小于 2Å 的比例)显著领先。尤其是在包含灵活配体的复杂数据集中,其成功率依然保持领先。
  • 卓越的泛化能力

    • SurfDock 能够处理训练集中未见过的蛋白质或其空配体结构,展现出强大的适应能力。这在探索新型药物靶点时尤为关键。
  • 实际应用中的表现

    • 在针对 ALDH1B1(醛脱氢酶)的虚拟筛选中,SurfDock 成功发现了 7 种具有全新骨架的活性分子,这些分子不仅显示了显著的酶抑制活性,还提高了靶蛋白的热稳定性。

    如何部署和使用 SurfDock


    SurfDock 的部署和使用流程相对简便,以下是关键步骤:

    1. 准备环境

      # 创建虚拟环境python3 -m venv surfdock_envsource surfdock_env/bin/activate
      # 安装依赖库pip install torch torchvision rdkit-pypi masif












    • 安装所需的软件和库,如 Python 3.8+、Pytorch、RDKit 和 MaSIF。
    • 确保计算环境具有 GPU 支持,以加速模型运行。
  • 下载代码和模型

    git clone https://github.com/example/surfDock.gitcd surfDock




    • 下载预训练模型:
      wget https://example.com/surfDock/pretrained_model.pth -O models/pretrained_model.pth


    • 从官方代码库(例如 GitHub)克隆 SurfDock 的源码:
  • 数据准备

    obabel protein.pdb -O processed_protein.pdb --addh


    • 提供配体的 2D SMILES 表示或 3D 结构文件。
    • 提供目标蛋白的结构文件(如 PDB 格式)。
    • 使用预处理工具优化蛋白结构,确保结合口袋的表面信息准确:
  • 运行对接任务

    • 使用以下代码调用 SurfDock:
      from surfDock import SurfDock
      # 加载模型model = SurfDock(model_path="models/pretrained_model.pth")
      # 输入蛋白和配体文件protein_file = "processed_protein.pdb"ligand_file = "ligand.smi"
      # 运行对接results = model.dock(protein_file, ligand_file, num_poses=10, minimize=True)
      # 保存结果with open("docking_results.txt", "w") as f:    for pose in results:        f.write(f"Pose RMSD: {pose['rmsd']}, Score: {pose['score']}\n")
































  • 结果分析

    pymol processed_protein.pdb docking_results.pdb


    • SurfDock 会输出多个结合姿态及其 SurfScore 评分。
    • 使用可视化工具(如 PyMOL)查看对接结果:
  • 优化与应用

    • 根据实际需求调整模型参数,或使用训练数据微调模型以适应特定任务。

    SurfDock 的意义


    1.药物研发的加速器

    传统的药物筛选往往需要花费大量时间和资源,而 SurfDock 提供了一种高效的虚拟筛选解决方案,能够快速识别潜在命中化合物,显著降低研发成本。

    2.拓展基础研究的边界

    通过 SurfDock,研究人员可以更准确地探索蛋白质–配体相互作用的分子机制,从而推动基础生物学和结构生物学的发展。

    3.面向未来的灵活性

    SurfDock 的方法能够适应更加复杂和动态的蛋白质结构,例如包含柔性变化的空配体(apo)结构。这种能力为处理真实生物环境下的蛋白质–配体相互作用提供了可能。


    SurfDock 的出现标志着蛋白质–配体对接研究迈入了一个新阶段。它不仅提高了结合预测的准确性,还展示了在药物研发中的实际应用潜力。随着算法的进一步优化和计算能力的提升,SurfDock 有望成为结构生物学和药物设计领域的核心工具,为疾病机理研究和新药开发开辟全新路径。

    BioTender
    拥抱问题,积极探索