HDOCK分子对接 详细教程

文摘   2024-09-02 01:14   江苏  

经常有小伙伴是否可以有偿做分子对接,今天我们分享一款可以详细做分子对接的在线服务器——HDOCK 服务器。


AlphaFold3—转录因子预测(实操)


HDOCK 服务器(http://hdock.phys.hust.edu.cn/)是一个高度集成的套件,包括同源性搜索、基于模板的建模、结构预测、大分子对接、生物信息整合和工作管理,用于稳健而快速的蛋白质-蛋白质对接。根据受体和配体分子的输入信息(氨基酸序列或蛋白质数据库结构),服务器通过基于模板和无模板对接的混合算法自动预测它们之间的相互作用。HDOCK 服务器与同类对接服务器的不同之处在于,它能够支持将氨基酸序列作为输入,并采用混合对接策略,在对接和对接后过程中纳入有关蛋白质-蛋白质结合位点和小角 X 射线散射的实验信息。此外,HDOCK 还支持带有内在评分功能的蛋白质-RNA/DNA 对接。该服务器提供基于模板和对接的双分子结合模型,并允许下载和交互式可视化。HDOCK 服务器对用户友好,自 2017 年正式发布以来,已处理了 >30,000 项对接工作。服务器通常可在 30 分钟内完成对接工作。


 背景

自 Wodak 和 Janin 的开创性工作以来,分子对接技术取得了长足的进步,在过去的十年中从早期的无模板对接(仅使用两个分子的结构来预测复合物的结构)  发展到信息引导对接(在对接过程中使用实验结合信息来约束推定结合模式的取样) 。与此相对应,分子对接方法的发展过程中也出现了新的挑战,这一点可以从 “相互作用预测关键评估”(Critical Assessment of PRediction of Interactions,CAPRI: https://www.ebi.ac.uk/pdbe/complex-pred/capri/)  社区实验中看出。首先,随着结构基因组学的快速发展  ,越来越多的蛋白质-蛋白质复合物结构正在通过实验确定。因此,PDB  中有关相关蛋白结合界面的信息越来越多。此外,还可以通过序列进化分析 或深度学习 得出蛋白质之间残基接触的信息。然而,如何有效地将这些结合界面信息纳入对接是一项挑战,尤其是对非专业生物学家而言。其次,分子对接始于分子的三维结构。然而,大多数蛋白质只有序列而没有三维结构。由于分子对接的许多用户都是不熟悉结构预测的非专业生物学家,因此有必要开发一种同时支持氨基酸序列输入的蛋白质-蛋白质对接协议。


为了应对这些挑战,我们通过基于模板的建模和无模板对接(ab initio template-free docking)的混合策略,开发了一个高度集成的用于蛋白质-蛋白质对接的 HDOCK 服务器 (http://hdock.phys.hust.edu.cn/)。该服务器自动整合了来自 PDB 的结合界面信息和/或用户输入的生物信息,如残基限制和从小角度 X 射线散射(SAXS)中获得的分子尺寸/形状信息,支持氨基酸序列和结构输入,并使用蛋白质-蛋白质相互作用的内在评分函数 。此外,该服务器还支持蛋白质-核糖核酸/核糖核酸对接,这是分子对接的一个相对较新的领域 。我们的服务器用户界面友好,自 2017 年首次发布以来,已处理了来自世界各地的 >30,000 项对接工作。最近,HDOCK在2018年全社区范围的结构预测13(CASP13)-CAPRI实验中被评为多聚蛋白结构预测的第一对接服务器 。在此,本文介绍 HDOCK 服务器的详细操作规程,包括服务器输入、工作监控、结果解读和故障排除说明,方便非专业生物学家使用对接服务。


HDOCK 服务器的开发

HDOCK 的开发极大地受益于 CAPRI (全社会对蛋白质-蛋白质相互作用建模方法的盲目评估),并不断受到实验生物学家需求的推动。自 2001 年启动以来,CAPRI 已成为促进开发和改进新的和现有对接算法的重要平台。我们利用免费的蛋白质对接程序 HDOCKlite (http://huanglab.phys.hust.edu.cn/software/hdocklite/) 开始开发 HDOCK 服务器。该对接程序首先通过基于快速傅立叶变换(FFT)的全局搜索方法对两个蛋白质之间的推定结合模式进行采样7,然后利用改进的基于知识的蛋白质-蛋白质相互作用迭代评分函数对采样的结合模式进行评估 。这种基于 FFT 的方法和分层对接算法已在 CAPRI 实验中证明了其优势和良好性能 。

 

直到 2016 年,尽管我们的对接方案在 CASP11-CAPRI 和 CASP12-CAPRI 社区实验中的多聚蛋白结构预测中取得了优异的成绩,但对接管道的许多步骤仍然需要人工完成,如根据序列构建结构、整合结合界面信息和运行对接命令。随后,考虑到许多实验生物学家不具备专业知识和计算机资源来一步步手动进行此类对接计算,我们简化了对接协议的整个流程,并于 2017 年发布了第一个自动版本 HDOCK ,这是一个基于混合策略的蛋白质-蛋白质和蛋白质-RNA/DNA 对接网络服务器。在该版本中,蛋白质同时支持结构和氨基酸序列,但 RNA/DNA 只接受结构,因为 RNA/DNA 的自动结构预测比蛋白质更具挑战性。与蛋白质相比,RNA 和非经典 DNA 在序列结构关系上的保守性要低得多。因此,根据序列预测 RNA/DNA 的结构要比预测蛋白质的结构困难得多,而且 RNA/DNA 也比蛋白质灵活得多,这就给 RNA/DNA 对接带来了极大的困难。目前,RNA 的无模板结构预测仍不可靠,只能基于 RNA/DNA 分子的高同源模板生成高质量的模型


HDOCK 服务器自 2017 年发布以来,受到了研究界的广泛欢迎并完成了来自世界各地的 >30,000 项工作。与此同时,我们的 HDOCK 服务器也进行了重大更新,包括纳入 SAXS 实验数据信息的能力,以及同源搜索、基于模板的建模和蛋白质结构预测的改进。最近,HDOCK 在 2018 年全社会 CASP13-CAPRI 挑战赛中被评为多聚蛋白结构预测对接网络服务器第一名20。


HDOCK分子对接流程概述

我们的 HDOCK 服务器的工作流程如图 1a 所示。服务器有两种工作模式:一种是默认的混合对接模式,另一种是无模板对接模式。


首先,用户需要提供两个独立蛋白质的输入(步骤 2 和 3),一个是受体,另一个是配体,其中氨基酸序列和 PDB 结构都支持。然后,服务器将根据蛋白质的序列在 PDB 中搜索推定的同源模板,对受体和配体分子进行基于模板的建模。如果找到同源复合物模板,无论输入的是序列还是结构,都将根据找到的模板为受体和/或配体构建新结构;否则,如果输入的是序列,将根据单体模板构建三维结构。如果没有找到输入序列的模板,对接管道将在没有预测的情况下退出(图 1a)。


因此,HDOCK 服务器使用的单个蛋白质结构可能有三种类型(图 1b):(i) 基于复合模板的同源模型;(ii) 用户输入的 PDB 结构;(iii) 基于单体模板的同源模型。对于 “混合 ”和 “无模板 ”对接模式,优先顺序分别为 1-2-3 和 2-3。


接下来,HDOCK 服务器将根据受体分子和配体分子的结构,通过基于 FFT 的搜索方法进行全局对接,对推定的结合模式进行采样,然后利用我们的蛋白质-蛋白质相互作用内在评分函数对其进行评估。在对接过程(第 7 步)和/或对接后过程(第 6 步和第 7 步)中,可以加入生物信息,如蛋白质-蛋白质结合位点的实验数据或 SAXS 图谱。


最后,前 100 个预测的复合物结构将提供给用户下载,其中前 10 个模型可通过结果网页上的交互式 NGL 查看器36 进行可视化(步骤 13 和 14)。


a.HDOCK服务器使用的工作流程,包括四个阶段:工作输入、基于模板的建模和结构预测、分子对接和最终结果交付。b, HDOCK 服务器用于对接的三维结构的优先顺序,其中 “混合 ”和 “无模板 ”对接模式下蛋白质的顺序分别用红色实线箭头和橙色虚线箭头表示。



分子对接案例:蛋白质之间的结合

HDOCK 服务器的一个基本功能是预测两个相互作用蛋白质的相互作用界面。HDOCK 服务器的一个重要功能是支持氨基酸序列输入,并能自动纳入有关两个蛋白质相互作用的实验信息。因此,HDOCK 可用于通过预测参与蛋白质的复合结构来研究蛋白质-蛋白质相互作用的分子机制,尤其是在已有一些关于结合的生物学信息的情况下。例如,Dudenhoeffer 等人 利用 HDOCK 服务器模拟了 N-利用物质因子 A(NusA-AR2)的酸性重复 2 结构域与肌醇单磷酸酶 SuhB 之间的复合物结构。15N-NusA-AR1-AR2 与 SuhB 的[1H,15N]核外单量子相干滴定的化学位移扰动可用于确定 NusA-AR2 与 SuhB 相互作用的关键残基。在这个例子中,核磁共振实验信息可以转化为残基限制,作为 HDOCK 服务器的输入。根据输入的蛋白质结构和残基限制,HDOCK 服务器生成了一个适当的模型,该模型显示 NusA-AR2 通过带负电荷的螺旋 α3 和 α531 与 SuhB 带正电荷的区域结合。




下面我们正式开始今天的内容,共有20步。


第 1 步,访问 HDOCK 主页:<1 分钟
步骤 2 和 3,输入受体和配体分子:5 分钟
步骤 4-7,提供高级选项(可选):5 分钟
步骤 8 和 9,提供工作信息(可选):1 分钟
第 10 步,提交任务:<1 分钟
第 11 步,监控任务状态:10-60 分钟
第 12-17 步,分析 HDOCK 结果:5-20 分钟
步骤 18-20,分析本地结果(可选):10-30 分钟


首先我们要明确两个注意点:

  1. 蛋白是否含有多个亚基

  2. 是否已有文献报导结合位点的位置




1.进入官网

 http://hdock.phys.hust.edu.cn/


2.在 “Input Receptor Molecule(输入受体分子)”部分,使用四个选项之一提供受体分子的输入(FASTA 格式的氨基酸序列或 PDB 结构)(详见方框 3)。

用户可以输入受体分子 (1)、配体分子 (2)、高级选项 (3) 和可选的电子邮件地址或工作名称 (4),然后提交工作 (5)。



3.在 “Input Ligand Molecule(输入配体分子)”部分,使用四个选项之一提供配体分子的输入信息(FASTA 格式的氨基酸序列或 PDB 结构。



4

(可选)选择无模板对接( 默认情况下,HDOCK 执行基于模板的建模和无模板对接的混合协议。不过,在某些情况下,用户可能希望只执行无模板对接,而不使用 PDB 中的复杂信息。这可以通过选中该选项来实现。


5

(可选)执行对称多聚体对接 。如果用户希望执行对称对接以获得对称的同源多聚物复合物结构,可以在文本框中提供对称性。服务器支持 Cn 和 Dn 对称对接


注意事项

在对称多聚体对接模式下,只需要将受体分子作为单体输入。无论是否提供配体分子的信息,配体分子都会被忽略。此外,该模式下只能进行无模板对接。


6

(可选)提供 SAXS 实验数据 。点击 “浏览”(Browse)按钮从本地计算机中选择文件,上传 SAXS 数据文件。SAXS 数据文件应为三列格式,包括以 1/Å 为单位的角度 (q)、散射强度 (I) 和实验误差。用户可点击 “示例 ”链接下载 SAXS 样本文件。


7

(可选)指定结合位点的残基作为对接的约束条件。点击 “指定结合位点残基 ”显示选项(图 5)。支持两种类型的结合位点限制条件,可以直接在文本框中输入或以文本文件形式上传(详见方框 4)。



图 5:提供结合部位残基的扩展界面。

图 5

两种限制条件可直接粘贴或上传文件:受体或配体上的结合位点残基以及受体和配体之间的残基限制条件。


8

(可选)在文本框中输入您的电子邮件地址 ,以便在任务完成时收到电子邮件通知。


如果用户不想保留作业状态页面或在步骤 11 中将作业状态页面加入书签,建议他们提供一个电子邮件地址,以便在作业完成时收到通知。


(可选)在文本框中输入作业名称( 。如果提供了作业名,作业名将显示在作业状态页面上;否则,作业名将是服务器系统生成的作业 ID。


9

提交作业

点击submit


10

单击输入页面底部的 “提交 ”按钮提交作业(上图中的标签 5)。



11

监控任务状态。作业提交后,网络界面将重定向到显示作业名称和运行状态的页面(示例见方框 5)。页面上的作业状态每 10 秒更新一次。作业完成后,对接结果将自动显示在页面上。对接过程一般需要 10 分钟左右。



注意点1:

如果用户没有在步骤 8 中提供电子邮件地址,建议将作业状态页面添加到书签中,以便日后检索对接结果。


对接作业提交成功后,该作业将进入队列等待运行。用户可以将作业状态页面加入书签,并关闭作业状态页面。作业完成后,可通过书签页面或电子邮件通知中的链接访问对接结果。


注意点2:

对于氨基酸序列输入,只支持标准氨基酸,且蛋白质应只包含一条链。建议用户输入多链蛋白质的结构。


为了提高对接效率,如果一个分子比另一个分子大很多,建议使用两个分子中较大的一个作为受体。


HDOCK 服务器主要是为蛋白质-蛋白质对接而开发的,但通过整合蛋白质-RNA 相互作用的内在评分功能,该程序也适用于蛋白质-RNA/DNA 的对接。对于蛋白质-RNA/DNA 的对接,RNA/DNA 结构可以作为受体或配体输入。



HDOCK的优劣

分子灵活性

HDOCK 服务器中的对接引擎通过将受体和配体分子映射到网格上进行刚体对接。因此,蛋白质内部的灵活性可能会对对接结果产生重大影响,例如,如果受体和/或配体分子在结合时发生了较大的构象变化,尽管可以通过网格隐含地考虑一定程度的灵活性。这是 HDOCK 或其他刚体对接方法固有的问题 。不过,如果受体和配体对接时有一个同源复合物模板,这种限制可能会大大减少,因为与无模板对接相比,HDOCK 中基于模板的对接可以纳入更大的构象变化。如果用户提供一些关于结合的残基限制,也可以间接解决灵活性的影响,这可以极大地帮助 HDOCK 协议选择正确的结合模式。


蛋白质同源模型的准确性

HDOCK 服务器的一个亮点是支持蛋白质的氨基酸序列输入。不过,需要注意的是,尽管我们的对接策略和评分函数可以考虑一定程度的结构不确定性,但同源建模生成的三维结构的准确性在很大程度上取决于目标物和模板 之间的序列同一性。一般来说,在序列同一性大于 50% 的情况下,模型与实验结构之间的总体均方根偏差(RMSD)小于 1 Å,因此模型往往是可靠的 。在 30-50% 的序列同一性范围内,模型在环路上的一些误差也是可以接受的;但是,如果序列同一性低于 30%,即使在基本褶皱中也会出现严重的误差 。通常情况下,我们的 HDOCK 服务器能够根据序列为简单和中等难度的目标构建可靠的三维结构 。但是,对于那些难度较高的目标,HDOCK 服务器可能无法找到构建结构的模板,因此在结果页面上无法给出预测结果。在这种情况下,建议用户使用专门的结构预测方法(如 I-TASSER)  进行结构建模,然后将建模的三维结构提交给 HDOCK 服务器进行对接。此外,HDOCK 目前只能根据序列建立单链蛋白质结构模型。因此,如果蛋白质含有多链,建议用户上传自己的三维结构。



30min过去了,还没结果。今天我们先到这里,等明天来看看结果如何


点击submit

提供邮箱可以事实观察分子对接状态


 


生信小博士
【生物信息学】R语言开始,学习生信。Seurat,单细胞测序,空间转录组。 Python,scanpy,cell2location。资料分享
 最新文章