【佳作推荐】密歇根州立大学Guo-wei Wei、重庆理工大学Jian Liu课题组论文:利用多尺度拓扑学解密蛋白-配体相互作用

学术   科学   2024-09-18 09:28   上海  

传统的新药研发是一个高成本、低成功率的过程。长久以来,研究人员一直努力通过计算方法革新这一过程,目前常用的方法包括分子建模、分子对接和动力学模拟等基于经验或物理的模拟手段。近年来,机器学习方法,尤其是深度学习方法,在结构生物学和生物信息学领域取得了突破性的进展,可惜的是深度学习方法在药物研发的应用仍在尝试阶段。这些深度学习方法发展受限的原因主要是缺少高质量标注的数据并且缺少对物理化学特征全面且正确的表示方法。

目前,深度学习方法在自然语言处理的相关领域中取得了巨大的成功,ChatGPT就是其中最知名的产品之一。这类模型成功的原因主要是利用未标注数据进行大规模的预训练并根据下游任务进行微调,这有望成为突破药物研发领域深度学习工具所面对限制的做法。不过,处理序列信息的自然语言模型不能处理蛋白-配体复合物中复杂的三维相互作用特征。密歇根州立大学Guo-wei Wei课题组和重庆理工大学Jian Liu课题组联合团队关注到了上述问题和可能的解决方案,他们将persistent topological hyperdigraph Laplacian (PTHL)方法与Transformer架构结合提出了一个新颖的深度学习打分函数——TopoFormer模型。该工作近期发表在计算机科学和人工智能顶级期刊Nature Machine Intelligence上(Nature Machine Intelligence, 2024, 6, 799–810.)。【1

1Topoformer模型的组成结构示意图

为了正确且完整地蛋白-配体在三维空间中的相互作用,研究者使用PTHL方法将复合物的三维结构抽象成不同尺度的图结构,并进而转换成语言模型能够输入的序列特征,这也是本工作的亮点之一。TopoFormer以蛋白-配体复合物的三维结构作为输入,通过PTHL将这些复合物转化为拓扑不变量和同伦形状序列,在多个尺度上捕获它们的物理、化学和生物相互作用。研究者在设定的距离内识别蛋白和配体分子的重原子,并按不同的距离阈值将这些原子作为节点抽象成不同的有向超图。

与普通图由点和边组成不同,有向超图由这个图中所有点的集合,以及不等和不同的点的序列集合构成,这些点的顺序即表示超图中的有向超边。有向超图提供了泛化的拓扑信息,包括图、有向图、单纯复形和超图。当有向超图中所有的超边都是有序的情况下,有向超图可以简化为超图,而当所有有向边被限制在一维(点到点)时候,有向超图就可以简化为有向图,这种多样性使得有向超图可以兼容多样的数据表征。图2AB分别表示了不同维度的单形和有向超边,他们分别是不同维度单纯复形和有向超图的基本组成单位,这些形状都可以由有向超图通过不同的拓扑变换的搭配。从图2C可以看出,对于一个蛋白分子,不同的变换结果能够有效捕捉其二级结构特征和进一步的多原子间关系。

2:有向超图的表示及其组成示意图。A)单形:不同维度单纯复形的基本组成单位;(Bk-向超边:不同维度有向超图的基本组成单位;(C)从PDBID6L9D的蛋白分子提取得到的有向超图及其代表性的变换形式。

得到不同的有向超图后,根据配体和蛋白包含的元素进行划分,全原子的有向超图可以得到一系列反映元素间作用的子图,研究者通过拉普拉斯矩阵及其特征值表示子图的拓扑特征,类似于物理系统的能量谱的计算。通过进一步的变换,这些特征值的排列就能被转换成语言模型能接受的序列形式特征。通过这一方法,Topoformer可以从复合物结构提取到氢键、π-堆积等点对点的相互作用,以及电负性和电离能等传统方法不能表示的作用。

为了对应地解决打分函数的四项任务,Topoformer采用预训练-微调的模式进行开发。Topoformer使用来自多个版本的PDBbind的结构数据进行预训练,包括CASF-2007CASF-2013CASF-2016PDBbind v.2020,去冗余后共包含19513个复合物结构。对于打分和排序任务,微调采用各版本PDBbind的精选集,核心集则作为测试数据。对于对接任务,模型需要挑选出最接近晶体构象的结合姿势,研究者使用CASF-2007CASF-2013对接能力测试集中的复合物及对接出的结合姿势作为测试集,使用GOLD重新为这些复合物生成大量对接构象作为微调的训练集。对于筛选任务,研究者则分别使用PDBbind v.2015精选集和CASF-2013的核心集作为微调训练集和测试集。

模型评估中,研究者将Topoformer与目前流行的部分方法进行了横向比较,结果如图3所示。在打分能力上,Topoformer与梯度增强树回归模型结合进行打分时能够取得最佳的性能,在三个版本CASF上(200720132016)得到的平均Pearson相关性系数约为0.84Topoformer单独使用也能取得约0.82的好成绩。在排序能力上,研究者按高低两个水平进行了评价,其中高水平指同靶点中配体活性全部排序正确,低水平指正确排序出活性最高的配体。结果表明,Topoformer在高低两个水平上均具有明显优于其他方法的排序成功率。在对接能力的测试中,得益于PTHL方法带来的多尺度结合模式表征,模型在CASF-2007CASF-2013上均以最高成功率(93.3%91.3%)识别出晶体构象。最后,研究者在CASF-2013LIT-PCBA上分别测试了模型与机器学习方法结构后的筛选能力,Topoformer也表现出领先一些经典打分函数和基于互作指纹的基准方法的潜力。

3 Topoformer模型的对接(A)、排序(B)、对接(C)、筛选(D)能力的测试结果

小编评论

本文关注了深度学习方法在药物研发领域中应用的最重要的两个问题:缺少数据和表征方法不完备。研究者通过使用语言模型进行化学信息的预训练和多尺度拓扑学分别解决了这些问题,并且获得了优秀的结果。有些可惜的是,由于考虑数据集的一致性,本文中提出的Topoformer并未与最优的模型进行充分的横向比较。不过,Topoformer所创新的有向超图表征方法为该领域的研究者架起了三维物理化学特征和序列信息的桥梁,很具有启发意义。

参考文献

1Chen, D.;  Liu, J.; Wei, G.-W., Multiscale topology-enabled structure-to-sequence transformer for protein–ligand interaction predictions. Nature Machine Intelligence 2024, 6 (7), 799-810.


ComputArt计算有乐趣
ComputArt由复旦药学院王任小研究员团队创建维护,旨在推送计算化学、分子模拟、药物设计等领域的新进展,提升大众对计算科学的关注。我们的口号是:科研有乐趣!计算有乐趣!欢迎国内外同行投稿,邮箱:wangrx@fudan.edu.cn
 最新文章