来自湖南大学曾湘祥教授领导下的DrugAI实验室在2024年11月8号背靠背发表的两篇Nature子刊论文。
在第二篇文章中,准确的分子表征是预测药物靶点和分子性质的基本挑战。本研究提出了一种基于分子视频的基础模型VideoMol,该模型在2百万种未标记的药物类和生物活性分子的1.2亿帧数据上进行预训练。VideoMol将每个分子渲染为包含60帧的视频,并设计了三种自监督学习策略来捕获分子表征。研究表明,VideoMol在43个药物发现基准数据集上的分子靶点和性质预测中表现优异,筛选后的药物显示出比传统分子对接方法更好的结合亲和力,证明了其在理解分子三维结构方面的有效性。此外,作者还通过关键化学子结构展示了VideoMol的可解释性。
论文1
在药物研发中,寻找能与特定蛋白结合的配体至关重要。尽管虚拟筛选通过计算程序识别小分子库中的活性化合物,但由于化学空间和化合物库的限制,效果有限。相比之下,从零生成分子的de novo药物设计可探索更广的化学空间。近年来,深度生成模型在分子生成上取得了进展,提出了多种方法如自回归模型、变分自编码器和生成对抗网络等。然而,这些模型难以直接生成针对特定蛋白的分子,需额外筛选。一种趋势是考虑分子与蛋白靶标的相互作用,如LiGAN和3D-SBDD方法,但其依赖结构信息,限制了对未知结构的新靶标的应用。
受DNA编码化合物库启发,作者提出了基于深度学习的DeepBlock框架,用于de novo药物设计,采用分子构建块来生成和重构分子。核心是将生成过程分为生成构建块和分子组装两步。DeepBlock通过BGNet生成构建块序列,预训练扩展了化学空间,并引入靶点贡献感知模块,提升了模型在缺乏3D结构信息时的性能。
DeepBlock模型框架
图1
如图1所示,本文提出了基于深度学习的DeepBlock框架,用于生成和优化配体分子。其生成过程分为两个步骤:构建块生成和分子重构。作者设计了分子碎片化和重构算法,将配体分子转换为块序列供BGNet训练,并重构生成的块为有效分子。BGNet采用配体和蛋白的双重编码方案,结合结合位点贡献感知网络预测每个蛋白残基在配体结合中的重要性,影响目标表示(图1b)。通过自监督预训练和ESM-2模型的应用,提升了模型的分子理解和蛋白序列特征提取能力。在生成过程中,BGNet以蛋白序列为输入条件生成配体块序列(图1c),并结合模拟退火方法(SA)或贝叶斯优化算法(BO)实现分子性质的可控优化(图1d)。在图1e中,作者提出了一种基于图的碎片化和重构算法,实现“分子→块序列→分子”的转换,并严格保证分子在转换前后保持一致。
实验结果
图2
如图2a所示,DeepBlock生成的分子在对接亲和力上与TargetDiff和Pocket2Mol相当,优于其他基线模型。DeepBlock生成的分子在物化性质分布上接近已知配体,符合分子特征。图2c的散点图进一步分析了高亲和力分子的药物相似性(QED)和Retro*评分,其中Pocket2Mol和TargetDiff生成的高亲和力分子合成可行性较差,而DeepBlock生成的分子不仅亲和力高,还具备良好的药物特性和合成可行性。图2d显示,Pocket2Mol和TargetDiff的Vina分数分布方差较大、离群值较多,而DeepBlock的分布更集中,表明其生成的候选分子更一致可靠。DeepBlock的预训练方案提升了分子生成的有效性、新颖性和独特性,而其在PDBbind数据集上的表现证明了DeepBlock的稳健性和泛化能力。
在DeepBlock中,作者定义了残基的结合贡献系数,该系数与残基到蛋白口袋中心的距离负相关,并通过神经网络自动预测。以ABL2蛋白为例,图3a显示了预测值与真实值的比较,两者曲线接近,表明模型能准确捕捉贡献系数的相对大小。图3b展示了结合位点的估计贡献值普遍高于其他残基。图3c表明,使用预测贡献分数生成的分子亲和力略低于使用结构信息生成的分子,但在药物相似性和合成可行性方面相当。去除贡献预测模块后,亲和力和其他性质略有下降,但差异不大,说明该模块主要辅助蛋白序列表示学习,而非引入额外信息。
图4
为了展示DeepBlock在无结构信息的新蛋白靶点上的配体生成能力,作者选取了KIAA1363作为案例研究。图4a显示,DeepBlock生成的五个高亲和力配体与已知抑制剂JW480在子结构和对接口袋上类似,并具有良好的药物特性和合成可行性。RMSD曲线表明生成的分子与JW480在结合稳定性上相似,且生成分子与Gly114形成更稳定的范德华力和氢键。图4d展示了DeepBlock生成的块序列与Retro*预测的逆合成路径的对应关系,证明其在化学键切割和结构信息表达上的有效性。
图5
在结合亲和力优化实验中,作者选取了CrossDocked 2020测试集中目标受体“F16P1 (3kc1)”并从ChEMBL数据集中随机选择5,000个小分子进行优化。图5a展示了不同亲和力范围内分子的优化结果,亲和力为−7 ± 0.5的分子中有57.53%成功优化,优化前后的平均相似性为0.307。优化效果在初始亲和力较低的分子中表现更明显,结构相似性曲线变化平稳,保持一定的分子相似性。图5b直观显示了低亲和力分子优化后的数值变化。图5c显示,2,346个初始亲和力大于−7.2的分子中76.04%的分子亲和力提升,平均提升超过0.5 kcal/mol,药物相似性和合成可行性略有下降,优化前后结构特征基本保持一致。
图6
作者提出了基于SA的SATMO和基于BO的BOTMO两种靶标感知分子优化方法,分别在分子离散空间和潜在空间中进行优化。与现有方法不同,这两种方法在优化过程中结合了靶标约束,确保生成的分子始终保持对靶标的亲和力。图6显示,这两种方法能有效改善毒性和QED,同时保持或略微提高对接亲和力和合成可行性。
论文2
药物发现是一个复杂且耗时的过程,包括潜在药物靶点识别、化合物设计与合成,以及有效性和安全性测试。传统方法依赖药物化学家和药理学家的经验,利用细胞或动物模型筛选验证。计算和人工智能技术的引入为加速这一过程提供了希望,通过利用生物和化学数据的大型数据库,这些方法能快速识别新药靶点、设计候选分子并评估其性质,大大降低了时间和成本。
对分子表征而言,数以亿计的现有和新化合物对计算药物发现具有重大挑战。传统方法依赖手工构建的指纹表示,受限于领域知识,缺乏普遍性。深度学习和自监督学习的兴起,使得自动化分子表征方法能通过在大规模分子数据上预训练,从分子序列、图形和图像中提取表示,提升了药物发现任务的表现。随着基于视频表示学习和自监督学习的不断发展,自监督视频预训练模型为药物发现带来进一步提升的机会。本研究提出了一种基于分子视频的基础模型VideoMol,用于分子表征学习。VideoMol通过动态和物化信息学习,从大量3D动态分子视频中无监督地提取分子信息。
VideoMol模型框架
图1 VideoMol基础模型
如图1所示,VideoMol框架旨在通过分子视频来实现分子表征学习。分子在自然界中具有动态构象变化,因此视频是最直接的表示方式,能够无需手动提取特征即可观察分子的3D信息。VideoMol通过生成2百万种药物和生物活性分子的60帧3D动态视频(共计1.2亿帧),将这些视频输入视频编码器以提取潜在特征(图1a)。模型使用三种预训练策略优化视频和物化信息的潜在表示(图1b–d),并在下游任务中进行微调,如分子靶点和性质的预测(图1e)。通过Grad-CAM实现可解释性,可用热图展示了分子视频对预测结果的贡献。模型性能评估涉及以下四类任务:化合物-激酶结合活性预测、配体-GPCR结合活性预测、抗SARS-CoV-2活性预测和分子性质预测。
实验结果
图2 VideoMol框架在各种药物发现任务中的性能
使用VideoMol模型识别配体-受体相互作用在四个常见人类靶点(BACE1、COX-1、COX-2和EP4)上的性能表现优异。如图3a所示,模型在验证集和测试集上的ROC-AUC均优于ImageMol,验证集平均提高6.4%,测试集提高4.1%。在潜在空间中的t-SNE可视化展示了抑制剂与非抑制剂之间的明显边界,表明VideoMol能够准确区分信息(图3b)。在外部验证中,VideoMol成功重新识别出BACE1、COX-1、COX-2和EP4的抑制剂,识别率分别为93.8%、36.4%、34.3%和75.0%(图3c, d)。相较于ImageMol,VideoMol在这些靶点上的精度平均提高了38.1%。
图4 BACE1 4IVS晶体结构的对接分析
在筛选BACE1抑制剂的研究中,VideoMol模型从DrugBank数据库的2500种已批准药物中筛选潜在的BACE1抑制剂,并使用已知的BACE1 X射线晶体结构进行结合评分(图4a)。在图4b中,VideoMol预测的前20种药物中,有11种被实验验证为潜在的阿尔茨海默病(AD)治疗药物,高于ImageMol预测的5种。在Dock6.10的评分中,VideoMol比ImageMol更能优先选择结合评分优于−52.47的药物(60%对比20%),这表明VideoMol在3D信息捕获上具有优势。最终,作者选出6种最佳评分的药物进行分子对接模拟,发现其中5种(83.3%)已被验证为AD潜在治疗药物(图4d)。
图5 VideoMol的特征分布和生物学解释
通过t-SNE投影,VideoMol展示了不同视频帧在特征空间的聚类效果。如图5a所示,同一视频帧集中在一起,不同视频帧分离明显,DB指数为0.197,这证明其能识别相同分子的不同帧。相似度分析显示,视频内帧的相似度高达88.3%,视频间几乎为0.5%,表明其对分子3D视角的鲁棒性。在图5c中,VideoMol的物化信息学习通过t-SNE可视化表现出清晰的聚类效果,DB指数为0.182,证明模型在物化知识学习上的优异表现。利用GradCAM热图分析,VideoMol能在视频播放时始终聚焦相同的分子子结构,同时在不同帧中关注多样的结构信息。针对BACE-1抑制剂预测,VideoMol能够识别与已知化学知识一致的子结构,如氟、1,2,4-恶二唑等(图5f),验证了其在提供有意义的化学知识上的能力。
讨论
在第一篇文章中,DeepBlock利用活性构建块实现高药物相似性、合成可行性和对接亲和力的分子设计。作者构建了包含10,701个常用片段的词典,并通过预训练扩展了化学空间,减少了过拟合风险,提升了模型性能。但目前DeepBlock仅能使用词典中的现有构建块,限制了生成分子的多样性。未来研究将探索de novo构建块生成方法,增加分子生成的灵活性和创新性。此外,DeepBlock生成2D结构(SMILES字符串),适用于多种药物开发情境,但缺乏3D结构细节。未来将结合如LiGAN的方法,开发基于构建块的3D分子生成,融合2D和3D设计优势,提升药物研发效率。
在第二篇文章中,VideoMol是一种自监督视频预训练框架,通过动态与物化信息学习进行分子表征。实验表明,VideoMol在GPCRs、激酶、SARS-CoV-2等靶点和分子性质预测任务中表现优异,并在BACE1、COX-1、COX-2和EP4等靶点的虚拟筛选中实现高精度,优于ImageMol,特别在处理数据不平衡和数据稀缺方面表现出色。相比传统方法,VideoMol利用3D信息、解决视角遮挡问题,展现出良好可解释性和高性能。尽管计算复杂度增加,但VideoMol仍具有广阔的改进和应用潜力,如通过数据剪枝、模型剪枝或结合更多生物医学数据来提升表现。
原文链接:
1.Li, P., Zhang, K., Liu, T. et al. A deep learning approach for rational ligand generation with toxicity control via reactive building blocks. Nat Comput Sci (2024).
2.Xiang, H., Zeng, L., Hou, L. et al. A molecular video-derived foundation model for scientific drug discovery. Nat Commun 15, 9696 (2024).
--------- End ---------