如何将化合物转变为有价值的特征向量一直是AI驱动药物研发领域的关键问题。当前常见的分子表征方法多使用SMILES或图结构作为输入,但很少考虑分子的三维构象空间。构象空间指的是分子在不同旋转角度或能量状态下可能呈现的所有三维构象的集合,反映了分子在不同条件下的结构变化。随着分子中可旋转键数量的增加,化合物往往会形成更多低能量的构象簇,从而增加其构象多样性。在分子与靶标的相互作用中,构象空间信息十分重要。以上市药物伊马替尼为例,它与四种不同靶点结合时就表现出了三种不同的分子构象(见图-1)。为了解决这一问题,上海科技大学白芳教授团队提出了一种新的模型GeminiMol,将构象空间特征融入分子表征学习,旨在捕捉分子结构与构象空间之间的复杂关联。在多种下游任务中,利用构象信息的模型显示出优于传统表征方法的性能。该项研究工作近期发表于《Advanced Science》期刊【1】。
图-1:分子构象空间示意图。(a) 伊马替尼与四种蛋白的结合模式;(b) 配体构象空间随可旋转键的增多而增多。
在算法实现过程中,研究者首先定义了一套CSS描述符,用于量化两个化合物三维构象空间之间的相似性。这些描述符通过以下步骤获得:① 使用两套参数分别充分搜索化合物的全局构象空间和近本征构象空间。具体来说,是通过Schrödinger软件的构象搜索模块生成大量分子构象,并设置不同的应变能阈值以适应全局或近本征构象的搜索需求,搜索结果根据RMSD(均方根偏差)进行聚类。②进一步使用PhaseShape模块为两个化合物的每对构象进行叠合与打分,以量化它们三维构象之间的相似度。③以此打分集合生成多种CSS描述符,例如MaxSim(最大相似度)、Global_MAX(全局构象最大相似度),Near-Native_MIN(近本征构象最小相似度)等。在准备数据集方面,由于化合物的三维构象搜索极为耗时,研究者采取了少而精的策略,从多个高质量数据库中挑选了总共39290个分子,包括PDB配体集、GPCR活性配体库、Demanding Evaluation Kits虚筛化合物库、Enamine多样性库、Glide诱饵分子库和ChemBridge大环化合物库。数据集被切分为训练集、验证集和测试集,供模型训练和评估。
图-2:GeminiMol的算法架构示意
在算法设计上,GeminiMol采用了一种混合对比学习架构。如图-2所示,分子首先以图的形式进行编码,经过Deep Graph Library (DGL) 对分子中的原子和化学键进行特征化处理,将其转化为节点和边的嵌入表示。随后,特征化后的分子图被输入到经典的图神经网络Weisfeiler-Lehman Network (WLN) 中,进行进一步的特征提取。接着,模型使用了多层感知机(MLP) 作为读出函数,对每个节点的特征进行处理,并计算它们的平均值,从而生成整个分子的全局表征。两个成对分子的特征被合并后输入到常用于对比学习的投影头中,投影头的作用是将学习到的GeminiMol分子编码转化为有意义的输出(如CSS描述符)。在模型训练过程中,研究者精心设计了复杂的数据组合与采样策略,以确保算法能够充分学习和泛化不同类型的分子构象及其相似性。
图-3:GeminiMol能捕捉相似构象空间的三个案例
为评估GeminiMol算法在特征提取上的有效性,研究者引入了多个下游任务进行测试。由于GeminiMol本质上是一种基于配体相似性的比较方法,在下游任务中需输入查询分子和参考分子,算法通过比较它们的相似度来进行预测。在虚拟筛选和靶标识别任务中,GeminiMol的表现显著优于PhaseShape、ECFP4和MACCS等传统相似度衡量方法。为详细说明算法的优势,研究者通过了3个具体案例对算法的表现进行了解释性分析。如图-3所示,两种雌激素受体调节剂Afimoxifene和Lasofoxifene展现了极为相似的三维结合模式,它们的二维结构看起来也有较高的相似性,但使用常见的分子指纹方法(如ECFP4和Topological Torsion)计算出的相似度却很低。相比之下,GeminiMol能够很好地克服这一问题,其MaxSim相似度预测值高达0.942。类似的现象也出现在HIV蛋白酶抑制剂和凝血酶抑制剂中,这些活性分子虽然在传统分子指纹计算中得到的相似度较低,但它们具有相似的三维结合模式,GeminiMol可以准确捕捉到这种高相似性。
图-4:GeminiMol与多种先进算法在细胞活性、单靶点QSAR、ADMET三类下游任务上的预测性能比较。
随后,在细胞活性、单靶点QSAR任务以及ADMET回归和分类任务上,研究者对GeminiMol与FP-GNN、Uni-Mol等先进算法进行了全面的性能对比。结果显示(图-4),GeminiMol在细胞活性建模上表现尤为突出,显著优于其他方法,同时在QSAR和ADMET任务中,其预测性能与专为QSAR任务设计的FP-GNN和预训练使用1900万分子的Uni-Mol相当。以上结果表明,基于分子构象空间相似性描述符的对比学习框架是训练分子表征模型的有效策略。【小编评论】GeminiMol的亮点在于其有效挖掘了分子构象空间信息,可以弥补传统分子指纹方法无法准确捕捉分子结构复杂性的不足。然而,作为一款专注于配体三维构象空间的模型,用户在实际应用时仍需根据具体场景选择如何与GeminiMol搭配使用。一些任务可能需要结合蛋白靶标信息,而在其他场景中,仅使用二维配体信息或许已经足够。此外,尽管GeminiMol在多个任务中表现优异,但模型的表现仍有进一步提升的空间,尤其是在结合更大规模的化合物数据集后,有望进一步提高预测精度和泛化能力。
参考文献
【1】Wang L, Wang S, Yang H,
et al. Conformational Space Profiling Enhances Generic Molecular Representation
for AI-Powered Ligand-Based Drug Discovery. Adv. Sci. 2024, 2403998. https://doi.org/10.1002/advs.202403998