近年来,深度学习方法在分子结构预测方面取得了重大突破,其中用于精确预测蛋白质结构的 AlphaFold 模型,其作者荣获2024年诺贝尔化学奖,便是这一进展的最佳例证。然而,由于分子的高度灵活性,预测最优结构只能揭示其在平衡状态下的有限信息,而要精确计算宏观性质,还需要掌握分子的平衡态分布。与单一结构预测相比,平衡态分布的预测目前仍主要依赖于经典且计算代价高昂的模拟方法,而深度学习在这一领域的应用尚不成熟。最近,微软亚洲研究院科学智能中心的刘铁岩团队针对分子平衡态结构分布预测这一问题,设计了一个名为 DiG(Distributional Graphormer)的深度学习模型。该模型将不同体系的描述方法转化为统一输入,通过扩散模型模拟退火算法,逐渐将简单分布转换为平衡态结构的概率分布,并能够通过采样获取不同的亚稳态和中间态。测试结果表明,DiG能够生成多种体系的平衡态分布,并且在平衡态的合理性方面表现优异。该项研究近期发表在人工智能领域著名期刊Nature Machine
Intelligence上【1】。1. 模型概述
DiG模型以目标分子体系的基础描述符作为输入,旨在生成平衡态分布并采样不同的亚稳态和中间态。DiG模型的整体架构如图1中所示。整个生成过程类似于模拟退火算法,在经过SDE扩散过程加噪后,模型通过反向SDE扩散过程学习并生成近似平衡态结构的概率分布。除此之外,对于样本量较少的领域,DiG还使用物理能量函数(如力场)进行预训练,利用系统的能量分布指导模型学习。DiG模型可以预测多种体系的平衡态分布(包括蛋白-蛋白体系、蛋白-小分子体系、聚合物体系等),这是因为作者从各领域模型中借鉴了对应的特征描述方法,将这些描述方法融合并转化成三种特征输入:节点特征、边特征和几何结构特征,使得模型在面对不同体系时总能提取到对于该体系较为重要的特征。图1: DiG模型架构
2. 模型评估
首先,为了证明模型能够在多种体系下合理预测平衡态分布,作者设计了三个不同任务来对模型进行训练和测试。① 蛋白构象预测:由于蛋白质构象的平衡态分布难以通过实验或计算获得,高质量的训练和基准测试数据相对匮乏。为此,作者除了收集公开数据库中的数据外,还通过分子动力学(MD)模拟构建了新的数据集。在该任务中,模型以蛋白序列作为输入,生成蛋白的3D构象分布,并将生成结果与MD模拟得到的构象分布进行比较,作为模型性能的主要评估指标。② 蛋白-配体结合模式预测:作者通过MD方法构建了约2000个蛋白-配体构象分布模型,其中409个作为测试集,剩余用于训练。在该任务中,模型以小分子SMILES和蛋白口袋的3D结构为输入,生成小分子在蛋白口袋中的构象分布,并通过计算生成构象与晶体构象之间的RMSD来评估模型性能。③ 催化剂吸附位点预测:作者使用Open Catalyst项目中的催化剂-吸附物系统MD轨迹作为训练数据,未包含在训练集中的催化剂与吸附物的随机组合则作为测试集。通过将预测的吸附分布与DFT(Density Functional Theory)算法计算的吸附剂在催化剂表面的能量分布进行对比来评估模型性能。 在蛋白构象预测任务中,模型给出的构象分布与MD模拟的结果较为一致(图2),第一个例子里MD模拟计算出的4块构象分布区域DiG模型均有命中,相比之下AlphaFold只偏向于命中其中的区域III,说明模型可以对蛋白的构象分布进行充分的探索,但在第二个例子中,DiG并没有命中全部的区域,仍有一定的改进空间。在蛋白-配体结合模式预测任务中,从生成的构象分布中采样出来的构象与晶体结构的差异较小,平均RMSD为1.74 Å,表明该模型可以精准生成配体在蛋白口袋中的最优构象(图3)。除此之外,作者将DiG在P38蛋白和TYK2蛋白上生成的构象分布进行对比,发现对于像TYK2蛋白这样深而窄的结合袋,DiG预测配体的构象分布十分收敛,而对于P38蛋白,结合袋相对平坦且较浅,生成的配体构象更加多样化,进一步证明了DiG生成构象分布的合理性。在催化剂吸附位点预测任务中,DiG模型预测出的吸附概率分布与DFT计算出的能量分布十分一致(图4),表明DiG模型可以准确识别催化剂表明的吸附位点,并且相比于DFT方法,DiG模型的计算效率高出了近万倍。综上所述,DiG模型在各类应用领域中均展现出优异的性能,是预测分子平衡态分布的有效工具。图2: DiG模型蛋白构象分布预测结果。(实线区域表示MD产生的蛋白构象分布,橙色区域表示DiG产生的构象分布,蓝点表示AlphaFold产生的预测结构)。
图3: DiG模型蛋白-配体结合构象预测结果。a,DiG模型生成构象的概率分布图(红色区域为较为满意的预测构象)。b,DiG模型在不同蛋白上生成构象分布的差异。
图4: DiG模型催化剂吸附位点预测结果。(上层为催化剂结构,中层为DiG计算出的吸附物在催化剂表面的概率分布图,下层为DFT方法计算出的吸附物在催化剂表面的能量分布)
小结:作者在这项工作中提出了一种适用于多个领域的分子平衡态分布预测模型。该模型的最大亮点在于将不同领域的分子描述方法统一为通用输入,从而能够合理生成多种分子体系的平衡态分布。在算法设计上,模型基于经典的扩散模型框架,并引入物理指导的预训练方法,有效应对数据匮乏问题。总体而言,该模型在实际应用中表现出色,展示了利用深度学习预测分子系统平衡态分布的可行性,未来有望通过采用更先进的网络架构进一步提升性能。
参考文献
[1] Zheng, S.,
He, J., Liu, C. et al. Predicting equilibrium distributions for molecular
systems with deep learning. Nat Mach Intell 6, 558–567
(2024). https://doi.org/10.1038/s42256-024-00837-3