在分子模拟的研究领域,量子力学和分子动力学等传统计算方法对于阐释分子行为具有不可替代的重要性,但它们在计算效率和准确性上的限制日益凸显。近年来,机器学习原子间势能(MLP)成为一种新兴的计算方法。MLP通过回归算法,构建原子结构与势能面之间的复杂映射,通过预测每一模拟步构象的原子力,更新原子的位置和速度,使得模拟能够在接近量子化学精度的同时,达到与传统分子动力学相当的计算效率。然而,MLP的性能在很大程度上受到其训练数据集的质量和构象多样性的影响。因此,开发出能够全面覆盖分子构象空间的高质量参考数据集,是实现准确且具有良好泛化能力的MLP模型的关键。英国曼彻斯特大学Richard A. Bryce小组针对这一问题,提出了一种创新的解决方案。该团队开发了一种新的数据集构建策略,在数据集中增加柔性分子的构象自由度,并通过量子化学方法得到分子构象的能量。使用该数据集训练的MLP能够预测出长时间稳定模拟过程中的原子力,为柔性分子的构象自由能面的收敛提供了可靠的计算基础。近日,该项研究工作发表在英国皇家化学学会出版的Chemical Science期刊(Chem. Sci., 2024, 15,
12780-12795)【1】。MLP是一种使用机器学习方法预测分子体系中原子间相互作用势能的方法,该方法首先需要获取结构信息和参考势能的训练数据,势能通过第一性原理进行计算,确保结果的高精度和物理准确性;其次,需要表征原子结构,保证分子平移、旋转不变性;最后,通过回归算法拟合原子结构表征结果与参考势能的关系。在具体实现方面,MLP基于PairFE-Net全局描述符的变体,在处理原子间相互作用时不采用截断处理,利用所有的成对核斥力进行编码。相对于局部描述符,全局描述符整合了量子化学效应和长程相互作用,能够更全面地刻画原子间的相互作用。通过采用内部坐标系,确保了训练后的MLP模型具有旋转和平移不变性,增强了模型对不同分子构象的泛化能力,并提高了其在处理不同尺寸分子系统时的可扩展性。研究人员分别使用基准数据集rMD17和新参考数据集作为输入。rMD17包含10个有机小分子,在500 K的温度下进行从头算分子动力学模拟,从中提取每个分子的10000个结构及对应能量。新参考数据集包含3个柔性分子(阿司匹林、扑热息痛和水杨酸),每个分子采用3种不同采样方式,即MD-300K、MD-500K 和 Meta-300K(在300 K条件下进行元动力学模拟),在正则系综条件下进行11 ns的动力学模拟。后续使用HF/6-31G*基组计算RESP电荷,在计算中不使用截断,以确保非键相互作用的准确性。从后10 ns模拟中提取10000个结构,在B3LYP-D3/6-31G*水平上进行单点能计算,获得力和能量的参考数据集。两个数据集以8:1:1划分为训练集、验证集和测试集。在数据预处理环节,对结构的绝对能量进行归一化处理得到后,对力和能量数据应用变换矩阵,将这些物理量分解为一组描述原子间相互作用的成对系数。在训练时,模型预测成对原子间的能量,据此计算能量和每个原子在笛卡尔维度上的保守原子力。模型使用前馈人工神经网络进行训练,批次大小为32个结构,通过最小化均方误差损失函数来预测力和能量。所有网络都包括1个输入层、3个隐藏层和1个输出层,输入输出层节点数为原子对的个数。该模型使用多个隐藏层以提高网络拟合复杂和高度非线性函数依赖的能力,同时为每个分子和数据集训练单独的神经网络,进行后续的预测与模拟。在模拟中,原子力由训练好的PairFE-Net神经网络进行预测,整个过程中化学键的长度不受限制。不稳定结构的判定基于两个标准:化学键的相对变化超过±0.25 Å或原子间距离小于0.75 Å。首先进行10 ps的短期模拟以评估系统稳定性,然后进行25 ns的温和元动力学模拟,希望获得分子的收敛构象自由能表面。在模型效果方面,基准数据集rMD17测试集的力和能量平均绝对误差(MAEs)分别在0.020-0.221 kcal·mol−1·Å−1和0.004-0.055 kcal·mol−1之间,具有较高的预测精度。此外,研究还发现,当使用较小规模的数据集进行训练时,MLP模型的预测准确性会下降,表现为平均绝对误差的显著增加。
图-1:rMD17基准数据集的MLP效果及训练性能。
柔性分子往往具有更复杂的势能面,且与可旋转键的扭转运动相关。研究人员在对柔性分子(如阿司匹林、扑热息痛和水杨酸等)进行模拟时,发现使用rMD17基准数据集训练的MLP会出现不合理的结构及模拟不稳定的情况。这可能是由于模型未能充分学习到这些分子在全构象空间内的势能分布。新参考数据集的测试结果在这一方面取得了良好结果。使用Meta-300K数据集训练的MLP模型展现出在预测扭转能量分布方面的高准确性,能够进行长达25 ns的稳定模拟,且整个过程不产生任何不合理结构。模型在模拟过程中表现出的精确度和稳定性,为其在柔性分子构象自由能表面计算中的应用提供了可能性。同时,研究指出在某些情况下,将模拟温度从300 K提升至500 K有助于改善柔性分子的构象采样。然而,这种温度提升并不总能保证实现全面的构象空间探索和稳定的模拟。在不同数据集的测试结果强调了MLP模型必须基于能够全面覆盖构象空间的高质量参考数据集进行训练。
图-2:阿司匹林的关键构象转变及扭转的能量分布,B3LYP-D3/6-31G* 计算结果(橙色),及在rMD17(红线)、MD-300K(蓝线)、MD-500K(绿线)和 Meta-300K(黑线)数据集上训练的MLP预测结果。
通过对不同训练数据集的实验结果进行分析,研究人员发现尽管某些MLP模型在小分子测试集上展现出优异的性能,但它们在模拟更复杂的柔性分子时可能会遇到稳定性问题。对于柔性分子的模拟,需要采用更先进的采样技术,以生成覆盖全部构象空间的参考数据集,进而训练出效果良好的MLP模型。
图-3:使用MD-300K、MD-500K Meta-300K训练的MLP对阿司匹林(蓝色)、扑热息痛(红色)和水杨酸(绿色)的能量和力误差分布的核密度估计。
综上,MLPs通过学习原子结构与势能面之间的映射关系,能够准确预测原子间的作用力和势能,从而在分子动力学模拟中实现精度和计算效率的平衡。与传统的分子动力学模拟相比,使用Meta-300K数据集训练的MLP模型在预测原子力的准确性上提升了至少一个数量级,而模拟所需的总体时间仅增加了两倍。研究人员通过使用全局描述符方案训练的MLPs,结合元动力学模拟,成功获得了柔性分子收敛的构象自由能表面,为准确计算柔性分子结构、动力学行为和热力学属性提供了新思路。然而,MLP模型的性能显著依赖于训练数据集的质量和构象空间的全面性。如果训练数据集未能充分覆盖构象空间,模型可能缺乏必要的泛化能力,导致模拟结果的不稳定性。参考文献
【1】Christopher D. Williams*, Jas Kalayan,
Neil A. Burton, Richard A. Bryce*. Stable and accurate
atomistic simulations of flexible molecules using conformationally
generalisable machine learned potentials, Chem. Sci., 2024, 15(32), 12780-12795.
https://doi.org/10.1039/d4sc01109k.