案例背景
对于有机化合物而言,由于其较大的空间尺度、较长的时间尺度、较高的构型熵,导致第一性原理方法(DFT)应用困难;而速度更快的经典力场通常具有一定的使用限制,难以描述反应过程。在本研究中,我们基于原子簇展开(ACE)的双重描述符训练了一种机器学习力场(MLP),将短程相互作用与分子间长程相互作用相结合,以获得对有机化合物性质的精确描述,兼顾了经典力场的速度优势和DFT的精度优势。
建模与计算
训练集
作者在MedeA Environment中借助MedeA HT-Launchpad模块创建了包含丁醇(C4ol)、己醇(C6o1)、辛醇(C8ol)、癸醇(C10ol)、丁烷(C4)、己烷(C6)、癸烷(C10)和己二酸二异丁酯(dap)等结构的结构列表,以上结构均放置于尺寸为(10Å)3的周期性晶胞中。其中己二酸二异丁酯作为复杂体系,用于测试该模型的可推广性。
使用MedeA LAMMPS模块基于PCFF+力场进行NPT系综下的分子动力学模拟,选取分子动力学轨迹中的680个结构,150个添加随机位移后的结构,以及NVT系综下的140个凝聚相结构。这些结构在MedeA VASP模块中计算了能量、力、应力信息,从这些信息出发初步训练得到原始的ACE-MLP。之后经由主动学习循环(探索、标记、重新训练)和超参数优化过程逐步调整,获得表现更好的ACE-MLP。训练集所含结构与训练流程如图1所示。
图1. 训练流程与训练集所含结构
DFT参数
训练集内结构使用MedeA VASP结合MedeA HT-Launchpad进行高通量DFT计算,得到精确能量,计算时选用适合描述烷烃链之间色散相互作用的revPBE-vdw泛函,设置的平面波截断能为500 eV,力的收敛标准为0.001 eV·Å-1。
结果与讨论
振动频率和热容计算
为了评估训练的ACE-MLP中分子内相互作用的准确性,计算了振动频率、振动态密度(VDOS)以及C6、C6ol和dap的理想等压热容C(图2)。我们观察到ACE-MLP频率和DFT频率之间的均方根误差(RMSE)低于1 THz,VDOS一致性良好,热容与实验结果相差在11%以内,这说明ACE-MLP很好地描述了单分子的PES以及分子内相互作用。
图2. (a)MLP计算得到的振动频率。(b) MLP得到的振动态密度(VDOS)和DFT的对比。(c) 根据振动频率计算出的理想等压热容C。
密度计算
作者在MedeA LAMMPS模块中使用ACE-MLP进行模拟;在MedeA VASP模块中进行第一性原理分子动力学(AIMD)计算,将两种方法分别弛豫得到的密度与实验值对比,发现ACE-MLP表现良好(图3),与实验结果相比差异小于4%。
图3.用ACE-MLP(实线)计算的所有系统的密度与温度的函数与实验值(虚线)的比较。
径向分布函数(RDF)
借助MedeA LAMMPS模块计算了C6和C6ol的RDF(图4),显示了ACE-MLP和AIMD之间的良好一致性,说明ACE-MLP能够正确地解释系统中的氢键相互作用。C6和C6ol的RDF中的所有峰都与AIMD中的峰相匹配,C6ol中的“O-O”峰的高度只有微小差异。这种差异是由于AIMD模拟中的分子数量较少,限制了O-H键合网络。
图4. 318 K下从ACE-MLP(实线)和AIMD模拟(虚线)获得的C6和C6ol的RDF比较。
扩散系数计算
在MedeA LAMMPS模块中,使用本工作训练的ACE-MLP进行分子动力学模拟,得到若干种常见有机物的扩散系数(图5),精确度远高于GAFF等经典力场。
图5. NNP、EAM计算得到的熔融铝的径向分布函数与DFT结果以及实验值的对比
总结与展望
本研究基于ACE框架为有机化合物体系训练了一种MLP,使用这种MLP计算了这些不同链长系统的密度随温度变化的情况、振动频率、热容,与DFT计算结果以及实验结果非常接近,表明ACE框架所采用的双重描述符为预测短程分子内和长程分子间相互作用提供了准确的框架。
参考文献:
https://doi.org/10.1039/D4CP01980F
使用MedeA模块:
MedeA Environment
MedeA VASP
MedeA LAMMPS
MedeA HT-Launchpad
MedeA MLP
MedeA MLPG
-end-
源资科技VASP媒体平台