DP还能干这个?数据降维方法助力DeePMD力场特征数据集搭建

学术   2025-01-23 14:37   中国台湾  


如何用少量的数据来对复杂化学空间进行采样是机器学习势开发的难点。北京理工大学陈东平课题组,基于数据降维方法构建低冗余度、低数据需求的特征数据集,并结合DeePMD方法开发高精度、高效率、宽应用条件的机器学习势,以描述铝锂(Al-Li)合金及高氯酸胺(AP)界面的相互作用。相关研究成果以“Minimizing Redundancy and Data Requirements of Machine Learning Potential: A Case Study in Interface Combustion”发表在《Journal of Chemical Theory and Computation》期刊上(DOI:10.1021/acs.jctc.4c00587)[1],博士生常晓雅为第一作者。


研究背景


机器学习势平衡了分子模拟的精度与效率,可以实现第一性原理精度的大尺度分子动力学模拟。训练集的质量直接决定了力场模型的表现和外推性。目前的研究大多依赖于AIMD采样,以覆盖目标场景中的反应势能面,但这一过程往往伴随高昂的计算成本。如何通过少量数据来准确描述复杂反应势能面的特征,是力场开发中的一大挑战。


相比于单质,界面体系的采样维度更高,尤其是在复杂的界面燃烧反应场景。本研究面向新型铝锂合金推进剂,结合数据降维方法构建简并的代表性数据集,并开发Deep Potential(DP)力场以描述Al-Li和AP之间的相互作用。


方法介绍

 


图1 基于数据降维方法的力场开发工作流。


首先采用经验力场或已发表的机器学习势对目标体系进行充分的预采样。随后利用SOAP描述符表征预采样构型的结构信息,并通过主成分分析(PCA)方法将高维结构特征简化为二维特征。结构特征相似的构型在PCA平面上的分布相近。在二维平面划分网格,在每个网格内随机取一个构型来代表网格内的所有构型。对选中的结构进行第一性原理计算,以建立特征数据集,并开发DP力场。最后基于DP-GEN框架进行主动学习,对力场模型进行补充和完善。


方法验证


图2 AP热解数据集的(a)PCA分布及(b)网格划分。不同网格大小的(c)数据集大小及(d)预测的AP分解曲线。


基于上述SOAP描述符提取结构特征、PCA降维及网格划分挑选的策略,首先利用AP单质热解数据集[2]进行方法验证,原数据集包含11826个数据结构。随着划分网格的尺寸不断增大,数据集尺寸不断减小。当网格大小为15时,数据集仅包含331个构型(占总数据集的2.7%),能量预测精度仅损失14%,所训练的DP力场仍能准确预测AP热解曲线。上述测试验证了工作流的可行性,强调了特征数据集对于力场开发的重要意义。


方法应用


图3 Al-Li和AP界面数据集的PCA分布


对于Al-Li合金和AP界面体系,其特征数据集的PCA分布如图3所示。PC1成分表征了体系的压力,从气态燃烧到固相燃烧;PC2成分代表了体系中的锂含量,从纯铝到20 wt%的锂掺杂。DP-GEN主动学习得到的构型仍位于训练集的分布范围之内,对特征数据集进行补充和完善。最终的数据集仅包含11251个结构,可用于研究宽温度、宽压力、宽锂含量的界面反应研究。


图4 训练集(灰色)、验证集(红色实心点)和表面吸附构型(红色空心点)的PCA分布。


所开发的DP力场能量预测的平均绝对误差(MAE)为7.54 meV/atom。为了表征该力场的外推能力,文章额外构建了验证集。其PCA分布覆盖在训练集之内,DP力场对于验证集的能量预测MAE为15.25 meV/atom。对于表面小分子吸附构型,其PCA分布远离训练集范围,即远超出力场的训练范围和预测能力,故能量预测与DFT计算结果偏差较大,为547.56 meV/atom。上述结果表明,PCA分布可用于衡量DP力场的预测范围和外推能力。


图 5 锂掺杂对Al-AP界面质量扩散的影响。


利用所开发的DP力场,文章对比了Al-AP界面和AlLi-AP界面传热传质及反应过程。其质量扩散过程,如图5所示。锂原子反应活性较强,随着温度的升高,合金上下两端的锂原子逐渐扩散至AP区域,其扩散系数是铝原子的三倍。同时,锂原子扩散也促进了AP的分解,提前了8 ps。该结果表明,添加Al-Li合金有助于提高推进剂的燃烧效率。


小结


基于数据降维方法,文章提出了一种构建特征数据集的创新策略:首先利用现有力场对复杂势能面进行广泛预采样;然后通过主成分分析(PCA)方法筛选特征数据;最后采用主动学习策略对DP力场进行局部微调与优化。这一策略不仅可有效应用于复杂势能面的采样,也为复杂界面反应体系的力场开发提供了重要的借鉴与启示。


参考文献

[1] X. Chang, D. Zhang, Q. Chu, D. Chen. Minimizing Redundancy and Data Requirements of Machine Learning Potential: A Case Study in Interface Combustion. Journal of Chemical Theory and Computation, 2024, 20(15), 6813-6825.

[2] Q. Chu, M. Wen, X. Fu, A. Eslami, D. Chen. Reaction Network of Ammonium Perchlorate (AP) Decomposition: The Missing Piece from Atomic Simulations. The Journal of Physical Chemistry C, 2023, 127 (27), 12976-12982.


学术之友
\x26quot;学术之友\x26quot;旨在建立一个综合的学术交流平台。主要内容包括:分享科研资讯,总结学术干货,发布科研招聘等。让我们携起手来共同学习,一起进步!
 最新文章