研究背景:挑战与机遇
原子间势是连接微观世界和宏观世界的桥梁,它描述了原子之间相互作用的方式,是理解材料性质和预测材料行为的基础。传统的从头计算方法(ab initio)虽然能够提供高精度的模拟结果,但计算成本非常昂贵,难以应用于复杂的材料体系。近年来,机器学习方法被广泛应用于构建原子间势,使得研究人员能够以更低的计算成本进行高精度的材料模拟。然而,高质量的训练数据集对于构建精确的机器学习模型至关重要。高质量的数据通常需要花费巨大的计算资源和时间,因此,如何利用有限的高精度数据进行有效的模型训练成为了一个重要的挑战。
北京,2024年12月17日 - 近日,美国化学会《Journal of the American Chemical Society (JACS)》期刊发表了一项由韩国首尔国立大学Seungwu Han教授团队领导的突破性研究。该研究开发了一种名为SevenNet-MF的全新机器学习(ML)框架,它能够利用多保真度数据进行原子间势(MLIP)的训练,从而在材料科学领域取得更精确、更高效的模拟结果。这一创新方法有望在药物发现、新材料设计和能源存储等领域开辟新的研究方向。
研究方法:多保真度训练策略
为了解决这一难题,Han教授团队提出了一个多保真度训练的机器学习框架,SevenNet-MF。该框架利用了不同精度的数据集,同时训练机器学习模型。具体来说,研究团队采用了两种不同的密度泛函理论(DFT)计算方法:广义梯度近似(GGA)和元GGA。GGA方法计算成本较低,但精度相对较低,而元GGA方法则能够提供更高的精度,但计算成本也更高。研究团队将GGA计算产生的数据视为低保真度数据,而将元GGA计算产生的数据视为高保真度数据。
SevenNet-MF模型的核心是一个等变图神经网络(GNN)。该网络能够有效地学习原子之间的相互作用,并利用不同保真度的数据进行训练。该模型采用一种独特的架构,通过一种称为“one-hot encoding”的方法,将数据的保真度信息嵌入到节点特征中。然后,模型使用共同的权重来学习数据的整体趋势,同时使用保真度相关的权重来拟合不同数据之间的差异。这种方法使得模型能够有效地利用低保真度数据中的信息,并将其传递到高保真度数据的学习中,从而在少量高精度数据的情况下实现准确的预测。
研究结果:突破性的性能提升
研究团队分别在两种材料体系上对SevenNet-MF进行了测试,包括:
固体电解质材料LiPS5Cl: 研究结果表明,在低保真度训练集大小10%的情况下,该模型能够以10%以内的误差预测锂离子电导率。
氮化铟镓合金In₁Ga₁-xN: 该模型在预测混合能时,R2值达到0.98,与参考高保真MLIP的结果非常一致。
这些结果表明,即使在高精度数据覆盖不到的几何和组成空间中,SevenNet-MF也能够有效地从低保真度数据中推断出高精度信息,从而提高了机器学习模型的准确性和分子动力学稳定性。
除了在特定的材料体系上的测试,研究团队还利用Materials Project数据库中的数据训练了一个通用的多保真MLIP。该模型利用GGA和元GGA数据,显著提高了在晶体高精度任务上的性能。比如,在预测晶体能量高于壳能(energy above hull)方面表现出色的性能。此外,研究团队还验证了多保真度训练方法比迁移学习或A学习更为有效,并且可以扩展应用于学习耦合簇级别的高精度数据。
研究团队还发现,使用多保真度训练,能够比传统方法更有效地利用数据,从而在减少计算成本的同时,保持或提高模型的精度。并且,通过对模型架构的调整,研究人员可以根据具体的应用需求,优化模型的性能。