================================
分享一篇 J. Chem. Phys. :用于准确描述 Al-Cu 熔体中原子传递的迁移学习的文章。
感谢论文的原作者!
================================
主要内容
“机器学习原子间相互作用势(MLIP)提供了精确度和计算效率之间的最佳平衡,并允许研究传统方法难以解决的问题。对于金属合金,MLIP通常是基于密度泛函理论和交换相关泛函的广义梯度近似(GGA)开发的。然而,近年来的研究表明,该标准协议在计算某些金属合金的输运性质或相图时可能不准确。因此,需要优化交换相关函数和具体计算参数的选择。在本研究中,我们针对Al-Cu合金解决了这一问题,其中基于Perdew-Burke-Ernzerhof(PBE)的标准MLIP无法准确计算富Cu成分下的粘度和熔化温度。我们使用迁移学习策略,基于不同的交换相关函数(包括元GGA)构建了MLIP,与标准方法相比,该策略使我们能够将训练数据量减少一个数量级。结果表明,基于r2 SCAN和PBEsol的MLIP在描述Al-Cu合金的热力学和输运性质时具有更好的精度。特别是,基于r2 SCAN的深度机器学习潜力使我们能够定量再现动态粘度的浓度依赖性。我们的发现有助于MLIP的发展,提供量子化学的准确性,这是现代计算材料科学中最具挑战性的问题之一。”——取自文章摘要。===============================
研究背景
“机器学习原子间势(MLIP)正在彻底改变计算材料科学,因为它们使我们能够定量研究非常复杂的问题,这些问题很难通过传统的模拟技术解决。特别是,它已被发现,标准密度泛函理论(DFT)计算与广义梯度近似(GGA)泛函可能无法描述几个重要的系统类别,因此选择适当的从头算近似是MLIP开发的关键一步。例如,人们认识到,水及其溶液的精确模拟可能需要密度校正的DFT计算。对于金属氧化物,最好使用元GGA甚至混合泛函。人们普遍认为,上述问题对金属和金属合金并不那么重要,这些金属和金属合金通常用GGA近似来描述交换相关函数。然而,最近的研究表明,情况可能更加复杂。例如,最近表明,建立在Perdew-Burke-Ernzerhof(PBE)泛函之上的MLIP甚至不能定性地描述Sn中的温度-压力相图。另一个例子是Al-Cu系统。最近,我们已经证明,该系统的基于PBE的深度机器学习潜力可以准确描述该系统中的广泛特性。然而,该潜力未能描述富铜成分范围内粘度η(x)的浓度依赖性。也就是说,模拟没有再现在xCu ≤ 0.75处实验观察到的最大值,并且粘度的绝对值与实验数据有很大偏差。 上述例子提出了以下基本问题:(i)我们应该使用哪种从头算近似来开发金属合金的MLIP?(ii)我们如何在更准确但计算要求更高的从头计算(如元GGA)之上有效地开发MLIP? 第二个问题是最具挑战性的问题之一,因为没有广泛接受的方法来开发基于DFT计算的MLIP超过GGA水平。在过去的几年里,迁移学习(TL)的使用已被批准为解决这一问题的有前途的策略。TL背后的主要思想是通过稍微改进(微调)用一些更容易获得但不太准确的数据预训练的基础模型来训练更准确的ML模型。在MLIP的情况下,可以用更准确的从头算数据集微调基于GGA的势。这种方法的主要优点是,这种微调需要的数据比从头开始训练模型少得多,因此,有机会在高级从头计算的基础上构建MLIP,而在传统策略中使用这种从头计算对计算要求太高。有许多使用TL进行MLIP开发的例子,因此,寻找最佳策略是一项紧迫的任务。在这里,我们解决了Al-Cu合金的上述问题,这些问题具有普遍的实用性和根本性。下面,我们将表明使用TL优化交换相关函数使我们能够有效地构建准确的MLIP Al-Cu合金。===============================
===============================
Fig. 1.训练数据集中包含的结构的二维PCA图。初始数据集的晶体和液体结构分别由黑点和红点表示,该初始数据集是通过具有PBE函数的主动学习过程构建的。用于微调的结构以绿色表示。图片上的每一个单独的簇对应于某种成分或特定的晶体结构。
图2所示。用于开发准确深度机器学习潜力的迁移学习的一般方案。首先,我们在一些标准的相对“便宜”的从头算近似(如GGA)上预训练一个势。然后,通过重新优化拟合神经网络外部层的权值对该势进行微调。这种微调需要的数据比从头开始训练少得多。
图3所示。平价情节DP vs DFT的能量((a)、(d) (g), (j), (m)和(p)],部队[(b)、(e)、(h)、(k), (n),和(q)],和维里((c), (f),(我),(l)、(o)和(r))为不同版本的DPs。给出了相应的均方根误差值。DP-PBE在相应的PBE-DPGEN数据集上进行了测试;在DFT数据上测试了由微调过程得到的DPs, DFT数据用于微调;DPA-OC2M模型已在PBE-DPGEN和r2scan -微调数据集上进行了测试。
图4所示。用DP-PBE和DP-PBE- cu -pv (a)、DP-SCAN (b)、DP-PBEsol (c)、DPA-OC2M和DPA-OC2M-tune (d)计算T = 1423 K时Al-Cu熔体混合焓的浓度依赖关系。Stolz et al.55和Sandakov et al.56的实验数据分别用黑色星形和灰色五角形表示。不同dp的原子模拟结果用彩色子弹表示。实线是眼睛的引导线。
表1 .使用不同版本的DPs模拟液晶界面运动,实验得到并计算了Al、Cu和AlCu3化合物的熔化温度。
图5所示。(a)参考文献58的Al-Cu相图示意图,数据来自参考文献59和60。用DP计算的Al、AlCu3和Cu的熔化温度用彩色子弹标记。(b) - (d)纯Al液晶界面运动模拟对应的快照。
图6所示。使用DP-PBE、DP-PBE- cu -pv和DP-AlCuMg计算T = 1500 K时Al-Cu熔体动态粘度的组分依赖关系(a);DP-SCAN (b); DP-PBEsol (c); 和DPA-OC2M-tune (d)。Schick et al.61和Ouchi62的实验数据分别用黑色方块和灰色圆圈表示。不同dp的原子模拟结果用彩色子弹表示。实线是眼睛的引导线。
图7所示。力(a)和(b)的概率分布以及维里张量(c)和(d)的非对角分量由DFT计算,具有不同的交换相关函数。给出了覆盖整个集中空间的整个训练数据集的分布,以及xCu∈(0.6,0.8)的集中区间对应的部分数据集的分布。实线表示计算分布与高斯函数的拟合。
================================主要结论
“本文以Al-Cu合金熔体的热力学和输运性质为代表,研究了金属合金的第一性原理机器学习辅助模拟问题。我们观察到,从头计算的基础上的GGA-PBE交换相关功能,未能描述铝铜熔体的输运性质。也就是说,PBE基DP甚至不能在定性上再现该体系中粘度的浓度依赖性(参见图6)。考虑到DP-PBE很好地再现了从头算能量、力和维里[见图1和图2]。3(a)-3(c)],我们得出结论,解决这个问题需要基于不同的从头近似的MLIP的发展,可能超过GGA水平。我们已经开发了基于r2 SCAN和PBESol泛函的DP,并意识到它们在描述Al-Cu合金的热力学和输运性质方面提供了更好的准确性。特别是,基于r2 SCAN的深度机器学习潜力使我们能够定量地再现动态粘度的浓度依赖性[见图6(B)]。 我们的研究最有趣的结果之一是得出的结论是,在富铜浓度范围内的铝-铜熔体的输运和热力学性质的准确描述,需要使用替代的非PBE近似的交换相关泛函,如r2 SCAN和PBESol。请注意,浓度区域,其中标准的PBE为基础的方法提供了最差的准确性,对应于形成ofmany金属间相具有很大的化学和结构多样性[图5(a)]。在参考文献68中,使用从头计算结合改进的混合基团簇展开方法,计算探索了这种行为。结果表明,域之间的50%和80%的铜显示复杂的基态性质,其特征在于存在丰富的化合物进行fcc-bcc结构不稳定性。这些事实表明,铝和铜之间存在一些非平凡的化学相互作用,这是不直观的预期,仍然知之甚少。从所获得的结果中得出的另一个问题是观察到,建立在不同DFT近似之上的DP可以为不同的组合物提供实质上不同的准确度。实际上,我们看到基于PBE的DP在富Al组合物中是完美的,但是基于SCAN和PBESol的DP在富Cu域中更好。因此,可能没有一种通用的方法可以给出完美的总体结果。这一结果提出了一个关于开发通用MLIP以准确描述宽成分范围内合金的基本问题。一个重要的结果是,在Open Catalyst数据库上预训练的DPA-OC势的微调实际上给出了与使用AL程序开发的DP-PBE势的微调相同的结果。尽管DPA-OC 2 M调谐模型的RMSE明显高于专用模型(见图3),但该模型在计算可观察属性时提供了相当的准确性。这表明使用大型通用原子模型(如DPA-OC 2 M)作为开发精确的专用MLIP的起始模型是一种有前途的策略,可以大大减少计算资源。这种方法是MLIP领域的总趋势,我们相信它将在计算材料科学中发挥越来越重要的作用。所获得的结果也提出了一个重要的问题,发展DP使用有限数量的DFT数据。事实上,有了紧凑的DFT数据集,人们至少有三种策略来创建DP:(1)微调预训练模型(在我们的情况下为DP-PBE或DPA-OC 2 M),仅重新评估有限数量的权重(2)通过重新评估所有权重但从预训练模型的权重开始来训练新的势;和(3)从头开始训练新模型。寻找最佳策略是深入研究的问题。很明显,在这项工作中使用的微调策略至少是最节省资源的策略,因为微调过程已经在1004次迭代之后收敛(从头开始训练需要1006次)。此外,考虑到数据集的小规模,仅重新评估有限数量的权重是潜力稳定性方面的优选策略。因此,我们的研究结果提出了几个基本问题,其解决是特别感兴趣的MLIPs的发展以及金属合金的第一性原理研究的方法方面。================================
以上是我们分享的一些经验或者文章的搬运,或有不足,欢迎大家指出。若留言未回复,重要的消息可以留言再提醒一下。
如有侵权,请联系我们立马删除!
👇
文章题目:
Transfer learning for accurate description of atomic transport in Al–Cu melts
文章链接:
https://pubs.aip.org/aip/jcp/article/161/17/174101/3318454/
👇