Nat. Commun. | 中南大学研究团队提出基于电子构型的堆叠模型,推动新材料稳定性可靠预测

学术   2025-01-25 18:47   韩国  

DRUGAI

今天为大家介绍的是来自中南大学王建新教授团队的一篇论文。机器学习在加速新化合物的发现方面展现出巨大潜力,能够通过准确预测化合物的热力学稳定性,大幅节省时间和资源。与传统的实验和建模方法相比,这种方法在时间和资源利用方面具有显著优势。然而,大多数现有模型基于特定领域知识构建,可能会引入偏差并影响其性能。在此,作者提出了一种基于电子构型的机器学习框架,并通过与另外两个具备不同领域知识的模型进行堆叠泛化来进一步增强。实验结果表明,该模型在准确预测化合物稳定性方面成效显著,取得了0.988的AUC分数。值得注意的是,该模型的样本利用效率非常高,仅需现有模型所用数据的七分之一即可达到相同的性能。为了进一步展示该方法的通用性,作者给出了三个示例,说明其在探索未知化学成分空间时的有效性。随后,作者通过两个案例研究阐明该方法在发掘新的二维宽带隙半导体和双钙钛矿氧化物方面的潜力。基于第一性原理计算的验证结果表明,该方法在准确识别稳定化合物方面具有卓越的准确度。

材料设计一直面临着巨大的挑战,根本原因在于材料的组合空间极其庞大,而能在实验室合成的化合物仅是其中的极少一部分。通过评估材料的热力学稳定性,能够有效缩小研究范围,从而提高研发效率。传统方法通常需要依赖实验或密度泛函理论(DFT)计算来确定相图中所有化合物的能量,计算成本高、效率低,难以对新材料进行大规模探索。不过,大型材料数据库(如Materials Project、OQMD)的出现,为利用机器学习预测化合物稳定性提供了丰富的数据基础。


现有的机器学习模型在预测化合物稳定性方面虽然取得了较大进展,但常因基于单一假设而存在偏差,缺乏对材料化学机制的深入理解,导致预测精度和实用性受限。针对这些问题,本研究提出了一个基于堆叠泛化的集成框架(ECSG),融合了两种文献中已有的模型与新开发的电子构型卷积神经网络(ECCNN),后者强调了对电子内部结构的关注。集成后形成的超级学习器可减少模型偏差并显著提升预测性能。在JARVIS数据库的预测实验中,ECSG取得了0.988的AUC,且仅需现有模型七分之一的数据即可达到相同精度。此外,利用该模型探索二维宽带隙半导体和双钙钛矿氧化物时,发现了大量潜在新材料,并通过DFT验证了这些结果的高可靠性。


模型开发


图 1


如图1a所示,所提出的ECSG框架通过堆叠泛化(SG)方法,将三种基础模型——Magpie、Roost和ECCNN——进行集成。它们分别代表不同层面的领域知识:Magpie侧重原子性质的统计特征,Roost使用图神经网络捕捉原子间相互作用,ECCNN则突出电子构型(electron configuration, EC)的作用。该框架先分别训练这三种基础模型,然后将其输出用作元模型的输入,以得到最终的稳定性预测结果。


在图1b中,展示了ECCNN模型的具体结构:模型以材料的电子构型编码矩阵为输入,经过两次卷积操作、批归一化(BN)、池化层及后续的全连接层,得到材料热力学稳定性的预测值。与传统基于手工特征或假设结构的模型相比,ECCNN利用原子电子构型的内在信息,能够更有效地减少模型偏差并提升预测性能。最终,ECSG通过综合三个基础模型的优势,实现了对无机化合物热力学稳定性的高精度、高效率预测。


与现有方法的性能测试

图 2


如图2a所示,ECSG在多项性能指标(如 AUC、Precision、F1-score、AUPR 等)上均优于其他对比模型,展现了更高的预测准确度和稳定性。图2b和图2c进一步提供了AUC曲线的细节,即使在较高的错误率范围内,ECSG也能保持良好的区分度,说明其在不同阈值下的可靠性更强。综合来看,ECSG之所以能够获得如此优异的表现,一方面得益于堆叠泛化(SG)对来自多种领域知识模型的有效集成,另一方面来自ECCNN对电子构型信息的引入,大幅减少了单一模型在假设和特征工程上的偏差。该结果在多种数据库(如 MP、OQMD、JARVIS)中均得到验证,突显了ECSG在材料热力学稳定性预测上的卓越能力和应用潜力。


样本利用效率


图 3


如图3所示,作者通过在不同比例的训练集上进行训练,对比了ECSG与Roost、CrabNet三种模型的AUC、Precision、Recall等指标随数据量的变化。结果表明,在小样本条件下,ECSG可以用更少的数据达到与其他模型相近甚至更高的性能。例如,在MP数据库上,ECSG只需10%的训练数据就能获得约0.800的AUC,而Roost和CrabNet则需要70%的数据才能达到相同水平。

图 4


基于此,图4阐释了ECSG样本效率高的主要原因:一方面,通过整合多种领域知识来减少经验风险与真实风险的差距;另一方面,ECCNN等模型所提供的电子构型信息可拓展假设空间,使学习算法更逼近真实最优解。综合这两方面的作用,ECSG能在样本极度有限的情况下依然获得出色的预测性能,对需要在小规模数据集上进行研发的材料研究具有重要意义。


在未知空间的预测

在图5a, b中展示了钙钛矿卤化物庞大的组分空间,尤其强调了A位和B位可容纳多种原子的特点。基于这一图示,可以看出由于组成元素的多样性,钙钛矿在材料研究中拥有相当广阔的探索空间。为了在真实材料发现情境中验证ECSG方法在未知空间的预测性能,作者分别测试了它在钙钛矿卤化物、含锂氧化物以及过渡金属氧化物这三类材料中的稳定性预测能力。结果表明,无论在何种未知空间,ECSG均能在ACC、AUC等指标上保持领先。同时,虽然部分指标(如 F1、AUPR)因测试集中阳性和阴性样本分布不平衡而相对较低,但与随机模型相比仍有显著提升。这说明相比传统试错法,ECSG在发现新型材料方面具有更高的效率和潜力。


案例研究

图 6


在图6中展示了结合ECSG与大语言模型(DARWIN-7B)对2D材料进行筛选的结果:ECSG首先用来预测材料是否稳定,再由DARWIN-7B筛选能带带隙大于2 eV的样本,最终得到393个满足带隙要求的候选材料,其中313个同时满足稳定性需求,ECSG对这些材料的稳定性预测准确率达79.6%。ECSG相较其他模型在平衡阳性预测和负面样本排除方面表现更为出色,有效避免了对大量不稳定材料的无效筛选,大幅提升了寻找宽带隙2D半导体候选材料的效率与可靠性。


双钙钛矿氧化物

图 7


在图7中给出了对450万余种钙钛矿氧化物进行稳定性预测的结果,有助于在庞大的组分空间中快速筛选潜在稳定化合物。其中,图7a展示了所有候选化合物的预测分布:超过四成的样本稳定性概率低于0.2,通过设定稳定性概率阈值为0.5,可将搜索范围从最初的4524608种有效组合缩减至约1877443种预测为稳定的材料。随后,作者随机挑选了其中35个稳定性概率高于90%的化合物,并通过第一性原理计算进行进一步验证,结果与OQMD、JARVIS等数据库的凸包参照相符率较高,显著优于对照模型。


此外,图7b呈现了A位与B位上常见元素的分布及其对稳定性的影响。由图可见,含V、Cr、Mn、Fe、Co、Ni等第三周期过渡金属元素的组合更有可能形成稳定的双钙钛矿氧化物。整体而言,基于ECSG训练的集成学习器可在短时间内从庞大化学空间中有效筛选出潜在稳定材料,为钙钛矿氧化物的新材料设计与实验验证提供了强有力的辅助。


结论

ECSG整合多种模型优势,解决稳定性预测精度和样本效率不足等挑战,凭借高准确率和对异质数据的整合能力,在钙钛矿氧化物稳定性预测中大放异彩。通过结合结构信息及相成分模型,可更全面地预测重要材料性能,未来还将发展面向带隙、模量等关键属性的模型,不断增强在广泛材料系统中的适用性,助力材料科学加速蓬勃发展。

编译|于洲

审稿|王梓旭

参考资料

Zou H, Zhao H, Lu M, et al. Predicting thermodynamic stability of inorganic compounds using ensemble machine learning based on electron configuration[J]. Nature Communications, 2025, 16(1): 203.

DrugAI
关注人工智能与化学、生物、药学和医学的交叉领域进展,提供“原创、专业、实例”的解读分享。
 最新文章