EMGen链接:
https://github.com/CodingWZL/EMGen
研究背景:
随着高通量实验和计算的不断进步,材料数据迅速增长,而从大数据中发现材料知识已成为研究的关键手段。在此背景下,材料信息学得到了快速发展。人工智能(AI)的兴起与材料科学的结合显著推动了材料信息学的发展和创新。然而,AI方法的准确性与可解释性之间往往存在权衡。最准确和灵活的AI模型如深度神经网络(DNN)通常被称为“黑箱”,这种缺乏可解释性限制了AI模型在科学任务中的应用,如理解隐藏的因果关系和生成科学假设。
为了解决模型可解释性的问题,很多跨学科的努力集中在发展可解释的AI方法,以获得材料属性的预测和挖掘与材料属性密切相关的物理因素。例如,基于树的机器学习模型,如XGBoost、GBDT和随机森林(RF),可以对输入特征进行重要性排序,因此具有可解释性,这些模型已应用于尖晶石、石榴石、双钙钛矿等系统的带隙(Eg)预测中。化学图卷积神经网络(CGCNN)模型也被开发用于节点特征向量的可解释方法,发现与半导体有效质量密切相关的化学因素。
尽管如此,由于手动评估多因素与材料属性之间非线性关系的复杂性,有效的方法通常只能容纳不超过两个关键因素。这导致了许多现有工作仅基于可解释或可解释的方法来识别关键化学因素,而缺乏进一步的材料设计过程指导。
主要研究结果:
在这项研究中,研究团队提出了一种可解释的代理学习框架——EMGen,它通过重新配置组件来主动设计和生成电子材料,以确保其功能满足特定要求。研究以带隙(Eg)为例,进行电子材料的定向设计,使设计的Eg可以满足光伏、电极和绝缘材料的不同应用。
研究小组开发了一种结构和成分融合编码(SCFC)描述符,并建立了一个可解释的代理学习框架。通过集成学习(EL)模型预测Eg,平均平方误差达到0.202 eV,预测时间仅为0.7秒。研究还创建了一个高精度HSE06带隙数据库,包含116,742个条目,使大规模发现特定应用的电子材料成为可能。
更为重要的是,主动学习(AL)模型基于代理优化方法被集成到EMGen中,并通过第一性原理计算验证。所提出的EMGen框架可以在约149次预测迭代(约1.7分钟)内设计出具有适宜Eg的材料,极大地缩短了试错实验和计算的周期,填补了高性能电子材料定向设计的研究空白,为按需电子材料设计提供了洞见。
通过实验反馈和验证,研究成功设计出宽带隙(>5.0 eV)的GaxOy,用于深紫外(DUV)光电器件,预计将GaxOy薄膜在光电探测器中的应用扩展到240 nm以下的DUV光。同时,增强的带隙还帮助改善了非晶GaxOy薄膜的击穿电压和耐热性能,在电力电子应用领域具有相当大的潜力。