OC20和2e-ORR数据集和源代码链接:
https://fair-chem.github.io/core/datasets/oc20.html
https://github.com/SeoinBack/CatGPT
1 研究背景
在材料科学领域,发现性能优越的催化剂始终是核心挑战。传统的实验筛选方法耗时长、成本高,而计算化学模拟(如密度泛函理论,DFT)虽然精确但计算资源消耗巨大。近年来,机器学习技术被引入材料发现领域,通过高通量筛选和逆向设计提升效率。特别是生成模型,例如变分自编码器(VAE)和生成对抗网络(GAN),已经在设计有机和无机材料方面取得了重要进展。然而,这些方法在结构生成的多样性和有效性上仍存在局限。为此,本研究开发了一种基于生成式预训练变换器的催化剂生成模型(CatGPT),旨在利用大规模数据和深度学习技术推动催化剂设计领域的进一步发展。
2 主要结果
2.1高效生成催化剂结构
CatGPT基于生成式预训练变换器(GPT-2)架构,通过训练超过200万种催化剂结构数据,能够生成高效、准确的无机催化剂表面结构。这些结构包括表面和吸附原子,其形式被编码为字符串化的晶体结构表示。生成的催化剂结构表现出了较高的有效性(通过结构验证)和多样性(与真实数据集的特征分布相符)。研究团队开发了结构异常检测模型,以进一步验证生成结构的可靠性,确保生成结果在物理和化学性质上的合理性。此外,通过去除重叠原子等方法(如“绕过特性”),模型在生成无重叠原子结构方面达到了100%的准确率。这使得该模型能够在不增加计算复杂度的情况下高效生成用于进一步分析的高质量催化剂候选。
2.2 针对性优化与定制化生成
CatGPT通过文本条件生成和微调技术实现了针对特定催化剂类别的优化设计。在实验中,研究团队以双电子氧还原反应(2e-ORR)为目标,对预训练模型进行了微调。2e-ORR催化剂要求在选择性和活性之间达到平衡,尤其在氧吸附能(ΔGO)和中间产物(ΔGOOH)的自由能方面具有特定的理想值。
研究团队利用包含氧亲和性和排斥性元素组合的双金属合金数据集(约1700条数据),对CatGPT进行微调,使模型能够生成满足这些规则的结构。生成的催化剂结构在成分(满足合金组合规则)和吸附几何(氧吸附位置准确)方面的有效性得分均超过95%。通过这种小数据集微调,CatGPT不仅保持了对多样化化学空间的探索能力,还能快速生成符合特定需求的催化剂结构,为定制化催化剂设计提供了全新思路。
2.3 全面验证与性能分析
研究团队结合机器学习势函数(MLP)和密度泛函理论(DFT)计算,详细验证了生成催化剂结构的热力学性能及化学活性。首先,利用MLP对生成的催化剂结构进行几何优化和自由能预测,筛选出满足反应活性和选择性条件的潜在催化剂。随后,进一步通过DFT计算验证其真实的热力学性能。
在测试中,从1000个生成的候选结构中筛选出的133个唯一且全新的催化剂结构,经MLP预测后有35个符合活性条件。进一步通过DFT优化和计算,其中10个结构满足了2e-ORR的活性和选择性指标。特别值得注意的是,这些候选催化剂均未出现在训练数据集中,表明模型具备发现新材料的潜力。