题目:Generative Pretrained Transformer for Heterogeneous Catalysts
文献出处:J. Am. Chem. Soc. 2024, DOI: 10.1021/jacs.4c11504
通讯作者及单位:Seoin Back/Department of Chemical and Biomolecular Engineering, Institute of Emergent Materials, Sogang University
摘要
发现新颖且有前景的材料是化学和材料科学领域的一项关键挑战,传统上采用从反复试验到机器学习驱动的逆向设计等方法来解决。最近的研究表明,基于变压器的语言模型可以用作材料生成模型,以扩展化学空间并探索具有所需特性的材料。在这项工作中,作者引入了催化剂生成预训练transformer (CatGPT),该变压器经过训练可以从广阔的化学空间中生成无机催化剂结构的字符串表示。CatGPT 不仅在生成有效和准确的催化剂结构方面表现出色,而且还可以作为通过文本调节和微调生成所需类型催化剂的基础模型。例如,作者使用用于筛选双电子氧还原反应 (2e-ORR) 催化剂的二元合金催化剂数据集对预训练的 CatGPT 进行了微调,并生成了专门用于 2e-ORR 的催化剂结构。作者的工作展示了生成语言模型作为催化剂发现生成工具的潜力。
理论与计算方法
催化剂结构表示
块体晶体结构可以表示为三维重复系统。与晶体类似,催化剂表面结构可以通过晶胞的晶格参数、原子符号和原子各自的分数(或绝对)坐标来完全表示。因此,用于表示由 N 个原子组成的催化剂表面的元组 C 配置如下:
其中包括晶胞晶格参数的长度(l1、l2、l3)和角度(θ1、θ2、θ3)信息,原子符号(ei)及其在晶胞内的分数坐标集(xi、yi、zi)。
模型结构与训练
作者使用 HuggingFace 的 GPT-2 架构来生成标记为元组 C 的组成部分的 3D 催化剂结构。标记化结构序列中的标记 ti 由分类概率分布 p(ti|t0:i-1) 预测,其中 t0:i-1 是直到 i-1 的输入标记序列。为了生成标记化结构 x 的序列,Transformer 对联合概率进行建模,如下所示:
作者训练了基于 GPT 的生成模型和基于 BERT 的检测模型,它们具有 12 个自注意力层、8 个注意力头、512 的嵌入大小和 144 的批大小。训练周期设置为 10。除非另有说明,否则模型和生成的其他参数(例如温度、top_k 和 top_p)均设置为 HuggingFace 中的默认值。
DFT计算
计算软件:VASP
自旋极化 + RPBE 泛函
截断能:400 eV + 能量收敛:1E-4 eV + 力收敛:0.05 eV/Å
结果讨论与文献解析
作者实施了生成式预训练 Transformer 2 (GPT-2) 架构来生成催化剂结构,以下称为“CatGPT”。CatGPT 在包含表面和吸附原子的两百万个催化剂结构上进行自回归训练,这些结构是从 Open Catalyst 2020 Structure to Energy and Forces 任务数据集 (OC20-S2EF 2M 数据集) 收集的。这些结构表示为一个语料库,由晶格参数、原子符号和 3D 坐标的标记字符串组成。为了进行验证,作者使用了 Open Catalyst 2020 域内验证集 (OC20-S2EF Val-ID 数据集)。
生成结构的评估指标
CatGPT 的各代表现
吸附质条件生成
2e-ORR 催化剂的微调
生成参数调整
2e-ORR 催化剂发现的应用