摘要

发现新颖且有前景的材料是化学和材料科学领域的一项关键挑战，传统上采用从反复试验到机器学习驱动的逆向设计等方法来解决。最近的研究表明，基于变压器的语言模型可以用作材料生成模型，以扩展化学空间并探索具有所需特性的材料。在这项工作中，作者引入了催化剂生成预训练transformer (CatGPT)，该变压器经过训练可以从广阔的化学空间中生成无机催化剂结构的字符串表示。CatGPT 不仅在生成有效和准确的催化剂结构方面表现出色，而且还可以作为通过文本调节和微调生成所需类型催化剂的基础模型。例如，作者使用用于筛选双电子氧还原反应 (2e-ORR) 催化剂的二元合金催化剂数据集对预训练的 CatGPT 进行了微调，并生成了专门用于 2e-ORR 的催化剂结构。作者的工作展示了生成语言模型作为催化剂发现生成工具的潜力。

理论与计算方法

催化剂结构表示

块体晶体结构可以表示为三维重复系统。与晶体类似，催化剂表面结构可以通过晶胞的晶格参数、原子符号和原子各自的分数（或绝对）坐标来完全表示。因此，用于表示由 N 个原子组成的催化剂表面的元组 C 配置如下：

其中包括晶胞晶格参数的长度（l1、l2、l3）和角度（θ1、θ2、θ3）信息，原子符号（ei）及其在晶胞内的分数坐标集（xi、yi、zi）。

模型结构与训练

作者使用 HuggingFace 的 GPT-2 架构来生成标记为元组 C 的组成部分的 3D 催化剂结构。标记化结构序列中的标记 ti 由分类概率分布 p(ti|t0:i-1) 预测，其中 t0:i-1 是直到 i-1 的输入标记序列。为了生成标记化结构 x 的序列，Transformer 对联合概率进行建模，如下所示：

作者训练了基于 GPT 的生成模型和基于 BERT 的检测模型，它们具有 12 个自注意力层、8 个注意力头、512 的嵌入大小和 144 的批大小。训练周期设置为 10。除非另有说明，否则模型和生成的其他参数（例如温度、top_k 和 top_p）均设置为 HuggingFace 中的默认值。

DFT计算

计算软件：VASP

自旋极化 + RPBE 泛函

截断能：400 eV + 能量收敛：1E-4 eV + 力收敛：0.05 eV/Å

结果讨论与文献解析

作者实施了生成式预训练 Transformer 2 (GPT-2) 架构来生成催化剂结构，以下称为“CatGPT”。CatGPT 在包含表面和吸附原子的两百万个催化剂结构上进行自回归训练，这些结构是从 Open Catalyst 2020 Structure to Energy and Forces 任务数据集 (OC20-S2EF 2M 数据集) 收集的。这些结构表示为一个语料库，由晶格参数、原子符号和 3D 坐标的标记字符串组成。为了进行验证，作者使用了 Open Catalyst 2020 域内验证集 (OC20-S2EF Val-ID 数据集)。

生成结构的评估指标
CatGPT 的各代表现
吸附质条件生成

2e-ORR 催化剂的微调

生成参数调整

2e-ORR 催化剂发现的应用

理论计算科学

致力于理论计算化学与材料科研学术内容知识的分享。

最新文章

罗毅/江俊最新JACS，电场调控-机器学习光谱

Nat.Commun. 16种元素合金势函数

最新JACS，多相催化生成式预训练 Transformer (CatGPT)

最新JACS，CP2K气液界面MetaDynamics

最近纯计算JACS，CO2RR耦合电子转移

4代Intel高主频超算低至4分

计算催化，Science

最新JACS，高温动态单原子化，计算部分解读

最新JACS，固液界面

神经网络势函数天梯，eqV2再次登顶

A100 80GB配置来了

2000万构象分子计算数据库

肖海最新JACS-瞬时活性位点

肖海2023JACS回顾-恒电势CO2吸附反转

JACS单原子CO2RR

程俊最新Chem. Sci.限域催化剂的熵效应

今日纯计算Nature正刊详细解读，骆军委/John Robertson/魏苏淮/邓惠雄

欧鹏飞最新计算Matter，高熵合金机器学习

最近JACS，AIMD水界面

胡培君最新综述，神经网络势+动态催化

最新NC，机器学习Hessian矩阵

王海丰最新JACS Au，晶格N参与NRR

段文晖/徐勇两篇NC，等变神经网络泛函

1.1亿个结构DFT计算，Meta AI推出OMat24，驱动材料发现开源化

最新纯计算JACS，又是单原子合金

最新纯计算Angew，M-N-C的双面位点

最近Nat. Catal.肖海/徐冰君计算部分解读，显+隐混合溶剂模型

最近纯计算PNAS，电催化Fe-N-C

南开刘锦程课题组招收2025级计算方向博士研究生

最近纯计算JACS，石墨炔单原子

刘智攀最新JACS，C2化学

李剑锋/潘锋/郑世胜最新JACS，界面水

潘锋/李舜宁/郑世胜最新ACS Catal. C-C偶联

巩金龙/赵志坚最新NC，可解释机器学习双原子

最新动态催化计算综述

最新纯计算JACS，大数据分析C-C偶联

5代Intel 8581C服务器配置，在售最快配置

纯计算JACS Au，单原子合金

纯计算JACS Au，动态催化

如何判断服务器/超算CPU型号的速度

林森纯计算最新Angew-氢溢流

4代Intel超算，速度翻倍，价格不变

南开大学发布计算催化大原子模型（CLAM）与局域微调算法

庚子超算新上4代Intel高频多核节点

今日DeePMD再上大子刊-纯计算神经网络势

计算Nature正刊，2024计算ORR经典文章

计算最新JACS，电催化NRR

化学会34届学术年会-计算催化相关分会报告

【课题组】深圳理工大学海归讲席教授丁峰

丁峰最新小NC - DeePMD + 碳管生长

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉