JACS: 使用生成式预训练Transformer探索催化剂新可能

学术 2024-11-25 11:07 中国台湾

OC20和2e-ORR数据集和源代码链接：

https://fair-chem.github.io/core/datasets/oc20.html

https://github.com/SeoinBack/CatGPT

1 研究背景

在材料科学领域，发现性能优越的催化剂始终是核心挑战。传统的实验筛选方法耗时长、成本高，而计算化学模拟（如密度泛函理论，DFT）虽然精确但计算资源消耗巨大。近年来，机器学习技术被引入材料发现领域，通过高通量筛选和逆向设计提升效率。特别是生成模型，例如变分自编码器（VAE）和生成对抗网络（GAN），已经在设计有机和无机材料方面取得了重要进展。然而，这些方法在结构生成的多样性和有效性上仍存在局限。为此，本研究开发了一种基于生成式预训练变换器的催化剂生成模型（CatGPT），旨在利用大规模数据和深度学习技术推动催化剂设计领域的进一步发展。

2 主要结果

2.1高效生成催化剂结构

CatGPT基于生成式预训练变换器（GPT-2）架构，通过训练超过200万种催化剂结构数据，能够生成高效、准确的无机催化剂表面结构。这些结构包括表面和吸附原子，其形式被编码为字符串化的晶体结构表示。生成的催化剂结构表现出了较高的有效性（通过结构验证）和多样性（与真实数据集的特征分布相符）。研究团队开发了结构异常检测模型，以进一步验证生成结构的可靠性，确保生成结果在物理和化学性质上的合理性。此外，通过去除重叠原子等方法（如“绕过特性”），模型在生成无重叠原子结构方面达到了100%的准确率。这使得该模型能够在不增加计算复杂度的情况下高效生成用于进一步分析的高质量催化剂候选。

2.2 针对性优化与定制化生成

CatGPT通过文本条件生成和微调技术实现了针对特定催化剂类别的优化设计。在实验中，研究团队以双电子氧还原反应（2e-ORR）为目标，对预训练模型进行了微调。2e-ORR催化剂要求在选择性和活性之间达到平衡，尤其在氧吸附能（ΔGO）和中间产物（ΔGOOH）的自由能方面具有特定的理想值。

研究团队利用包含氧亲和性和排斥性元素组合的双金属合金数据集（约1700条数据），对CatGPT进行微调，使模型能够生成满足这些规则的结构。生成的催化剂结构在成分（满足合金组合规则）和吸附几何（氧吸附位置准确）方面的有效性得分均超过95%。通过这种小数据集微调，CatGPT不仅保持了对多样化化学空间的探索能力，还能快速生成符合特定需求的催化剂结构，为定制化催化剂设计提供了全新思路。

2.3 全面验证与性能分析

研究团队结合机器学习势函数（MLP）和密度泛函理论（DFT）计算，详细验证了生成催化剂结构的热力学性能及化学活性。首先，利用MLP对生成的催化剂结构进行几何优化和自由能预测，筛选出满足反应活性和选择性条件的潜在催化剂。随后，进一步通过DFT计算验证其真实的热力学性能。

在测试中，从1000个生成的候选结构中筛选出的133个唯一且全新的催化剂结构，经MLP预测后有35个符合活性条件。进一步通过DFT优化和计算，其中10个结构满足了2e-ORR的活性和选择性指标。特别值得注意的是，这些候选催化剂均未出现在训练数据集中，表明模型具备发现新材料的潜力。

学术之友

\x26quot;学术之友\x26quot;旨在建立一个综合的学术交流平台。主要内容包括：分享科研资讯，总结学术干货，发布科研招聘等。让我们携起手来共同学习，一起进步！

最新文章

破百年难题！青年博士连发3篇Nature顶刊！AI+DFT彻底扭转现有局面！

纯计算Nano Lett.: 揭示三维多轨道平带模型及材料

Nature打破质疑！寒门博士运用“第一性原理计算”解决计算材料学百年难题！颠覆教科书！

纯计算JACS: 最小富勒烯单元构建新型二维网络提升稳定性与光催化性能

JACS: 使用生成式预训练Transformer探索催化剂新可能

Science: 计算催化，SISSO符号回归机器学习应用

4代Intel高主频超算低至4分

极性声子敢与自旋输运共舞

滑移铁性：一种低能激发习惯

HfO2 之铁电奋斗历程

打破质疑！材料研究迎来史上最大进展，连续登顶Nature、Science等各大国际顶刊！

DiffractGPT：利用生成式预训练模型从XRD中解析原子结构

JPCC: 电催化剂数据库BEAST DB

(本周五开课)第四期VASPKIT团队“机器学习赋能材料研究”专题培训

A100 80GB配置来了

(这周开课)第四期VASPKIT团队“机器学习赋能材料研究”专题培训

MinerU：开源高质量数据提取工具，支持PDF/网页/多格式电子书提取

量子材料生成迎来新突破：SCIGEN模型引领创新

如何撰写一篇优秀的综述文章

A100 80GB配置来了

研究生期间靠自己买车买房的都是些什么人？

帝国理工Aron Walsh团队：利用生成式人工智能探索晶体化学空间的新方法

诚征男友！98年妹纸，北大本科，人大硕士，部委公务员，偶尔被夸好看，江浙沪独女

cifkit程序：高通量cif晶体文件分析程序

LAVA程序：基于LAMMPS和VASP计算材料性质的python工具

atomman程序：原子操作工具包

李亚栋院士/李治/刘锦程JACS: 硫中毒钯催化剂升级为单原子催化剂，助力乙炔半加氢反应

重磅！引爆学术界核弹！纯计算已经out了？AI+DFT+MD才是正解！

npj computat. mater.: 深度学习推动晶体结构预测研究

东南大学倪振华吕俊鹏团队招收博士后研究人员

四川大学新型半导体材料与器件课题组招聘博士后和硕博研究生

济南大学化学化工学院国家级人才团队招聘教授、副教授、讲师、博士后(师资)

香港理工大学新型存储器与类脑智能团队招博士、博士后

湖南大学王笑教授招收2025年入学博士研究生

北京理工大学朱博南课题组诚聘第一性原理计算/材料信息学方向博士后

上海大学张统一院士团队发布人工智能晶体生成器CGWGAN

华东师范大学化学大模型ChemGPT-2.0版本发布

最近3篇PRL涉及交错磁性、滑移铁电和离子扩散

通用机器学习势模型排行榜，eqV2再次登顶

A100 80GB配置来了

第四期VASPKIT团队“机器学习赋能材料研究”专题培训

Nat. Commun.: 机器学习加速电子结构预测，推动复杂材料的探索

Nat. Commun.: 范德华电介质的高通量筛选和机器学习分类

2000万构象分子计算数据库

上海交通大学朱虹课题组招聘博士和博士后

ACS Nano: EMGen机器学习框架解密电子材料设计

JCTC: 杨金龙院士团队开发新型机器学习力场框架提升量子化学模拟精度

香港理工大学/牛津大学 Edman Tsang课题组博士后/博士招聘

Nature新闻：中国申请科研经费变得更加困难

QM9star数据库发布：包含两百万个离子和自由基的量子化学计算平衡结构

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉