北京大学本科校友、美国麻省理工学院博士毕业生谢天,目前是英国剑桥 Microsoft Research AI for Science 的首席研发经理。
本科和博士期间,其曾先后学习化学专业和材料科学与工程专业,后在麻省理工学院 CSAIL 实验室从事博后研究,并曾在 DeepMind 和 Google X 实习。
正是这样的“AI+Science”经历,让谢天在现单位 Microsoft Research AI for Science 工作期间结出一颗 AI 硕果。
图|谢天(来源:谢天)
当地时间 1 月 16 日,谢天和同事在最新发表的 Nature 论文中,展示了一款名为 MatterGen 的基于扩散的 AI 生成模型,该模型可以生成稳定、多样的无机材料,并且可以针对逆向材料设计的广泛下游任务进行微调。微软公司 CEO 萨提亚·纳德拉(Satya Nadella)也专门在 X 介绍了这一成果。
图 | 微软公司 CEO 萨提亚·纳德拉(Satya Nadella)的 X 截图(来源:X)
MatterGen 通过引入原子类型、坐标和晶格的联合扩散过程, 解决了此前方法的局限性。
与已有的同类生成模型相比,MatterGen 生成更新颖、更稳定结构的可能性提高两倍,并能将所生成材料的稳定性、独特性和新颖性(S.U.N.,stable, unique, and novel)的百分比提高一倍多,同时更加接近局部能量最小值(注:局部能量是指在特定区域内能量的分布和变化情况)。
通过针对 MatterGen 进行微调,可以生成能够满足各种属性目标约束的 S.U.N. 结构,其性能优于传统的机器学习力场方法、随机结构搜索方法和机器学习辅助筛选法。
(来源:arXiv)
通过重复单元来定义晶体材料
研究中,谢天等人通过重复单元(即晶胞)来定义晶体材料,这些重复单元包括原子类型 A(即化学元素)、坐标 X 和周期晶格 L。对于每个组件他们都定义了一个破坏过程(corruption process)。
然后,他们通过缩放噪声幅度,来调整笛卡尔空间中单元大小对于分数坐标扩散的影响(注:笛卡尔空间是一种二维或三维坐标系)。
原子类型会在分类空间中扩散,单个原子则会被破坏成掩蔽状态(masked state)。为了逆转破坏过程,谢天等人使用了一个分数网络,该网络可以输出原子类型、坐标和晶格的等变分数,从而绕开从数据中学习对称性的需要。
为了设计具有所需属性约束的材料,该团队引入了适配器模块(adapter modules),以用于在附加数据集上针对评分模型进行微调。适配器模块能够根据给定的属性标签改变模型的输出。研究中,谢天等人将这种方法应用于多种类型的约束,借此生成了一组微调模型。
当微调模型与无分类器引导(classifier-free guidance)加以结合,就能引导 MatterGen 的生成趋向目标属性约束(aim constraint attributes),从而能够生成新的材料,并让材料拥有目标化学成分、对称性以及磁密度等标量特性。
(来源:arXiv)
可生成 1000 个结构,独特结构百分比为 100%
如前所述,该团队使用 MatterGen 生成了 S.U.N. 材料结构。同时,他们还针对所生成结构的质量和多样性加以分析。
为了解释材料结构的无序效应,他们基于全新提出的有序-无序结构匹配器来匹配结构(注:无序效应是指在没有规则或随机性的系统中,由于原子或分子的无序排列和运动,导致系统表现出特定的物理性质和化学性质变化的现象)。
而为了评估稳定性,该团队针对 1024 个生成结构进行密度泛函理论计算。结果发现,MatterGen 所生成的大多数结构都是稳定的,并且非常接近密度泛函理论局部能量最小值。
当生成 1000 个结构时,独特结构的百分比为 100%,在生成 100 万个结构后仅降至 86%,而新颖性则能稳定在 68% 左右。
该团队还将 MatterGen 与之前的材料生成模型进行基准测试,借此发现 MatterGen 能以更高的速度生成 S.U.N. 材料,并且其生成结构在数量级上更接近其局部能量最小值。
(来源:arXiv)
在 V-Sr-O 的组合外壳上发现五种新结构
在目标化学体系(如 Li-Co-O)中找到最稳定的材料结构,对于确定评估稳定性所需的真正凸包至关重要(注:凸包是一个计算几何中的概念),这也是材料设计的主要挑战之一。
研究中,谢天等人了评估了 MatterGen 探索目标化学系统的能力。具体来说,他们针对九个三元、九个四元和九个五元化学体系进行基准评估。
对于这三组中的每一组,他们从以下类别中随机选择三个化学系统,分别是已充分探索、部分探索和未探索。
借此发现,MatterGen 生成的 S.U.N. 结构百分比高于传统方法,并能在五元系统上实现更好的性能。值得注意的是,MatterGen 在五元系统中的强大性能仅用 10240 个生成样本即可实现。
研究结果还表明,MatterGen 在 V-Sr-O 的组合外壳上发现了五种新结构,而采用其他两种传统方法分别只能发现四种和两种。
(来源:arXiv)
发现 277 个 S.U.N. 结构,是传统方法所能发现结构数量的两倍
在碳捕获技术、太阳能电池或半导体技术中,经常涉及到筛选具有目标磁性、电子性能和机械性能的材料。传统的基于筛选的方法一般是从一组候选者开始,然后选择具有最佳属性的候选者。然而,这种筛选方法无法探索已知材料之外的结构。
而 MatterGen 在三个单属性逆向设计任务中,均展示出能够直接生成具有目标约束的 S.U.N. 材料的能力。这些材料具有磁性、电子性能和机械性能等多种特性,并能让 MatterGen 产生不同程度的可用标记数据,从而能够用于微调模型。
以其中一个任务为例,谢天等人希望产生具有高磁密度的材料。为此,他们在 60.5 万个具有密度泛函理论磁密度标签的结构上微调模型,借此生成了目标磁密度值为 0.20˚a−3 的结构。
而在另一个任务中,他们试图寻找具有特定电子特性的材料,为此他们在 42000 个具有密度泛函理论带隙标签的结构上微调模型,然后针对目标计算带隙值为 3.0eV 的材料进行采样。
借此发现,MatterGen 能够找到多达 47 个磁密度高于 0.2˚A−3 的 S.U.N. 结构。
与此同时,MatterGen 能以几乎恒定的速度不断地发现 S.U.N. 结构。通过给定 500 个密度泛函理论属性计算的预算,该团队发现了 277 个 S.U.N. 结构,这几乎是传统方法所能发现结构数量的两倍。
(来源:arXiv)
从本科时埋下“AI+Science”的种子
本次论文的题目为《无机材料设计的生成模型》(A generative model for inorganic materials design),谢天是共同通讯作者。前面提到谢天的本科专业和博士专业均和材料化学有关。其个人主页介绍称,他领导了 MatterGen 的开发。
(来源:Nature)
他本次能和同事成功研发 MatterGen 并在顶刊发表论文,也并非一蹴而就,而是基于他和同事的此前积累。此前,他还曾参与开发过一款名为 MatterSim 的能够加速材料特性模拟的 AI 软件。
而谢天在读博和博后期间,就已开始耕耘“AI+Science”这一领域。比如:2018 年,他开发过一款专门为材料设计打造的图神经网络 CGCNN;2021 年,他又开发一款名为 CDVAE 的材料生成模型。
2022 年,他正式加入 Microsoft Research AI for Science,目前他在这里领导着一个由科研人员、工程师和项目经理组成的跨学科团队,旨在通过用 AI 来加速新材料的设计,最终助力于储能、碳捕获和催化等领域的发展。