OpenLAM晶体结构集邮大赛|连续霸榜四周的结构生成方法CON-CDVAE

文摘   2024-08-13 17:18   北京  



在迈向通用大原子模型(Large Atomic Model,LAM)的征途上,深度势能核心开发者团队面向社区,发起 OpenLAM 大原子模型计划OpenLAM 的口号是“征服元素周期表!”,希望通过建立开源开放的围绕微尺度大模型的生态,为微观科学研究提供新的基础设施,并推动材料、能源、生物制药等领域微尺度工业设计的变革。


在最近的OpenLAM晶体结构集邮大赛中,一种名为Con-CDVAE的结构生成方法脱颖而出,连续四周荣膺榜首,引起了广泛关注。那么,什么是Con-CDVAE?它又是如何在大赛中屡获佳绩的呢?



OpenLAM晶体结构集邮大赛简介


OpenLAM晶体结构集邮大赛是AI4S Cup系列下的一个高水平竞赛,旨在推动晶体结构生成技术的发展和应用。在比赛中,选手们可以自由选择任何算法、基于任何数据库,构筑出满足比赛要求的晶体结构。评审团以周为单位,根据参赛作品的晶体稳定性和提交的结构数量进行评分,每周排名前十的选手将根据其得分比例获得奖金分配。比赛于2024.7.1正式开始,初步计划于2024年年底结束。


Paper链接
https://dwz.cn/xRbkCoOA


Con-CDVAE的独特优势


Con-CDVAE (Cai-Yuan Ye , Hong-Ming Weng, and Quan-Sheng Wu, arxiv:2403.12478),全称“条件晶体扩散变分自编码器”,是这次大赛的明星选手。它之所以能连续四周霸榜,主要得益于其独特的生成算法机制出色的条件生成能力。由于当前每周评奖依据为根据晶体结构形成能来做加权,在限制结构提交个数的前提下,Con-CDVAE能够定向生成形成能更低的结构,从而在比赛中占据优势。


下面的示意图展示了通过设置不同的形成能(0/-2/-4 eV/atom)、在不同的条件设置下生成的结构的实际形成能评估。



那么,Con-CDVAE是如何做到这点的?这主要得益于以下三个要点:


1. 创新的模型架构:Con-CDVAE是在Crystal Diffusion Variational Autoencoder (CDVAE)的基础上进行扩展的。模型引入了重要的Prior block和Predictor block。Prior block负责根据目标属性生成隐变量,而Predictor block则在隐空间中聚集具有相似属性的晶体,从而提升生成效率和精度。


2. 两步生成方法:为实现精确条件生成,Con-CDVAE采用分步骤的方式。第一步,通过已有数据训练基础模型,并利用Predictor block验证生成晶体的目标属性。第二步,通过Prior block根据指定属性生成隐变量,进而生成符合要求的晶体结构。


3. 多样化的生成策略:Con-CDVAE为不同生成需求提供了default、full和less三种策略。default策略仅使用基础属性,full策略整合所有可能属性,而less策略则随机填补缺失属性信息。这些策略使得Con-CDVAE在灵活性和精度上表现优异。



快速上手Con-CDVAE的Notebook


这里,我们准备了一个Bohrium Notebook,供读者直接尝试利用预训练好的Con-CDVAE模型做结构生成。读者还可以基于该Notebook做进一步的探究,例如分析(通过修改formation_energy_per_atom参数)设置不同形成能生成的结构在元素和局域结构特征分布等方面的不同。


Notebook链接
https://dwz.cn/danH5L8k


此外,Con-CDVAE官方也在比赛讨论区发布了可供训练和推理的demo notebook,链接:https://nb.bohrium.dp.tech/detail/42378341216


Notebook链接
https://dwz.cn/y0Bhunv2


未来展望


尽管Con-CDVAE已经展示出强大的功能,但也仍有改进空间。例如,在考虑晶体对称性信息等方面,Con-CDVAE仍有待加强。此外,针对更多实用性更强的物理性质生成,例如超导材料的临界温度等,也是非常值得探索的。


此外,形成能未必是晶体结构稳定性最好的判据指标。在更多实践的基础上,Con-CDVAE这样的算法也会启发比赛机制的改进和优化。


最后,关于Con-CDVAE和晶体结构集邮比赛的任何疑问,欢迎在比赛讨论区积极留言!

(讨论区链接:https://bohrium.dp.tech/competitions/8821838186?tab=discuss&postId=8415617783)


推荐关注




关于深势科技

深势科技是“AI for Science”科学研究范式的引领者和践行者。AI for Science 即运用 AI 学习一系列的科学原理和科学知识,并进一步解决科学研究和工业研发领域的关键问题。

深势科技依托在交叉学科领域的深耕,构建了“深势 · 宇知®”AI for Science 大模型体系,将众多学科的科研方法从“实验试错 / 计算机”时代带入了“预训练模型时代”,并以“微尺度工业设计与仿真”为切入点,打造了Bohrium® 玻尔®科研空间站、Hermite® 药物计算设计平台、RiDYMO® 难成药靶标研发平台及 Piloteye® 电池设计自动化平台等科研和工业研发基础设施,形成了 AI for Science 的“创新-落地”链路和开放生态,赋能“千行百业”,为人类经济发展最基础的生物医药、能源、材料和信息科学与工程研究打造新一代工业设计与仿真系统。

深势科技是国家高新技术企业、国家专精特新“小巨人”企业,在北京、上海、深圳等城市布局研发中心。科研技术团队由中国科学院院士领衔,汇集了超百位数学、 物理、化学、生物、材料、计算机等多个领域的优秀青年科学家和工程师,其中博士及博士后在公司成员中占比超过 35%。核心成员获得过2020年全球高性能计算领域的最高奖项“戈登贝尔奖”,相关工作入选2020年中国十大科技进展和全球 AI 领域十大技术突破。

深势科技 DP Technology
深势科技致力于运用人工智能和多尺度的模拟仿真算法,为人类文明最基础的生物医药、能源、材料和信息科学与工程研究打造新一代微尺度工业设计和仿真平台。
 最新文章