在最近的OpenLAM晶体结构集邮大赛中,一种名为Con-CDVAE的结构生成方法脱颖而出,连续四周荣膺榜首,引起了广泛关注。那么,什么是Con-CDVAE?它又是如何在大赛中屡获佳绩的呢?
OpenLAM晶体结构集邮大赛简介
OpenLAM晶体结构集邮大赛是AI4S Cup系列下的一个高水平竞赛,旨在推动晶体结构生成技术的发展和应用。在比赛中,选手们可以自由选择任何算法、基于任何数据库,构筑出满足比赛要求的晶体结构。评审团以周为单位,根据参赛作品的晶体稳定性和提交的结构数量进行评分,每周排名前十的选手将根据其得分比例获得奖金分配。比赛于2024.7.1正式开始,初步计划于2024年年底结束。
Paper链接 https://dwz.cn/xRbkCoOA
Con-CDVAE的独特优势
Con-CDVAE (Cai-Yuan Ye , Hong-Ming Weng, and Quan-Sheng Wu, arxiv:2403.12478),全称“条件晶体扩散变分自编码器”,是这次大赛的明星选手。它之所以能连续四周霸榜,主要得益于其独特的生成算法机制和出色的条件生成能力。由于当前每周评奖依据为根据晶体结构形成能来做加权,在限制结构提交个数的前提下,Con-CDVAE能够定向生成形成能更低的结构,从而在比赛中占据优势。
下面的示意图展示了通过设置不同的形成能(0/-2/-4 eV/atom)、在不同的条件设置下生成的结构的实际形成能评估。
那么,Con-CDVAE是如何做到这点的?这主要得益于以下三个要点:
1. 创新的模型架构:Con-CDVAE是在Crystal Diffusion Variational Autoencoder (CDVAE)的基础上进行扩展的。模型引入了重要的Prior block和Predictor block。Prior block负责根据目标属性生成隐变量,而Predictor block则在隐空间中聚集具有相似属性的晶体,从而提升生成效率和精度。
2. 两步生成方法:为实现精确条件生成,Con-CDVAE采用分步骤的方式。第一步,通过已有数据训练基础模型,并利用Predictor block验证生成晶体的目标属性。第二步,通过Prior block根据指定属性生成隐变量,进而生成符合要求的晶体结构。
3. 多样化的生成策略:Con-CDVAE为不同生成需求提供了default、full和less三种策略。default策略仅使用基础属性,full策略整合所有可能属性,而less策略则随机填补缺失属性信息。这些策略使得Con-CDVAE在灵活性和精度上表现优异。
快速上手Con-CDVAE的Notebook
这里,我们准备了一个Bohrium Notebook,供读者直接尝试利用预训练好的Con-CDVAE模型做结构生成。读者还可以基于该Notebook做进一步的探究,例如分析(通过修改formation_energy_per_atom参数)设置不同形成能生成的结构在元素和局域结构特征分布等方面的不同。
Notebook链接 https://dwz.cn/danH5L8k
此外,Con-CDVAE官方也在比赛讨论区发布了可供训练和推理的demo notebook,链接:https://nb.bohrium.dp.tech/detail/42378341216
Notebook链接 https://dwz.cn/y0Bhunv2
未来展望
尽管Con-CDVAE已经展示出强大的功能,但也仍有改进空间。例如,在考虑晶体对称性信息等方面,Con-CDVAE仍有待加强。此外,针对更多实用性更强的物理性质生成,例如超导材料的临界温度等,也是非常值得探索的。
此外,形成能未必是晶体结构稳定性最好的判据指标。在更多实践的基础上,Con-CDVAE这样的算法也会启发比赛机制的改进和优化。
最后,关于Con-CDVAE和晶体结构集邮比赛的任何疑问,欢迎在比赛讨论区积极留言!
(讨论区链接:https://bohrium.dp.tech/competitions/8821838186?tab=discuss&postId=8415617783)
推荐关注
关于深势科技