文章速览
机器学习势(MLP)是近些年来发展起来的一种新型力场,由于其能在保持力场的速度情况下达到从头算方法的精度而被理论计算工作者们所重视。MLP也能作为晶体结构预测(CSP)中的目标函数。
在本文中,作者提出了一种可用于有机晶体结构预测的高通量、端到端的工作流。该工作流利用 MLP 对晶体结构进行快速、准确的排序和松弛,并将其集成到遗传算法中,以便对搜索空间进行有效采样。在作者的测试中,该算法能够找到约 80% 的候选者的匹配项,并且其初始种群规模比在使用随机搜索时小 10−100 倍。由于该工作流使用ANI等MLP来对生成的各晶体结构进行排序,所以该方法的计算速度会比一些依赖DFT的CSP框架快几个数量级,并且随着收集的数据越来越多,该方法的精度可以不断改进。
图文详情
图1. 本文中呈现的有机晶体生成过程的工作流程图。只需几行Python代码,就可以计算出一组分子构象异构体和一组优化过的有机晶体。
图2. 遗传算法的流程图。一个中央进程负责处理种群级别的任务——如计算种群中结构的目标函数、对种群重新排序,并将其分配给工作进程等。工作进程负责选择父代、育种,并向中央进程返回有效的结构。
图3. GAmuza 引入了新的操作。对称旋转和对称平移这两个操作都允许人们能在晶体内旋转和平移分子,同时保留母结构的空间群。这是通过从晶体中提取不对称单元、对单个分子应用操作并通过空间群的对称操作再生结构来实现的。
图4. 使用 ANI2x 模型进行随机搜索时的成功率、平均 rmsd 和平均百分比排名(成功匹配)。
表1. ANI2x 对各种结构的排序能力。其中Ns 是随机生成的结构数量。Nc 是考虑的分子构象异构体数量。”successful runs”被定义为使用不同随机种子在 10 次试验中生成匹配(rmsd <0.8 Å)的运行次数。”total rank”和”% rank”是根据与所有 10 次运行的结构进行比较后匹配的排名计算得出的。”best rank”是 10 次试验中排名最低的匹配结构。”Min. rmsd” 是针对实验结构发现的最小均方根偏差。
图5. 比较各种 ANI 模型对不同过去的盲测候选结构的排序能力。为了便于可视化,y 轴以对数刻度绘制。
图6. 使用 GAtor 或 GAmuza 中的对称 (Sym) 设置并使用 rmsd 目标函数时的对过去盲测的成功率 (左) 和平均 rmsd (右)。
图7. 使用GAmuza 中的对称设置并使用 ANI2x 或 ANIOE62 目标函数时的对过去盲测的成功率 (左) 和平均 rmsd (右)。
图8. 与其他提交相比,GAmuza 在第四、第五和第六次盲测中生成各种目标所用的时间。y 轴以对数刻度绘制。绘制了运行时间最短和最长的提交,以及所有成功提交的平均运行时间。
图9. 从头到尾运行工作流时实现的各种目标的结果。实验结构以灰色显示。使用 GAmuza 生成的结构与实验结构相吻合,并着色以显示来自实验得出的结构的单个分子的均方根差。仅显示晶胞内的分子。可视化软件是MCSE。
图10. 用于训练 ANIOE62 的训练和验证曲线。损失函数是使用预测能量与 PBE0 能量的 MSE 计算的。除了训练和验证损失外,自适应学习率在每个图中都以虚线表示。
表2. 各种 ANI 模型对原子为H, C, N, O 的目标的排序能力,这里使用随机搜索时找到匹配项。每个 ANI 模型用于对随机搜索生成的每个群体进行排名,并计算总排名。每个目标的最佳性能模型以粗体显示。
表3. 将 rmsd 作为 遗传算法中选择步骤的目标函数时的结果。其中Ns 是过滤和聚类之前初始池中结构的数量。Nc 是考虑的分子构象异构体的数量。还报告了所有 10 次运行所需的最小 rmsd 和计算时间。最小 rmsd 较低的构象以粗体显示。
表4. 对于每个结构和每个 Nmpc(每个晶胞的分子数),整个流程运行 10 次直至完成。每次运行期间,在过滤和聚类之前,会为每个分子构象生成 Ns 个结构。记录每个目标的成功运行、总排名、最佳排名、最小均方根差和计算时间。
文献详情
题目: Accelerated Organic Crystal Structure Prediction with Genetic Algorithms and Machine Learning.
作者: Amit Kadan,*,§ Kevin Ryczko,*,§ Andrew Wildman, Rodrigo Wang, Adrian Roitberg,* and Takeshi Yamazaki*
引用: J. Chem. Theory Comput. 2023, 19, 9388−9402.
DOI: 10.1021/acs.jctc.3c00853
作者简介
湖南大学何清课题组
研究方向|超分子化学
Bigger Deeper Smarter Higher
投稿,荐稿,合作
437015451@qq.com