2000万构象分子计算数据库

学术   2024-11-07 23:16   北京  

题目:AN OPEN QUANTUM CHEMISTRY PROPERTY DATABASE OF 120 KILO MOLECULES WITH 20 MILLION CONFORMERS

文献出处:https://arxiv.org/abs/2410.19316

通讯作者及单位:Fenglei Cao;Shanghai Academy of Artificial Intelligence for Science caofenglei@sais.com.cn, Alan Qi, Fudan University,qiyuan@fudan.edu.cn

数据库获取地址:https://github.com/saiscn/QO2Mol

摘要

本文介绍了量子开放有机分子数据库(QO2Mol)——一个为有机分子科学的专业和转型研究设计的大规模量子化学数据集,该数据集在开源许可下发布。QO2Mol包含120,000个有机分子和大约2000万个构象,涵盖了10种不同的元素(C, H, O, N, S, P, F, Cl, Br, I),重原子数超过40。利用高精度的B3LYP/def2-SVP量子力学水平,每个构象都被仔细计算了包括势能和力在内的量子力学性质。这些分子来源于ChEMBL化合物的片段,确保了其结构与实际化合物的相关性。其广泛的分子结构覆盖和多样化的元素组成使得可以全面研究结构-性质关系,提高了机器学习模型在预测分子行为方面的准确性和适用性

理论与计算方法

采用B3LYP/def2-SVP方法进行了高精度的计算,以获得可靠的分子性质标签。

结果讨论与文献解析

图1:常用数据集关于元素覆盖和分子结构数量的主要特征。左侧面板展示了元素的覆盖范围;右侧面板展示了构象的数量。

图2:常用数据集在精度水平和重原子数量方面的主要特征。每个圆圈的大小对应于每个数据集中覆盖的元素数量。QM9 [Ramakrishnan 等, 2014]、AN1-1 [Smith 等, 2017a] 和 AlChemy [Chen 等, 2019] 的精度水平直接从它们各自的原始论文中获取。PCQM4Mv2 数据集是从 PubChemQC 项目次级衍生而来,

图3:常用数据集中具有不同重原子数量的构象数量分布。由于 Alchemy 规模较小,此处未予展示。

图4:分子碎片化过程的一个例子。分子(a)被分解成四个片段:F1、F2、F3 和 F4。

图5:数据生成的结果。(左) 数据集中C-C单键长度的分布统计。(右) 扭转角旋转过程中柔性键相关势能变化的扫描曲线示例,这是在构象搜索程序中的一部分。

图6:各子数据集中重原子数量的分布情况。这通常用于展示不同子数据集之间分子复杂度的差异,其中“重原子”指的是除了氢以外的所有原子,因为它们对分子的性质有更大的影响。通过这种分布,可以了解各个子数据集中的分子大小和复杂性,这对于药物设计、材料科学等领域尤为重要。

表2,在不同网络的测试结果。能看到EquiformerV2还是最好的网络


总结

本文的主要贡献有三方面:

  • 引入了QO2Mol数据集,包含120,000个有机分子和2000多万个构象,重原子数超过40,与广泛使用的实际化合物库中的化学结构分布紧密匹配。

  • 使用高精度方法和B3LYP/def2-SVP基组获取了可靠的分子性质标签,包括势能和力,为未来的研究和模型开发提供了宝贵的数据资源。

  • 提供了加载和处理数据集的脚本,以及基准代码和比较结果,使研究人员能够快速上手并轻松将数据集集成到他们的项目中。

学术之友
\x26quot;学术之友\x26quot;旨在建立一个综合的学术交流平台。主要内容包括:分享科研资讯,总结学术干货,发布科研招聘等。让我们携起手来共同学习,一起进步!
 最新文章