近日,科学数据期刊发布了一篇关于新量子化学数据集QM9star的文章。QM9star是由Shuo-Qing Zhang和Xin Hong等人开发的数据集,包含了大约两百万个离子和自由基的密度泛函理论(DFT)计算平衡结构。该数据集的发布为研究分子中间体的结构和量子化学性质提供了系统的数据支持。
QM9star数据集的开发基于QM9数据集的分子结构,去除了末端氢原子,并使用B3LYP-D3(BJ)/6-311 + G(d,p)理论水平进行优化。QM9star不仅包含了大约120,000个中性分子的数据信息,还包括由这些分子衍生出的阳离子、阴离子和自由基的结构和性质。每个数据项包含分子和原子级别的信息,包括轨道能量、振动频率、电荷和电子自旋密度等。
这一数据集不仅为研究中间体的量子化学性质提供了丰富的信息,还为机器学习在有机反应建模中的应用提供了宝贵的数据支持。研究团队表示,QM9star数据集将有助于开发更加精确的反应活性和选择性预测模型,推动分子科学的发展。
QM9star的开发过程中,研究人员从QM9数据集的中性分子平衡结构出发,去除每个分子中的单个末端氢原子,并赋予相应的电荷和自旋多重度,生成了阳离子、阴离子和自由基的初始结构。这些初始结构随后在B3LYP-D3(BJ)/6-311 + G(d,p)水平上进行了优化,从而得到了这些中间体的平衡三维结构。通过数据清洗和整理,QM9star最终包含了436,000个阳离子、721,000个阴离子和731,000个自由基的数据。
研究人员指出,QM9star数据集还包含对原子级别的电荷和自旋密度等局部性质的详细描述,这对于理解化学反应中的反应活性和选择性至关重要。QM9star不仅提供了丰富的全局分子信息,也涵盖了关键的局部原子性质,使其成为机器学习研究化学中间体的重要数据来源。
目前,QM9star数据集已在figshare平台上提供,研究人员可以访问其代码库以获取下载和使用该数据集的相关说明。
QM9star相关代码仓库:
https://github.com/gentle1999/qm9star_query
QM9star数据库数据链接:
https://doi.org/10.6084/m9.figshare.27002905