研究背景
利用机器学习 (ML) 和深度学习 (DL) 建立定量构效关系 (QSPR) 模型,预测分子性质是当前化学、药物和材料研究的重要方法。描述符是描述分子结构特异性的数字,是定量构效关系模型的核心。
全步长矩阵 (MSF) 是分子结构信息的重要表示方式,能够映射原子间连接关系。Floyd–Warshall 算法是目前获取 MSF 的主要方法,其时间复杂度较高,对于原子个数较多的分子,计算速度比较慢。
研究内容
Figure 1. 连通性递推 (CSD) 方法流程图
该工作所提出的连通性递推 (CSD) 法,包括提取分子结构信息、提取原子连接关系、生成邻接矩阵和生成全步长矩阵。研究团队收集了涵盖有机物、聚合物和 MOF 三大类的 54000 个分子用于测试该方法的运行速度。
测试结果表明,与经典的 Floyd-Warshall 算法相比,当原子数从 100 个增加到 1000 个时,CSD 方法在 Python 环境下运行速度从 28.34 倍提高到 289.95 倍,在 C++ 环境下运行速度从 2.86 倍提高到 25.49 倍。通过阐述 CSD 方法,有助于推动性质预测模型研究。
Figure 2. 使用 CSD 方法和 Floyd-Warshall 算法生成 MSF 时间结果对比图( Python 环境)
论文信息
Connectivity Stepwise Derivation (CSD) method: A Generic Chemical Structure Information Extraction Method for the Full Step Matrix
Jialiang Xiong, Xiaojie Feng, Jingxuan Xue, Yueji Wang, Haoren Niu, Yu Gu, Qingzhu Jia, Qiang Wang, Fangyou Yan*(闫方友,天津科技大学)
Digital Discovery, 2024, 3, 1842-1851
https://doi.org/10.1039/D4DD00125G
作者简介
天津科技大学
本文通讯作者,天津科技大学副教授,博士生导师。主要从事分子智能设计、构效关系、化工热力学、机器学习等方面的研究工作。主持国家自然科学基金、天津市自然科学基金等项目 10 余项。在 Chem. Sci.、AIChE J. (2)、Chem. Eng. Sci. (13)、Chem. Eng. J.、J. Chem. Inf. Model.、Small、Macromolecules、Digital Discovery 等期刊发表论文 70 余篇。
相关期刊
rsc.li/digitaldiscovery
Digital Discovery
2-年影响因子* | 6.2分 |
5-年影响因子* | 6.2分 |
JCR 分区* | Q1 化学-多学科 Q1 计算机-跨学科应用 |
CiteScore 分† | 2.8分 |
中位一审周期‡ | 43.5 天 |
Digital Discovery 的重点是数字化技术和自动化工具与基础科学的相互结合,将囊括人工智能、实验自动化、机器人技术、数据库以及先进数据分析等领域的创新成果。本刊发表的研究工作范围广阔,但需有坚实的化学基础。作为一本金色开放获取的期刊,读者可免费获取论文的全文,同时从该刊发布起到 2024 年年中免收论文发表费用。
Editor-in-Chief
Alán Aspuru-Guzik
🇨🇦 多伦多大学
Associate editors
|
|
Editorial board members
|
|
† CiteScore 2023 by Elsevier
‡ 中位数,仅统计进入同行评审阶段的稿件
📧 RSCChina@rsc.org