在药物发现和设计过程中,分子的酸碱解离常数 (pKa) 对ADMET特性(吸收、分布、代谢、排泄和毒性)及生物活性具有显著影响,因而受到高度重视。然而,传统的实验测定pKa值方法既费力又复杂。同时,现有的预测方法在训练数据的数量和质量方面以及处理复杂分子结构和物理化学性质的能力方面存在局限性,这限制了模型的预测准确性和泛化能力。因此,开发一种能够快速准确地预测分子pKa值的方法将在一定程度上有助于分子的结构改造,从而助力新药研发过程。针对上述问题,研究团队开发了一种创新pKa预测方法——GR-pKa (Graph Retention pKa) 。该方法基于消息传递神经网络,并联合使用多重保真度学习策略,以实现对分子pKa值的高精度预测。GR-pKa模型特别集成了与分子热力学和动力学相关的五个量子力学 (QM) 特性,作为表征分子的关键特征。特别值得注意的是,该模型首次将最近提出的保留机制引入消息传递阶段中,这一创新显著提高了模型对分子信息的捕获和更新能力。经过多个数据集的测试, GR-pKa模型在宏观pKa值预测性能方面优于多个当前领先的模型。在SAMPL7数据集上的预测结果显示,该模型取得了平均绝对误差 (MAE) 0.490、均方根误差 (RMSE) 0.588以及决定系数 (R 2
GR-pKa主要包含两个过程,即预训练 (Pre-training) 和微调 (Fine-tuning) 过程,如图1a所示。本研究基于Chemaxon计算所得的小分子pKa值构建了低保真度数据集,并以此对模型进行预训练。通过在这一数据量庞大的低保真度数据集上的学习,模型能够深入理解化合物分子结构与计算pKa值之间的定量构效关系。但由于计算pKa值与实验pKa值间仍然存在不可忽视的差值,仅依赖此数据集训练学习所得到的预测结果存在不准确性。为此,本研究对预训练后的模型进行微调,以提升预测的准确度。在微调过程中,本研究选用了一个由实验pKa值构成的小规模高保真度数据集,对预训练的模型进一步优化。通过这种调整,模型实现了从计算pKa值向实验pKa值的迁移,从而显著提升了模型预测的精准度。由于计算pKa值与实验pKa值之间存在高度的关联性,因此,在二者之间进行迁移是可行的,并且这种迁移能够对预测结果实现正向提升,同时又有效避免了负迁移的发生。
模型整体以消息传递网络为大框架,以分子的SMILES式作为输入,如图1b所示。首先,本方法构建了原子特征矩阵、键特征矩阵以及三个原子间矩阵,以作为分子的局部编码。同时,选用了具有明确物理化学意义的量子化学性质,作为分子的全局特征。在键特征矩阵的处理上,模型通过消息传递层中的键保留模块和键更新函数对特征矩阵进行迭代更新。消息传递阶段完成后,通过聚合传入的键隐藏状态,实现特征的整合。然后,将原子特征矩阵和多头原子保留模块进行拼接,以获得原子表示。在原子保留模块中,将距离矩阵、邻接矩阵以及电荷矩阵这三个缩放的原子间矩阵分别添加到每个保留头的权重中作为偏置项,这些矩阵分别表征了原子间的距离,相邻关系以及电荷信息。最后,将学习到的原子隐藏状态汇聚成为一个分子向量,并与预先定义好的量子化学特征进行拼接。这一组合特征随后输入到全连接层中,用于分子pKa值预测。
[1]
1. 方法比较
本研究首先在构建的高质量外部数据集E-pKa数据集上进行方法比较。如图2所示,在所有机器学习方法中,XGBoost表现最佳,其预测结果在一定程度上优于深度学习方法AttentiveFP。然而,从整体上来看,机器学习方法的预测效果弱于MolGpKa与GR-pKa模型,这表明采用分子图结构作为输入的深度学习模型在分子pKa值预测方面具有明显的优越性。此外,在所有比较的预测方法中,GR-pKa模型在酸性和碱性数据集上均显示出了最优的效果。在酸性数据集上,GR-pKa取得了最低的MAE、RMSE以及最高的R 2 2
图2 方法在E-pK
a
数据集上的表现[1]
表1 模型在外部数据集E-pK
a
的消融实验结果[1]
本研究还在两个公认的基准测试集SAMPL6、SAMPL7进行方法测试比较,结果如表2所示。从表中的结果可以看出,四种机器学习方法均表现较差,而其它几种基于分子图的方法则有着较好的表现。在SAMPL6数据集上,本研究的方法GR-pKa方法与MolGpKa方法均展现了较好的效果;在SAMPL7数据集中,GR-pKa方法在所有三项评估指标中均达到了领先水平,并且相较于其他方法有着较大的性能提升。此外,根据图3的SAMPL7测试集详细预测结果可以看出,除了分子SM31的预测结果超出±1这一区域,其他所有分子均处在区域内。这一现象表明,本研究方法在分子pKa值准确预测方面有着明显优势。
表2 模型在SAMPL6与SAMPL7数据集上的表现[1]
供稿:苗润雨
校稿:刘旦麟
长按扫码可关注