建模方法
质子化系综是指一个分子在水溶液中通过酸式电离(去质子化)或碱式电离(质子化)能够得到的所有化学结构。Uni-pKa 源自以下热力学原理:无论分子中的酸碱平衡怎样复杂,其所有信息可被质子化系综中各状态的自由能完全确定。在这一视角下,单个位点、单个电离反应的 pKa 对应于质子化系综中两分子间的自由能差,而一些实验方法测得的 pKa 对应于质子化系综中两组分子之间的粗粒化自由能差,各电离形态的分布则是质子化系综在给定 pH 下的 Boltzmann 分布[7]。这三条论断分别服务于三个与 pKa 相关的主要任务:micro-pKa 预测、macro-pKa 预测、质子化状态分布预测。因此,只要能找到一条联结 pKa 数据与质子化系综的自由能阶梯之间的纽带,就能一举实现复杂分子全面而自洽的酸碱平衡建模。为此,Uni-pKa 完成了三项工作:
3. 根据热力学理论把 pKa 和自由能定量地联系起来,使模型能够在 pKa 数据上学习自由能
训练与推理策略
基于以上思路,Uni-pKa 的工作流分为以下几部分:
基于质子化系综理论的 Uni-pKa 框架
1. 我们设计了质子化状态枚举工具,通过识别和匹配化学模板中的可离子化位点,实现从单一分子到完整质子化系综的转换。借助这一工具,我们基于数据集的引用来源将不同实验方法测得的 pKa 解读为 micro-pKa 或 macro-pKa,并转译为质子化系综中参与电离反应的具体分子结构。
2. 我们采用了 Uni-Mol 这一强大、通用的分子机器学习模型作为自由能预测器,并依据化学经验定制了原子电荷描述符。然而精确的 pKa 实验数据非常有限;尽管质子化状态枚举扩充了数据集中的信息量,但为了保证模型的泛化能力,仅凭现有实验数据上的直接训练覆盖的化学空间是远远不够的。于是,Uni-pKa 采用了预训练-微调这一范式——首先基于计算软件预测的 pKa 数据让模型学习从分子结构到 pKa 数值的基本映射关系,然后再使用实验测量的 pKa 数值来驱动模型形成有效的 pKa 预测能力,具体的:
a. 预训练在超过110万个数据点、由软件预测的 ChEMBL 低精度 pKa 数据集[8]上进行。预训练策略结合了预测低精度 pKa 值的弱监督任务和 3D 位置恢复、掩码原子预测和掩码电荷预测三个自监督任务。
3. 我们从热力学理论出发,利用自由能与化学平衡之间的定量关系设计了 FreeEnergy2pKa 的输出模块和损失函数。这一模块应用于预训练阶段的弱监督任务和整个微调流程,使得模型从枚举好的质子化系综中的分子结构出发端到端地学习 pKa 数据,并将模型的输出自然地对应到分子的自由能。
训练完毕后,Uni-pKa 将输入分子枚举为质子化系综,由 Uni-Mol 内核预测自由能,最后经过 FreeEnergy2pKa 的处理,将宏观 pKa 预测、微观 pKa 预测和分布分数预测统一在了一套推理框架下。
以 Uni-Mol 为核心的自由能预测模型适用于多种 pKa 预测任务
预测精度
Uni-pKa 在多个类药分子测试集上达到了同类方法中的最佳精度
在最新的 SAMLP8 pKa 预测挑战数据集[11]中,Uni-pKa 达到了 MAE=0.631,RMSE=0.878 的精度,与此前的公开 pKa 推理工具相比具有至少0.2个 pKa 单位的优势。
在其他几个常用的基准数据集上,Uni-pKa 的表现也优于现有的化学信息学方法,显著提高了预测精度。具体来说,在 Novartis 数据集[12]上,Uni-pKa 的平均绝对误差(MAE)为0.620,表现显著优于其他方法,如 Schrödinger Epik Classical[13] 的0.83和 ChemAxon Marvin[14] 的0.86。在 SAMPL6[15] 和 SAMPL7[16] 数据集上,Uni-pKa 也同样优于其他方法。
在预测类药分子复杂的化学修饰对 pKa 的影响时,Uni-pKa 同样表现出色。在 Schrödinger 的量子化学方法 Jaguar 发表的示例数据[17]上,Uni-pKa 的精度能与简单流程的量子化学方法媲美,且在 Novartis 数据集上每秒平均预测28个宏观 pKa 的速度与耗时冗长的量子化学计算相比有显著优势。
热力学自洽性
Uni-pKa 在经典生物化学现象:谷氨酸的两性离子问题上展现出的热力学自洽性,沿绿色路线和黄色路线的 pKa 之和相等
Uni-pKa 善于处理多个电离位点和连续电离的复杂情况。我们用 Uni-pKa 和较为先进的深度学习方法 pKasolver[18] 研究了甘氨酸的经典的电荷分离现象:如图所示,电中性形态的甘氨酸有分子形态和电荷分离的内盐形态,实验表明后者是甘氨酸在等电点附近的主要形态,这一现象造就了氨基酸乃至多肽和蛋白质的极性,是众多的生物化学结构和功能的基础。为了定量描述内盐形态和电中性形态的比例,可以借助正电形态与两种电中性形态之间的 pKa 之差,也可以用两种电中性形态与负电形态之间的 pKa 之差——两种描述方式来自酸式电离和碱式电离的两个视角,理应给出完全一致的结果,即图中 pK1 - pK3 = pK4 - pK2。我们发现 pKasolver 的预测结果不满足这一条件,而 Uni-pKa 给出了殊途同归的自洽结果,从而能够唯一确定给定 pH 条件下甘氨酸各形态的比例,这一自洽性是 Uni-pKa 自由能建模背后的热力学约束所保证的。因此,Uni-pKa 中融入的物理化学原理使得它在处理复杂分子的应用场景时更加严谨、可靠。
总结
Uni-pKa 为经典的 pKa 预测问题提供了一个交叉学科的解决方案:它基于物理化学原理进行科学问题的深入剖析,并利用机器学习大模型高效处理科学数据,建立了一个准确且可靠的复杂化学平衡建模框架。在 Uni-Mol 基座模型强大的分子表示学习能力支持下,Uni-pKa 通过多种预训练任务和微调策略,实现了在多个类药分子数据集上的最佳预测精度。这一方法不仅提高了 pKa 预测的准确性和可靠性,还展示了将热力学原理与机器学习技术相结合的潜力。
开源仓库、数据集和APP
Uni-pKa 现已开源!在遵从 Apache-2.0 协议的前提下,用户可从深势科技 GitHub 仓库获得 Uni-pKa 的质子化状态枚举器和 Uni-Mol 模型训练、推理的源代码,将 Uni-pKa 框架应用于自己的研究和工作中。
Uni-pKa 官方仓库:
Uni-pKa 数据集:
Uni-pKa App:
参考文献
上下滑动查看更多
关于深势科技