字节跳动ByteFF力场:助力扩展化学空间覆盖,加速药物发现

学术   2024-12-13 22:33   北京  
https://arxiv.org/abs/2408.12817

代码仓库:

https://github.com/bytedance/byteff

研究背景:

在药物发现过程中,识别潜在的治疗候选分子是一个至关重要的环节。而分子动力学(MD)模拟作为一种关键技术,能够提供分子动态行为、物理特性以及分子间相互作用的深刻见解。分子力场作为MD模拟的核心组成部分,直接影响着模拟的准确性和可靠性。传统的分子力场(MMFFs)虽然具有计算效率高的优点,但受限于其固定的函数形式,在模拟复杂分子时往往精度不足。近年来,合成化学和高通量筛选技术的进步,使得类药物分子的化学空间迅速扩展,这对分子力场提出了更高的要求,需要能够准确预测更广泛分子的势能面(PES)。来自字节跳动研究院的科研团队,近期在分子动力学模拟领域取得了重要进展。他们开发了一种名为ByteFF的新型数据驱动的分子力场参数化方法,能够为类药物分子提供更广泛的化学空间覆盖和更高的精度,为计算药物发现的多个阶段提供了有价值的工具。该研究成果已发表在arXiv预印本平台,引起了学界的广泛关注。

研究方法:

为了应对这一挑战,研究团队采用了现代数据驱动的方法,开发了ByteFF。该方法主要包括以下步骤:

构建大规模、高多样性的量子力学(QM)数据集:研究人员使用B3LYP-D3(BJ)/DZVP级别的理论,生成了一个包含240万个优化分子片段几何结构和相应Hessian矩阵以及320万个扭转构象分布的大规模、高多样性分子数据集。该数据集涵盖了类药物分子中常见的各种结构和官能团,为模型的训练提供了坚实的基础。

开发对称性保持的分子图神经网络(GNN):基于该数据集,研究人员训练了一个边缘增强的、对称性保持的分子图神经网络。该网络能够充分利用分子中的原子和键特征,同时保留分子对称性。

设计巧妙的训练策略:为了有效利用数据集并提升ByteFF的鲁棒性和性能,研究团队采用了三阶段的训练策略:预训练、训练和微调。

预训练阶段:通过最小化均方误差(MSE)损失,将非键参数和正确扭转的力常数拟合到GAFF-2.2力场。利用优化数据集使用基于能量的损失函数拟合键合参数的平衡值,并使用部分Hessian损失函数训练键合项的力常数。

训练阶段:为了拟合正确扭转的力常数,研究团队采用了Boltzmann MSE损失函数,并使用优化数据集训练其他参数。在这个阶段,QM优化后的几何结构在扭转角度受限的情况下,被力场重新优化,参数被训练到优化和扭转数据集。

微调阶段:将部分来自Espaloma-0.3.0的“非平衡数据集”纳入其中,用QM能量和力来微调力场参数。

研究结果:

通过一系列基准测试,研究人员展示了ByteFF在以下方面的卓越性能:

出色的扭转势能面(PES)预测能力:与其他力场相比,ByteFF在各种基准数据集上均表现出最佳性能,能够准确预测弛豫几何结构、扭转能量分布以及构象能量和力。在TorsionNet500数据集上,大多数ByteFF预测的Boltzmann RMSE都在0.5 kcal/mol以内,展示了其卓越的扭转能量剖面预测精度。

准确预测平衡构象:在OpenFFBenchmark数据集的测试中,ByteFF的预测结果与QM参考值高度一致,证明了其准确预测分子平衡构象的能力。ByteFF的RMSD和TFD值都集中在零附近,且分布更窄,显示出更高的与QM优化的分子构象的一致性,并且ΔΔE分布峰值也更接近0,说明该模型成功地再现了构象异构体的QM相对能量。

精确的非平衡构象预测:在包含SPICE和RNA结构图集的非平衡数据集中,ByteFF表现出了极具竞争力的能量和力预测精度。在大多数子集中,ByteFF-joint 模型展现出最优的性能,表明即使在非平衡构象下,力场也保持着较高的准确度。

学术之友
\x26quot;学术之友\x26quot;旨在建立一个综合的学术交流平台。主要内容包括:分享科研资讯,总结学术干货,发布科研招聘等。让我们携起手来共同学习,一起进步!
 最新文章