【佳作推荐】微软亚洲研究院王童团队Nature论文:AI2BMD实现量子精度的全原子蛋白质动态模拟

学术   2024-11-29 08:55   上海  
在分子动力学(MD)模拟的研究领域,科学家们致力于在保持模拟结果精确性的同时,提升计算效率。尽管传统的MD模拟在计算速度上具有优势,但其精度往往不尽人意。另一方面,高精度的从头算方法,如密度泛函理论(DFT),在精度上表现出色,但难以扩展至大分子。与此同时,现有的机器学习力场(MLFFs)方法虽然能够以较低的成本提供精确的力场计算,但在泛化能力上存在挑战。因此,开发一种既精确又高效,并且具备良好扩展性的分子模拟方法,已成为该领域面临的关键科学挑战。

微软研究院科学智能中心的王童团队,针对分子动力学模拟领域中准确性与计算效率的双重挑战,提出了一项创新解决方案——AI2BMD系统。该系统通过结合蛋白质片段化技术和机器学习力场,以较高的效率实现了量子精度的全原子蛋白质动态模拟。近日,该项研究工作发表在Nature期刊上【1】。

机器学习力场(MLFFs)是利用人工智能技术加速分子动力学模拟的常用手段,然而,这些力场往往针对特定蛋白质进行训练,缺乏泛化能力,容易导致模拟的失败。为了解决这一难题,AI2BMD系统引入了一种创新的蛋白质片段化技术。该技术将蛋白质分解为21种原子数量相近的蛋白质单元,主要包括二肽和ACE-NME单元。利用ViSNet模型,AI2BMD能够精确计算单元内部及单元间的作用力,从而在多种不同蛋白质上实现建模,显著提升了模型的泛化能力。

在构建数据集时,研究人员首先利用AmberTools20中的tleap模块创建了20种二肽和ACE-NME的初始分子结构。随后,他们对这些结构的二面角进行了全面的二维扫描,以产生大量的构象锚点。在几何优化之后,每个锚点在SMD隐式溶剂模型中进行构象采样。最后,计算这些构象的单点能和力,构建一个包含约2088万个构象的庞大数据集,为训练机器学习力场提供了坚实的基础。

研究人员将以上数据集用于训练前期开发的模型ViSNet2】。该模型使用等变几何增强图神经网络,可以通过输入原子类型和坐标生成精确的力和能量的预测值。ViSNet通过高阶几何张量以线性时间复杂度隐式提取分子的几何特征,结合几何深度学习和高效的信息传递机制,实现高精度的分子性质预测。基于ViSNet模型,研究人员开发了AI2BMD系统。该系统依托于ViSNet模型预测蛋白质的能量和力,利用AMOEBA力场有效模拟极性分子间的相互作用,同时通过并行计算技术优化计算流程,实现高效模拟。

1: ViSNet模型架构

在模型效果方面,研究人员对原子数从175137289种蛋白质进行模拟,AI2BMD在能量和力的平均绝对误差(MAE)方面显著优于传统力场,达到了与DFT相当的精度。同时,AI2BMD的计算效率远超DFT,例如,对于13728个原子的氨肽酶NAI2BMD仅需2.610秒即可得到结果,而DFT则需超过254天。

2: 9种蛋白质的折叠结构及势能与原子力的MAE

在实际应用方面,研究团队首先验证了AI2BMD模拟溶剂效应的能力。研究结果表明,AI2BMD在模拟水分子中氧原子和天冬酰胺二肽主链上氢键受体的距离分布时,表现出与量子力学/分子力学(QM/MM)方法高度一致的准确性,这表明AI2BMD能够精确地模拟溶剂效应以及溶质与溶剂之间的相互作用。

3: 水与天冬酰胺二肽之间的氢键模拟情况

随后,研究团队将AI2BMD系统应用于构象空间探索与蛋白质动力学。结果表明,AI2BMD在预测时与NMR数据具有良好的一致性。在十肽chignolin的模拟中,AI2BMD成功捕捉了其折叠和展开过程,并显示出比传统分子力学方法更小的能量和力误差,证明了AI2BMD在研究蛋白质动力学和构象变化中的有效性和可靠性。

4: AI2BMDchignolin动力学研究的结果

此外,在模拟蛋白质折叠和展开过程中,AI2BMD能够准确估计蛋白质折叠过程中的自由能差异和熔点,其估算的热力学性质与实验结果非常吻合,均优于分子力学的计算结果。

5AI2BMD对不同蛋白的焓、热容和自由能变化的分析结果

小结:

AI2BMD通过整合机器学习力场和蛋白质片段化,实现了全原子蛋白质的从头算精度模拟,并有效解决了机器学习力场的泛化难题。该系统将量子力学建模扩展至整个蛋白质,在达到DFT精度的条件下显著提升了计算速度。此外,AI2BMD在构象空间探索方面超越了传统分子力场方法,与多种实验测试结果更加吻合。但模型仍存在局限性,比如效率不及传统MD模拟,且主要适用于常见氨基酸组成的蛋白质。未来需进一步提高效率,并拓展其在更广泛生物分子系统中的应用。

参考文献

【1】 Tong Wang*, Xinheng He, Mingyu Li, Yatao Li, Ran Bi, Yusong Wang, Chaoran Cheng, Xiangzhen Shen, Jiawei Meng, He Zhang, Haiguang Liu, Zun Wang, Shaoning Li, Bin Shao* and Tie-Yan Liu, Ab initio characterization of protein molecular dynamics with AIBMD. Nature, 2024.https://doi.org/10.1038/s41586-024-08127-z2

【2】 Yusong Wang, Tong Wang*, Shaoning Li, Xinheng He, Mingyu Li, Zun Wang, Nanning Zheng, Bin Shao* and Tie-Yan Liu, Enhancing geometric representations for molecules with equivariant vector-scalar interactive message passing. Nat Commun, 2024, 15 (1), 313. https://doi.org/10.1038/s41467-023-43720-2


ComputArt计算有乐趣
ComputArt由复旦药学院王任小研究员团队创建维护,旨在推送计算化学、分子模拟、药物设计等领域的新进展,提升大众对计算科学的关注。我们的口号是:科研有乐趣!计算有乐趣!欢迎国内外同行投稿,邮箱:wangrx@fudan.edu.cn
 最新文章