生物分子动力学模拟是生命科学研究的一项基础技术,其实用性取决于其准确性和高效性。经典分子动力学模拟速度快,但缺乏化学精度。密度泛函理论等量子化学方法可以达到化学的精度,但不能扩展到支持大型生物分子。2024年11月6日,微软亚洲研究院Wang Tong、Shao Bin共同通讯在Nature杂志在线发表了题为“Ab initio characterization of protein molecular dynamics with AI2BMD”的研究论文,该研究介绍了一种基于人工智能的从头算生物分子动力学系统(AI2BMD),该系统能够以从头算的精度高效地模拟全原子大分子。AI2BMD使用蛋白质碎片方案和机器学习力场7来实现对包含超过10,000个原子的各种蛋白质的能量和力计算的广义从头算精度。与密度泛函理论相比,它将计算时间减少了几个数量级。通过数百纳秒的动力学模拟,AI2BMD展示了其有效探索肽和蛋白质构象空间的能力,推导出与核磁共振实验相匹配的精确的3j偶联,并显示蛋白质折叠和展开过程。此外,AI2BMD可以精确地计算蛋白质折叠的自由能,并且估计的热力学性质与实验很好地一致。AI2BMD可以潜在地补充实验室湿实验,检测生物活性的动态过程,并使目前无法进行的生物医学研究成为可能。生命科学的研究范式正在发生变化,因为计算模拟模型的准确性与湿实验室实验的准确性难以区分。在计算模型中,分子动力学(MD)模拟作为“计算显微镜”,对于理解生命如何运作具有特别重要的意义。分子动力学模拟通过移动分子系统中的原子来研究分子的动态演化。它们的不同之处在于力的计算方法。在经典原子动力学中,力是用规定的原子间势函数来计算的,而在从头算原子动力学(AIMD)中,力是用从分子电子结构中得到的势来计算的。AIMD提供精确的分子表征;将AIMD应用于生物分子模拟的主要挑战是可扩展性。一方面,广泛使用的量子化学方法在计算上是昂贵的;例如,当系统大小为N时,密度泛函理论(DFT)的时间复杂度约为O(N3) ,包含单、双和摄动三重激励的耦合聚类方法(CCSD(T))的时间复杂度约为O(N7) 。另一方面,观察诸如蛋白质之类的生物分子的重要构象变化通常需要数十亿步,对数千个原子来说,至少需要立方时间复杂度。到目前为止,还不存在可扩展的、精确的生物分子AIMD。为了缓解这一困境,机器学习力场(MLFFs)在DFT水平上生成的数据上进行训练,以更低的成本提供准确的力计算,并可应用于小肽和蛋白质。泛化能力是生物分子模拟的适用性和鲁棒性的关键挑战。首先,由于分子的构象空间是巨大的,对一种分子的有限构象进行训练并将其用于对其他类型分子的构象空间的探索是困难的。其次,由于DFT生成数据的时间和成本随着分子大小的增加而增加,训练数据的缺乏阻碍了MLFFs在大分子生物中的应用。此外,不可能对每种蛋白质都训练一个特定的模型,需要一个具有良好泛化能力的统一解。在这项研究中,研究人员提出了AI2BMD,这是一种可推广的解决方案,可以有效地以从头算的精度模拟广泛的全原子蛋白质,周围是由极化力场模拟的显式溶剂。可推广的蛋白质碎片化方法将蛋白质分成重叠的蛋白质单元。利用AI2BMD防御仿真系统进行了仿真。在每个模拟步骤中,基于ViSNet7的AI2BMD势以从头算的精度计算蛋白质的能量和原子力。通过动力学和热力学的综合分析,AI2BMD与湿实验室实验数据(如快速折叠蛋白质的熔化温度)具有良好的一致性,并且可以检测到与分子力学(MM)不同的现象。综上所述,AI2BMD是一个可推广的、高效的、接近从头开始的模拟程序,它在能量和力计算以及蛋白质性质估计方面比MM有很大的改进。AI2BMD在不同蛋白质系统中的通用性及其稳健性显示了其在蛋白质研究中的广泛应用潜力。原文链接:https://www.nature.com/articles/s41586-024-08127-z主编微信
(商务合作,重要事宜)
注:添加微信请备注昵称+单位+研究
生命科学综合交流QQ群:681341860
微信学科群:病毒学群,神经科学群、临床医学、肿瘤学科群、硕博交流群和医药投资交流群(微信群审核要求较高,请各位添加赵编后主动备注单位研究方向)