分子动力学(Molecular dynamics)最新研究进展(

文摘   2024-11-19 08:01   澳大利亚  

点击上方蓝字了解更多计算与STEM领域研究前沿



文一:


基于语言和图形模型的端到端蛋白质正态模式频率预测及其在超声处理中的应用


摘要:


预测蛋白质的力学和动力学性质是一个重要的前沿,特别是考虑到蛋白质结构的可用性更高。在这里,我们报告了一系列模型,这些模型提供了蛋白质纳米动力学特性的端到端预测,重点是直接从氨基酸序列进行高通量正态模式预测。使用自然语言处理家族中的神经网络模型和基于图的方法,我们提供了基于原子的关键蛋白质机械特征的机械预测。这些模型包括端到端长短期记忆(LSTM)模型、端到端变换器模型、基于图的变换器模型和等变图神经网络。所有四个模型都显示出卓越的性能,基于图的变压器架构提供了最佳结果,但代价是需要图结构作为输入。相反,LSTM和变换器模型提供了端到端的序列到属性预测能力,为蛋白质工程、分析和设计提供了有效的途径。我们将我们的结果与基于主邻域聚合图神经网络的已发布数据进行了比较,结果表明,变压器模型提供了更好的性能,同时也能够同时预测前64个正常模式频率的大集合。端到端转换器模型的使用可以通过使用迁移学习来促进其他下游应用,并且它直接从氨基酸序列中提供对动态特性的全面预测,而不需要任何结构知识。我们展示了在科学发声中的潜在应用,其中正常模式频率被转置以产生可听信号,用于详细分析蛋白质序列的细微变化。


图:这项工作的总体流程图侧重于蛋白质特性的端到端预测,特别侧重于NMA预测蛋白质的纳米动力学特性。插图中显示的蛋白质是PDB ID 7zgy。使用了两种主要策略:第一,将序列直接链接到属性的端到端预测模型。其次,结构到属性模型使用蛋白质的结构信息,然后预测属性。

图:用于变压器模型的嵌入函数摘要。(A) 端到端变压器模型的嵌入,这里仅由序列数据和位置编码组成。我们注意到LSTM模型只采用AA序列,因为不需要位置编码。(B) GraphPercever模型,其中从距离矩阵中提取的图形数据与氨基酸序列和位置信息以及在残基水平提供的位置编码一起使用。

图:使用端到端LSTM模型对验证集中的四种蛋白质进行样本预测。一般来说,达成了良好的一致性。


文二:



平衡勘探开发利用权衡的 FAST 构象搜索


摘要:


分子动力学模拟是理解构象变化的有力手段。然而,如果不使用专门的超级计算机,仍然很难模拟生物相关的时间尺度。在这里,我们介绍了一种面向目标的采样方法,称为特定特征的波动放大(FAST),用于扩展商品硬件的功能。该算法通过平衡围绕有前景的解决方案(开发)和尝试新解决方案(探索)的重点搜索之间的权衡,快速搜索具有所需特性的结构的构象空间。FAST的灵感来自这样一个假设,即许多物理性质在构象空间中具有整体梯度,类似于已知的引导蛋白质进入折叠状态的能量梯度。例如,我们预计从具有小溶剂可及表面积的构象过渡到具有大表面积的构型将需要经历一系列表面积稳步增加的构象。我们通过对现有马尔可夫状态模型(MSMs)的回顾性分析证明了这种梯度是常见的。然后,我们设计FAST算法,通过以下方式利用这些梯度来找到具有所需特性的结构:(1)识别和放大沿梯度的结构波动,尽可能优化选定的物理特性;(2)克服中断这些整体梯度的障碍;(3)在面临无法克服的障碍时重新路由以发现替代路径。为了测试FAST,我们将其与其他方法在三种常见问题上的性能进行了比较:(1)识别意外的结合口袋,(2)发现特定结构之间的首选路径,以及(3)折叠蛋白质。我们的保守估计是,FAST比传统模拟和自适应采样算法至少好一个数量级。此外,FAST产生了适当的热力学和动力学,允许与动力学实验直接联系,这是许多其他先进采样算法不可能实现的,因为它们只提供热力学信息。因此,我们希望FAST在广泛的应用中具有很大的实用性。


图:能量景观的等高线图,从最高能量到最低能量以蓝色、白色、黄色和红色着色。黑线是从起始状态到目标的最佳路径。红线是通过有向方法找到的路径。黄线涵盖了无向方法可能丢失的区域。

图:在我们过去的工作中观察到,从TEM-1β-内酰胺酶的晶体结构到具有最大溶剂可及表面积(SASAs)的五种状态的过渡途径。β-内酰酶在骨架后用红带描绘,表面用蓝色网格描绘,黄色球体填充蛋白质表面观察到的口袋。状态大小与其自由能成反比,因此较大的状态具有较高的平衡概率。线厚度与开始和结束状态之间观察到的相对通量成正比。

图:FAST-SASA(品红色)与传统分子动力学(绿色)、基于计数的采样(黑色)和基于SASA的采样(橙色)的性能比较。(A) 发现表面积最大的10个州的溶剂可接触表面积的平均值,作为总模拟时间的函数。(B) 根据总模拟时间发现的状态数。


文三:



使用AlphaFold进行高精度蛋白质结构预测


摘要:


蛋白质对生命至关重要,了解它们的结构可以促进对其功能的机械理解。通过大量的实验,已经确定了大约100000种独特蛋白质的结构,但这只是数十亿已知蛋白质序列中的一小部分结构覆盖率受到确定单个蛋白质结构所需数月至数年艰苦工作的瓶颈。需要精确的计算方法来解决这一差距,并实现大规模的结构生物信息学。50多年来,仅根据氨基酸序列预测蛋白质将采用的三维结构(“蛋白质折叠问题”的结构预测部分)一直是一个重要的开放研究问题尽管最近取得了进展,但现有的方法远远达不到原子精度,特别是在没有同源结构的情况下。在这里,我们提供了第一种计算方法,即使在不知道类似结构的情况下,也能以原子精度定期预测蛋白质结构。我们在具有挑战性的第14次蛋白质关键评估中验证了我们的神经网络模型AlphaFold的完全重新设计版本结构预测CASP14,在大多数情况下,其准确性与实验结构相当,并且大大优于其他方法。支撑最新版本AlphaFold的是一种新的机器学习方法,该方法将有关蛋白质结构的物理和生物学知识,利用多序列比对,整合到深度学习算法的设计中。


图:AlphaFold生成高度精确的结构。

图:AlphaFold在最近PDB结构上的准确性。

图:架构细节。

图:MSA深度和跨链接触的影响。


文四:



自适应CVgen:利用强化学习进行蛋白质折叠和化学反应的高级采样


摘要:


传统上,增强采样技术遇到了两个重大挑战:确定合适的反应坐标,解决勘探-开采困境,特别是难以逃脱局部能量最小值。在这里,我们介绍Adaptive CVgen,这是一个通用的自适应采样框架,旨在解决这些问题。我们的方法利用一组集体变量(CV)来全面覆盖系统的潜在进化相空间,生成不同的反应坐标来应对第一个挑战。此外,我们整合了强化学习策略,动态调整生成的反应坐标,从而有效地平衡了探索开发的困境。我们应用这一框架对六种从完全无序状态转变为折叠状态的蛋白质的构象空间进行采样,并对C60的化学合成过程进行建模,实现了与标准C60结构完美匹配的构象。结果表明,自适应CVgen在探索新构象和逃逸局部最小值方面是有效的,实现了采样效率和探索精度。该框架具有扩展到各种相关挑战的潜力,包括蛋白质折叠动力学、药物靶向和复杂的化学反应,从而为这些领域的应用开辟了有前景的途径。

图:自适应CVgen采样过程的流程图。

图:RL在适应性CVgen中的作用。

图:蛋白质的天然构象(红色)与Adaptive CVgen实现的最接近天然构象(蓝色)相比,通过其通用名称和PDB ID进行鉴定。


文五:



利用图神经网络快速预测蛋白质固有频率


摘要:


蛋白质的自然振动频率有助于将功能变化与序列或几何变化联系起来,这些变化导致蛋白质结构的变化可以忽略不计,例如与疾病致死率或药物有效性相关的点突变。正模分析是一种众所周知的精确获得蛋白质固有频率的方法。然而,当高分辨率蛋白质结构不可用或获得耗时时,这是不可行的。在这里,我们提供了一种机器学习模型,可以直接从初级氨基酸序列和低分辨率结构特征(如接触图或距离图)预测蛋白质频率。我们使用了一种称为主邻域聚集的图神经网络,该网络使用蛋白质数据库中34000多种蛋白质的结构图和正态模式频率进行训练。结合现有的接触/距离图预测工具,这种方法能够对给定一级序列的蛋白质的频谱进行端到端预测。

图:用于蛋白质频率预测的图神经网络(GNN)的训练和测试过程示意图。

图:GNN架构。节点嵌入、边缘特征和蛋白质图的连接性被输入到名为PNAConv的图卷积算子中,在该算子中,来自图中每个节点邻居的信息被聚合以更新节点的隐藏特征。47从头开始训练GNN以预测第一个固有频率。采用迁移学习技术来加速网络的训练,以预测其他正常模式频率。

图:PDB结构(左),ProSPr预测的距离图(中),以及PDB ID为(a)1QLC,(b)2DFE,(c)4AZQ的测试蛋白的第1-8和第61-64个频率(右)。


如果你觉得此文对你有帮助,请点赞,谢谢!


计算机技术在科学&技术&工程&数学中得到了广泛的应用,力学方面,计算机技术成为了科学的第四次革命性技术,现在基于计算机的数据科学已经逐步成为力学等其他科学发现的第四范式。人工智能、大数据、数字孪生等概念已经逐步成为当今时代的主题。智能制造、智能算法、数据驱动力学、大语言模型、自动驾驶在当今社会展现出巨大潜力,吸引了大量的研究人员。同时高性能显卡和多核中央处理器的出现为大规模数值模型的高性能计算提供了强大算力。公众号为力学相关行业的爱好者、教育人士和从业者提供一个平台,希望能通过自己对前沿研究、技术培训和知识、经验的整理、分享带给相关读者一些启发和帮助。

如果你认同我的想法,请点击右上角的三个点,将此文章(公众号)发送给你的老师和同学,谢谢。

如果你想在朋友圈中分享你所专注的前沿研究,欢迎你分享到朋友圈,谢谢!

STEM与计算机方法

扫一扫二维码关注本公众号

STEM与计算机方法
不定期更新各种前沿的科学技术和方法,最新的学界和工业界的资讯,分享计算机、数学、物理的方法在各个学科中的应用,不定期转发相关的会议内容,链接和开源代码。
 最新文章