Nat Commun | 从头开始的端到端学习与深度几何势能用于RNA 结构的从头预测

学术   2024-10-05 18:00   湖南  

今天为大家介绍的是2023年在《Nature Communications》发表的题为《Integrating end-to-end learning with deep geometrical potentials for ab initio RNA structure prediction》的文章,通讯作者是新加坡国立大学张阳教授。团队研究方向为人工智能与蛋白质和RNA结构预测。

背景介绍

RNA分子在细胞中扮演着多种关键角色,包括基因转录、基因表达调控和催化活动。RNA功能很大程度上依赖于其特定的三级结构。因此,确定RNA的三维结构对于促进基于RNA的功能注释和药物发现至关重要。

传统的RNA结构预测方法包括基于同源建模的方法和/或基于物理的模拟。然而,这些方法在处理序列差异较大或具有新颖拓扑结构的RNA目标时,性能通常不尽如人意。此外,尽管生物物理实验(如X射线晶体学、冷冻电镜和核磁共振光谱学)能够解析RNA结构,但这些方法成本高昂且耗时。

因此,迫切需要快速且准确的计算方法来进行基于序列的RNA结构预测。受深度学习技术在三维蛋白质结构预测中成功的启发,作者提出了DRfold这一不同的深度学习流程,通过端到端学习和深度几何势的整合,以及基于梯度的优化,显著提高了RNA结构模型的准确性。这种方法不仅在理论上具有创新性,而且在实际应用中也显示出了巨大的潜力,尤其是在药物设计和RNA生物学研究领域。

模型方法

DRfold首先预测输入序列的二级结构特征,然后将这些特征与序列一起嵌入到深度学习模型中。接着,48个RNA Transformer块处理这些数据,自动学习序列特征和长程依赖性。结构模块进一步预测每个核苷酸的旋转和平移信息,而另一组神经网络则预测核苷酸间的几何结构。这些信息被综合成一个复合势能,描述了RNA分子的稳定性和可能的构象。最后,通过梯度优化算法寻找最低能量状态的稳定结构,得出最终的预测模型。整个过程融合了深度学习和分子生物学原理,为RNA三级结构从头预测提供了一个高效且准确的计算框架,DRfold模型如图1。

图1. DRfold模型

结果分析

为了将 DRfold 的性能与已报道的方法进行对比,作者选择了两种代表性的片段组装方法包括 RNAComposer4 和 3dRNA5 以及三种代表性的RNA 结构从头预测方法包括 RNA-BRiQ8、SimRNA6 和 FARFAR27,比较了预测结构和目标结构的均方根偏差 (RMSD)。DRfold的平均 RMSD 值 (14.45 Å)显著低于 3dRNA(20.54 Å)、FARFAR2 (22.48 Å)、RNAComposer (20.80 Å)、BRiQ (22.88 Å) 和 SimRNA (23.88 Å)(图2A)。DRfold 的中位 RMSD 为 9.38 Å,而通过对照方法  获得的最低中位 RMSD 为 19.04 Å(RNAComposer)。在 40 个测试靶标中,以P 原子(或全原子)进行RMSD 评估,发现 6 个(2 个)靶标通过 DRfold 以高精度成功折叠,RMSD <2.5 Å。图 2B 中列出了 RMSD 值低于 2.5 Å 至 15.0 Å 阈值的结构的累积分数,其中 DRfold 在所有 RMSD 临界值中产生的结构明显多于对照方法。例如,47.5% 的 DRfold 模型的 RMSD 小于 7.5 Å,远高于3dRNA 方法获得的馏分 (20.0%)。

由于局部误差可能导致高 RMSD,因此 RMSD 值可能不适合评估高 RMSD 范围内 RNA 模型的质量。作者进一步评价了TM 分数结果,该指数对 RNA 结构的整体折叠更敏感。TM 分数范围为0至1,值越高表示结构越相似,其中 TM 分数高于 0.45 表示 RNA 结构的正确折叠与序列长度无关。如图 3C 所示,DRfold 模型的平均 TM 评分 (0.435) 比次优方法 3dRNA 获得的平均 TM 评分 0.251 高 73.3%。此外,45% (=18/40) 的 DRfold 模型具有正确的折叠,TM 评分>为 0.45,而次优方法仅达到 12.5% 的成功率。因此,DRfold 为大部分目标获得在整体上高质量模型的能力是显而易见的。

图2 DRfold与其他RNA结构预测算法的比较

图3展示了 DRfold 与控制方法之间 TMscore 和 RMSD 的详细头对头比较,其中在所有框中都观察到 DRfold 优于控制方法的明显优势。例如,DRfold 实现比对照方法更低的 RMSD 的测试靶标比例分别为 80.0%(对 3dRNA)、82.5% (FARFAR2)、72.5% (RNAComposer)、75.0% (RNA-BRiQ) 和 80.0% (SimRNA),如图 3A-E 所示。作者训练了六个独立的端到端模型,其使用不同的参数初始化。这六个模型的单独训练结果都显著优于所有对比方法,这说明端到端模型已经为RNA结构预测带来了巨大提升。在端到端模型之外,作者还加入了几何势能,结果虽然小但是正向,也是在RNA预测上起到了积极的作用,实验结果如图3E。

图3.消融实验(几何势能与端对端势能的重要性)

为了进一步检查端到端电位对 DRfold 的重要性,作者在图 4A 中绘制了完整版 DRfold 生成的模型与在 DRfold 中没有 FAPE 势能生成的模型的 TM 分数比较,其中后者表明结构仅通过几何电位进行了优化。在不考虑原子级细化的情况下,原始 DRfold 的平均 TM 分数从 0.439 下降到 0.413,表明性能损失具有统计学意义。在图 4C-E 中,作者展示了来自 Cas9 核酸内切酶中 sgRNA(PDB ID:7OX9 链 A)的一个例子。使用几何势构建的模型具有合理的折叠,但主要在5'-和3'-末端区域以及中心环 (26-41 NTs) 存在显着的局部误差,这导致总体 TM 分数 = 0.369 和 RMSD = 6.52 Å。如图 5E 所示,端到端结构模型在 5' 和 3' 末端区域的质量各不相同,而在环路区域的误差始终较低。对端到端和几何势能进行基于共识的优化,使模型得到显著改进,TM 分数 = 0.749 和 RMSD = 2.00 Å(参见图4D和图 4E 的底部)。

图4.二级结构在预测中的重要性

结论

DRfold通过其创新的深度学习模型,在RNA结构预测领域取得了显著的进展。这一方法利用端到端学习框架直接从RNA序列预测三维结构,并通过整合几何约束进一步提升了预测的准确性。此外,模型还受益于物理学指导的二级结构特征,这有助于更准确地预测碱基配对和局部结构。尽管与蛋白质结构预测相比,RNA结构预测的精度还有待提高,部分原因是可用的RNA结构数据相对较少,但DRfold在单序列训练方面已显示出潜力。未来,通过引入多序列比对、结构模板和RNA物理知识等信息,有望进一步提升其预测性能。

微信号:HanDa-Lab
课题组网站:https://www.hanlab.net/

撰稿:林宏烨

校对:郭沛

编辑:侯佳宁

∨ 点击“阅读原文”直达文献

韩达课题组
韩达课题组
 最新文章