撰文丨王聪
编辑丨王多鱼
排版丨水成文
2024年诺贝尔化学奖授予了 Demis Hassabis 和 John M. Jumper,以表彰他们在“蛋白质结构预测”方面的贡献,他们开发的AlphaFold系统实现了对蛋白质三维结构的准确预测。
然而,准确预测另一种生物大分子——RNA的三维结构,仍是一个尚未解决的挑战。确定RNA的三维结构对于理解其功能、指导靶向药物开发和合成生物学设计至关重要。但RNA的结构灵活性导致已通过实验确定的结构数据的稀缺,这使得计算预测工作变得复杂。
近日,香港中文大学李煜、哈佛大学James Collins、尹鹏、智峪生科王晟、复旦大学孙思琦等人在 Nature 子刊 Nature Methods 上发表了题为:Accurate RNA 3D structure prediction using a language model-based deep learning approach 的研究论文。
该研究使用RNA语言模型,实现准确、快速的RNA三维结构的从头预测,在建模单链RNA方面显示了很强的准确性,并在不同RNA家族和类型中表现出良好的泛化能力,同时还能够捕捉局部特征(例如螺旋间角和二级结构)。
RNA在“中心法则”中发挥着关键的承上启下的作用。RNA结构如何影响基因调控和功能一直是研究的重点。聚焦于RNA靶向的研究表明,它可以作为药物开发的重要靶点和有用的合成生物学设计元件。
超过85%的人类基因组被转录为RNA,但只有3%的基因组编码蛋白质,这凸显出转录的RNA中有相当一部分功能和结构是未知的。在许多情况下,获得高分辨率的结构信息可以使我们对所关注的RNA分子有具预测性的理解。
RNA分子的构象灵活性使其三维(3D)结构的实验测定具有挑战性。截至2023年12月,RNA结构占蛋白质数据库(PDB)中约214000个结构的不到1.0%,而含RNA的复合物结构仅占2.1%。
尽管X射线晶体学、核磁共振波谱学和冷冻电镜技术取得了进展,但这些低通量技术受到专业要求的限制。利用RNA序列数据的计算方法已成为RNA三维结构预测的补充方法。这些方法主要分为两类:基于模板的建模(例如ModeRNA和RNAbuilder)和从头预测(例如FARFAR2、3dRNA和SimRNA),前者受模板库的限制,后者预测性更高,但由于大规模抽样的要求,计算量更大。
基于深度学习的方法,已被应用于预测蛋白质三维结构、RNA二级结构,以及对其他方法生成的RNA结构进行评分。由于RNA三维结构数据的匮乏,以往的RNA三维结构预测方法主要集中在基于模板或基于能量的抽样技术上。尽管数据匮乏,AlphaFold2在蛋白质结构预测方面的成功推动了从头深度学习方法在RNA三维结构预测方面的发展。这些新方法通常从单个输入序列开始,然后从它构建多序列比对(MSA),然后用于构建三维结构。
多序列比对(MSA)已被证明为蛋白质建模提供了额外信息,这可能对RNA也是如此。例如,DeepFoldRNA和trRosettaRNA利用transformer网络将构建的MSA和预测的二级结构转换为各种一维和二维的距离、方向和扭转角度。然后,这些预测的几何形状被用作利用能量最小化来预测RNA三维结构的约束,并将抽样和评分过程整合到其框架中。包括E2Efold-3D和RoseTTAFoldNA在内的几个模型采用了完全可区分的端到端管线,利用构建的MSA和二级结构约束直接预测全原子3D模型。
AlphaFold2的继承者AlphaFold3也能够直接从输入序列中预测RNA的3D结构,而在预测过程中仍然依赖于其构建的MSA。与其他方法相比,AlphaFold3采用了基于扩散(diffusion-based)的过程来预测原始原子坐标,取代了AlphaFold2结构模块对氨基酸特定框架和侧链扭转角的操作。
虽然这些基于MSA的方法能够准确预测RNA的3D结构,但它们需要在大型序列数据库中进行广泛的搜索,这可能很耗时。相比之下,基于单一序列(包括DRFold)的模型不使用MSA,因此不需要在大型序列数据库中进行大量搜索,相反,DRFold仅依靠预测的二级结构来预测三维结构。这种方法速度更快,但通常与基于MSA的方法相比准确性较低。下一代深度学习方法可能更好地利用基于MSA的方法,从而提高预测的速度和准确性。
在这项新研究中,研究团队提出了一种基于语言模型的深度学习方法——RhoFold+,能够从序列信息中准确且快速从头预测单链RNA的三维结构。
RhoFold+的架构和用于性能评估的任务
论文链接: