Nature子刊:李煜/尹鹏/王晟/孙思琦等开发RNA语言模型,快速准确预测RNA三维结构

学术   2024-12-08 10:03   上海  

撰文丨王聪

编辑丨王多鱼

排版丨水成文


2024年诺贝尔化学奖授予了 Demis Hassabis 和 John M. Jumper,以表彰他们在“蛋白质结构预测”方面的贡献,他们开发的AlphaFold系统实现了对蛋白质三维结构的准确预测。


然而,准确预测另一种生物大分子——RNA的三维结构,仍是一个尚未解决的挑战。确定RNA的三维结构对于理解其功能、指导靶向药物开发和合成生物学设计至关重要。但RNA的结构灵活性导致已通过实验确定的结构数据的稀缺,这使得计算预测工作变得复杂。


近日,香港中文大学李煜、哈佛大学James Collins尹鹏、智峪生科王晟、复旦大学孙思琦等人在 Nature 子刊 Nature Methods 上发表了题为:Accurate RNA 3D structure prediction using a language model-based deep learning approach 的研究论文。


该研究使用RNA语言模型,实现准确、快速的RNA三维结构的从头预测在建模单链RNA方面显示了很强的准确性,并在不同RNA家族和类型中表现出良好的泛化能力,同时还能够捕捉局部特征(例如螺旋间角和二级结构)



RNA在“中心法则”中发挥着关键的承上启下的作用。RNA结构如何影响基因调控和功能一直是研究的重点。聚焦于RNA靶向的研究表明,它可以作为药物开发的重要靶点和有用的合成生物学设计元件。


超过85%的人类基因组被转录为RNA,但只有3%的基因组编码蛋白质,这凸显出转录的RNA中有相当一部分功能和结构是未知的。在许多情况下,获得高分辨率的结构信息可以使我们对所关注的RNA分子有具预测性的理解。


RNA分子的构象灵活性使其三维(3D)结构的实验测定具有挑战性。截至2023年12月,RNA结构占蛋白质数据库(PDB)中约214000个结构的不到1.0%,而含RNA的复合物结构仅占2.1%。


尽管X射线晶体学、核磁共振波谱学和冷冻电镜技术取得了进展,但这些低通量技术受到专业要求的限制。利用RNA序列数据的计算方法已成为RNA三维结构预测的补充方法。这些方法主要分为两类:基于模板的建模(例如ModeRNA和RNAbuilder)和从头预测(例如FARFAR2、3dRNA和SimRNA),前者受模板库的限制,后者预测性更高,但由于大规模抽样的要求,计算量更大。


基于深度学习的方法,已被应用于预测蛋白质三维结构、RNA二级结构,以及对其他方法生成的RNA结构进行评分。由于RNA三维结构数据的匮乏,以往的RNA三维结构预测方法主要集中在基于模板或基于能量的抽样技术上。尽管数据匮乏,AlphaFold2在蛋白质结构预测方面的成功推动了从头深度学习方法在RNA三维结构预测方面的发展。这些新方法通常从单个输入序列开始,然后从它构建多序列比对(MSA),然后用于构建三维结构。


多序列比对(MSA)已被证明为蛋白质建模提供了额外信息,这可能对RNA也是如此。例如,DeepFoldRNA和trRosettaRNA利用transformer网络将构建的MSA和预测的二级结构转换为各种一维和二维的距离、方向和扭转角度。然后,这些预测的几何形状被用作利用能量最小化来预测RNA三维结构的约束,并将抽样和评分过程整合到其框架中。包括E2Efold-3D和RoseTTAFoldNA在内的几个模型采用了完全可区分的端到端管线,利用构建的MSA和二级结构约束直接预测全原子3D模型。


AlphaFold2的继承者AlphaFold3也能够直接从输入序列中预测RNA的3D结构,而在预测过程中仍然依赖于其构建的MSA。与其他方法相比,AlphaFold3采用了基于扩散(diffusion-based)的过程来预测原始原子坐标,取代了AlphaFold2结构模块对氨基酸特定框架和侧链扭转角的操作。


虽然这些基于MSA的方法能够准确预测RNA的3D结构,但它们需要在大型序列数据库中进行广泛的搜索,这可能很耗时。相比之下,基于单一序列(包括DRFold)的模型不使用MSA,因此不需要在大型序列数据库中进行大量搜索,相反,DRFold仅依靠预测的二级结构来预测三维结构。这种方法速度更快,但通常与基于MSA的方法相比准确性较低。下一代深度学习方法可能更好地利用基于MSA的方法,从而提高预测的速度和准确性。


在这项新研究中,研究团队提出了一种基于语言模型的深度学习方法——RhoFold+,能够从序列信息中准确且快速从头预测单链RNA的三维结构。


通过整合预训练的约2370万个RNA序列的RNA语言模型,并利用技术解决数据匮乏问题,RhoFold+提供了一个完全自动化的RNA三维结构预测端到端管线。

RNA-Puzzles(一个评估RNA三维结构预测的国际合作项目)CASP15(蛋白质结构预测比赛)天然RNA靶点的回顾性评估表明,RhoFold+优于包括人类专家组在内的现有方法。通过跨RNA家族和类型评估以及时间限制的基准测试,进一步验证了RhoFold+的性能和普遍适用性。此外,RhoFold+还能预测RNA二级结构和螺旋间角,提供了可验证的特征,拓宽了其在RNA结构和功能研究中的适用性。

RhoFold+的架构和用于性能评估的任务


RhoFold+与它的前身RhoFold相比,实现了完全自动化和差异化的改进,利用MSA和其他特性的改进集成来提高性能,其主要重点是确定单链RNA的结构,因为单链RNA与其他分子的相互作用有限。解决这一挑战可以帮助我们更好地理解RNA生物学,并为解决更复杂的结构问题提供起点。

论文链接

https://www.nature.com/articles/s41592-024-02487-0
设置星标,不错过精彩推文
开放转载
欢迎转发到朋友圈和微信群
 微信加群 
为促进前沿研究的传播和交流,我们组建了多个专业交流群,长按下方二维码,即可添加小编微信进群,由于申请人数较多,添加微信时请备注:学校/专业/姓名,如果是PI/教授,还请注明。


在看,传递你的品味

生物世界
生物世界重点关注最具转化应用前景和价值的生命科学前沿研究,深度访谈和报道生命科学领域前沿学者及创新企业
 最新文章