准确预测RNA三维(3D)结构仍然是一个未解决的挑战。确定RNA的3D结构对于理解其功能和为RNA靶向药物开发和合成生物学设计提供信息至关重要。RNA的结构灵活性导致实验确定数据的稀缺性,使计算预测工作复杂化。
2024年11月21日,香港中文大学李煜、美国哈佛大学James J. Collins、Yin Peng、Liu Di、复旦大学孙思琦、中国科学院深圳先进技术研究院王晟共同通讯在Nature Methods(IF=36)在线发表题为“Accurate RNA 3D structure prediction using a language model-based deep learning approach”的研究论文。该研究提出了RhoFold+,一种基于RNA语言模型的深度学习方法,可以从序列中准确预测单链RNA的3D结构。
通过集成对约2370万个RNA序列进行预训练的RNA语言模型,并利用技术解决数据短缺问题,RhoFold+为RNA 3D结构预测提供了一个完全自动化的端到端管道。对RNA-Puzzles和CASP15天然RNA靶点的回顾性评估表明,RhoFold+优于包括人类专家组在内的现有方法。通过跨家庭和跨类型评估以及时间审查基准,进一步验证了其有效性和普遍性。此外,RhoFold+预测RNA二级结构和螺旋间角,提供了经验验证的特征,扩大了其在RNA结构和功能研究中的适用性。
RNA分子在分子生物学的中心法则中占有关键地位。RNA结构如何影响基因的调控和功能一直是研究的热点。RNA靶向的研究已经证明,它可以是药物开发的一个重要的可药物靶点,也是一个有用的合成生物学设计元素。超过85%的人类基因组被转录,但只有3%编码蛋白质,这表明转录RNA的很大一部分功能和结构未知。在许多情况下,获得高分辨率的结构信息可以使对感兴趣的RNA分子有更预测性的理解。RNA分子的构象灵活性使得实验确定其三维(3D)结构具有挑战性。截至2023年12月,在蛋白质数据库(PDB)中约214,000个结构中,仅RNA结构占不到1.0%,而含RNA复合物仅占2.1%。尽管在X射线晶体学、核磁共振波谱学和冷冻电镜方面取得了进步,但这些低通量技术受到专业要求的限制。计算方法已经成为利用RNA序列数据进行RNA 3D结构预测的补充方法。RhoFold+架构及性能评估任务(图源自Nature Methods)一种正交从头预测方法是利用深度学习,这种方法已经成功地应用于各种生物问题。这些应用包括预测蛋白质3D结构、RNA二级结构以及通过其他方法生成的RNA结构评分。以前的 RNA 3D结构预测方法侧重于基于模板或基于能量的采样技术,这些技术是由可用 RNA 3D结构数据的稀缺性提供的。专注于基于模板或基于能量的采样技术,这些技术是由可用的RNA 3D结构数据的稀缺性所决定的。尽管缺乏数据,但AlphaFold2在蛋白质结构预测方面的成功促进了用于RNA 3D结构预测的从头深度学习方法的发展。这些新方法通常从单个输入序列开始,然后从中构建多个序列比对(MSAs),这些序列比对随后用于构建3D结构。在这里,研究人员提出了一种基于语言模型的深度学习方法,RhoFold+,用于准确快速的从头开始RNA 3D结构预测。RhoFold+代表了对其前身RhoFold19的完全自动化和差异化改进,利用改进的MSAs集成和其他功能来提高性能。RhoFold+在CASP15天然RNA靶点上优于其他基于深度学习的RNA结构预测方法,对于非重叠和非冗余的RNA-Puzzles结构,RhoFold+实现了sub-4 Å的平均r.r.s.d。由于RhoFold+不需要任何耗时和计算密集型的采样过程,因此RhoFold+也快速高效,并且不依赖于专家知识,而专家知识已被用于迄今为止最高效的RNA结构预测方法。
参考消息:
https://www.nature.com/articles/s41592-024-02487-0
—END—
内容为【iNature】公众号原创,
转载请写明来源于【iNature】
微信加群
iNature汇集了4万名生命科学的研究人员及医生。我们组建了80个综合群(16个PI群及64个博士群),同时更具专业专门组建了相关专业群(植物,免疫,细胞,微生物,基因编辑,神经,化学,物理,心血管,肿瘤等群)。温馨提示:进群请备注一下(格式如学校+专业+姓名,如果是PI/教授,请注明是PI/教授,否则就直接默认为在读博士,谢谢)。可以先加小编微信号(love_iNature),或者是长按二维码,添加小编,之后再进相关的群,非诚勿扰。
投稿、合作、转载授权事宜
请联系微信ID:13701829856 或邮箱:iNature2020@163.com
觉得本文好看,请点这里!