专题文献速递 | RNA结构建模及RNA结构的几何映射可视化和RNA-RNA相互作用研究

文摘   2024-08-18 17:00   河北  


背景


RNA位于基因表达调控的中心,主要通过其与其他生物大分子的相互作用,例如 RNA 结合蛋白 (RBP)、DNA和其他RNA物种。以交联和免疫沉淀 (CLIP) 等方法为首,人们开发了多种方法来研究RNA-RBP相互作用,从而显着推进了RNA生物学的发展。由此可知确定RNA的三维结构对于理解其功能至关重要。随着技术和方法的进步,低温电子显微镜(cryo-EM)正在成为解决RNA结构的主流技术。然而,由于RNA的动态性较高,从冷冻电镜图谱构建RNA模型的进展落后于蛋白质的进展,并且当前方法在自动化和准确性方面面临局限性,导致RNA如何与其他分子相互作用以及随后的功能后果尚未得到充分研究。因此在本期的文献速递专题中,我们将介绍最近几篇研究RNA原子结构建模和保持RNA视觉直观和结构洞察力的新工具以及对细胞内的RNA-RNA相互作用探究的新策略。



01

ERNA自动构建RNA冷冻电镜结构


低温电子显微镜(cryo-EM)是目前大分子结构测定最重要的实验手段之一。数据收集和图像处理的自动化导致已发表的冷冻电镜图谱数量呈指数级增长。随着实验技术的进步和计算算法的创新,结构生物学领域在过去十年中不断发展。许多大分子复合物的三维 (3D) 结构已通过冷冻电镜图确定并存储在蛋白质数据库 (PDB)中。然而,从冷冻电镜图确定结构仍然是一项具有挑战性和艰巨的任务,特别是对于从中间分辨率图构建模型而言。因此,冷冻电镜图和建模结构的数量之间的差距越来越大,这就需要先进的方法来根据冷冻电镜图准确确定结构。近期发表于 Nature Biotechnology 期刊上的文章《All-atom RNA structure determination from cryo-EM maps》,开发了ERNA,这是一种从低温电子显微镜图谱中准确、自动测定全长全原子RNA结构的方法。



在本篇文章中,作者开发了基于深度学习的方法ERNA,可以根据中间到近原子分辨率(2-6 Å)的冷冻电镜图自动对RNA结构进行建模(图1a)。首先,EMRNA 使用深度学习来检测关键原子(P、C4' 和N1或N9)的位置,这些原子从冷冻电镜密度图中粗略地定义了核苷酸主链和核苷酸类型。然后,原子位置被线程化为片段,这些片段随后迭代地线程化为多个主干轨迹。为了增加可能构象的采样多样性,根据 P、C4' 或其组合的位置来串接不同的主干迹线。将目标序列和预测的二级结构与迹线对齐后,选择具有最高对齐分数的迹线来构建全原子结构,然后细化螺旋结构。


图1 EMRNA工作流程和构建模型示例(来源于原文Figure 1)


作者评估了EMRNA在140个实验RNA图谱上的性能,结果表明EMRNA可以高精度地模拟RNA结构。对于主要测试集,包括分辨率为2–6 Å的71条RNA链的掩蔽图谱, EMRNA 在恢复全长结构方面实现了2.36 Å的r.m.s.d.和0.86的模板建模(TM)分数。此外,当考虑顶级模型时,EMRNA在恢复RNA结构方面实现了93.30%的残基覆盖率和95.30%的序列匹配。例如,EMRNA构建的Cas9-RNA-DNA复合物的RNA结构模型(图1b)和从休眠小孢子虫核糖体结构中提取的 5S 核糖体RNA(图 1b),能与PDB模型很好地重叠,全长r.m.s.d.为<1 Å,每种情况下的TM得分为>0.9。除了掩蔽图谱外,作者还将 EMRNA 应用于19个仅RNA原始图谱,包括用于研究RNA催化的模型Tetrahymena核酶和SAM-IV核糖开关(图 1b)。EMRNA 在未屏蔽的图谱上也表现良好,实现了0.82的高TM分数。

在所有测试集中,EMRNA都建立了良好的碱基构象,并且大多数螺旋在构建的模型中被识别出来。此外,EMRNA 速度快,通常可以在 3 分钟内构建 100 nt 的 RNA 结构。与之前的方法相比,EMRNA在建模精度和计算效率上都取得了显著的性能。

总结而言,该研究描述了一种在冷冻电子显微镜图谱中基于密度对RNA结构进行建模的程序。该方法填补了解释大分子结构的冷冻电子显微镜密度图的一个主要空白,因为RNA模型构建一直比蛋白质模型构建差。


原文链接:https://doi.org/10.1038/s41587-024-02149-8



02

RNAscape精准RNA结构可视化工具


在对RNA建模后,分析和可视化RNA的三级结构和复杂的相互作用对于能够机械地破译它们在体内的分子功能至关重要。二级结构可视化软件可以描绘RNA的许多方面。然而,这些布局通常无法保持拓扑对应,因为它们没有考虑 RNA 分子不同区域之间的三级相互作用。同样,二级结构可视化工具中不考虑两个或多个相互作用的 RNA 分子之间的四级相互作用。近期一篇发表于Nucleic Acids Research期刊的文章《RNAscape: geometric mapping and customizable visualization of RNA structure》研究了一种具有网络服务的工具RNAscape,作者通过设计一种数学结构映射算法来保留拓扑对应性,同时保持视觉直观和结构洞察力。该算法优先考虑螺旋片段,反映其三级组织。非螺旋段的映射方式可最大限度地减少结构混乱。

 RNAscape 运行一个绘图脚本,旨在生成出版质量的图像。RNAscape 本身支持非标准核苷酸、多碱基配对注释样式,并且不需要编程经验。RNAscape 还可用于分析 RNA/DNA 杂合结构和 DNA 拓扑,包括 G-四链体。用户可以上传自己的三维结构或输入现有结构的蛋白质数据库(PDB)ID。RNAscape 网络服务器允许用户根据需要通过各种设置自定义可视化效果。网址:https://rnascape.usc.edu/。



表示复杂 RNA 结构的一种流行方法是通过二级结构图。这些二维 (2D) 图完全由碱基配对关系驱动并布置在抽象空间中。大量文献和软件描述了二级结构图。然而,这些表示并不能有效地捕获三级分子相互作用,例如碱基配对、堆积和假结相互作用。因此,虽然这种方法对于大 RNA 序列的扩展性相对较好,但不考虑三级相互作用可能会导致图表远离生物结构和功能。更具体地,在三维(3D)空间中相对靠近地定位的核苷酸在可视化中可能看起来很远。

RNAscape 在多个层面解决并克服了现有方法的概述问题和局限性。RNAscape 算法包括符合 RNA 结构螺旋几何形状的映射过程。通过这样做,它试图保留 2D 映射和 3D 结构之间的直观对应关系。同时,RNAscape 优化了每个布局,以放置结构的非螺旋片段,而不牺牲三级相互作用。这使得可视化变得紧凑,同时尽可能保持视觉直观(图 1)。


图1 PDB 中各种结构的 RNAscape 输出(来源于原文Figure 1)


作者搭建的RNAscape 网络服务器为其可视化提供了各种自定义选项。用户可以直接在网络服务器上缩放、平移和旋转图像。此外,人们可以轻松地定制具有不同碱基配对注释、残基颜色、核苷酸或文本标签大小以及编号模式的图。同时RNAscape鼓励用户迭代地完善图像。此外,RNAscape 允许用户修改计算的图谱。 完成后,RNAscape 可视化可以导出为矢量格式 (SVG) 或图像格式 (PNG),以便用户进一步细化。支持蛋白质数据库 (PDB) 和大分子晶体信息文件 (mmCIF) 格式文件,以最大限度地提高兼容性。此外,RNAscape可以根据给定的PDB ID直接从PDB获取结构。


图2 RNAscape 算法(来源于原文Figure 3)


作者设计了多个自定义设置选项可用。循环凸出设置控制循环是向外凸出还是线性插值。此外,可以关闭合并邻近的、类似方向的梯子的后处理步骤(图3B)。由于这些设置会影响几何映射,因此如果它们发生更改,用户必须单击“运行”才能再次运行程序。箭头大小、圆圈大小和圆圈标签大小影响核苷酸外观。碱基配对标记的大小也可以调整。通过数字设置,用户指示RNAscape在结构文件定义的编号方案中标记残基编号。这些标签的颜色、大小、频率和间距也可以修改。颜色设置允许用户自定义每种核苷酸类型的颜色:A、C、G、U/T 和 X(非标准核苷酸)。用于表示主链和非链相互作用和标记的颜色也可以修改。此外,RNAscape 提供了修改计算图的功能。通过单击“修改映射”按钮,用户可以移动和调整核苷酸位置来解决,例如重叠和重新生成输出。

总结而言,作者设计的RNAscape网络服务器可生成可定制的、出版质量的核酸三级结构可视化。它优先考虑结构的拓扑,同时努力创建干净且优化的输出,并且旨在最大限度地减少用户的工作量。用户可以在网络服务器上完善可视化效果,RNAscape还支持非标准核苷酸和各种碱基配对注释。


原文链接:https://doi.org/10.1093/nar/gkae269


03

KARR-seq揭示RNA高级结构与相互作用


RNA的功能通常由其高级结构和RNA-RNA相互作用决定。通过RNA结合蛋白 (RBP) 或小分子(例如补骨脂素)交联细胞RNA,然后进行RNA连接和测序,用于以高通量方式检测RNA-RNA相互作用。然而,在基于RBP的方法中,相互作用的检测是由局部蛋白质浓度和RNA-蛋白质结合共同建立的。基于补骨脂素的方法通常不依赖于RBP,但它们丰富了特定的碱基配对相互作用。为了克服这些限制并通过RNA三级结构和RNA-RNA相互作用更全面地了解RNA功能,近期发表于 Nature Biotechnology 期刊上的文章《KARR-seq reveals cellular higher-order RNA structures and RNA–RNA interactions》中作者引入了KARR-seq,它建立在RNA化学标记和交联策略的基础上,对RBP的依赖性最小。



首先作者着手开发基于化学的方法来捕获物理上邻近的 RNA 片段,以避免局部蛋白质与 RNA 结合的依赖性。考虑到补骨脂素主要与相邻的A·T碱基对发生反应,作者推断 N3 -kethoxal 在单链环境中专门标记鸟嘌呤,可以导致互补和更全面的解决方案。N3 -酮醛的叠氮化物 (-N3 ) 基团可以作为生物正交标签,使用树枝状聚合物(多功能化学交联剂)捕获 RNA-RNA 相互作用。用二苯并环辛炔(DBCO)基团修饰(图1)。在KARR-seq程序中,交联的RNA经过富集、邻近连接和双端测序以鉴定RNA-RNA相互作用(图1)。


图 1 通过 KARR-seq 绘制细胞 RNA-RNA 相互作用图谱(来源于原文Figure 1)


KARR-seq检测到的RNA高阶结构与已发表的RNA冷冻电镜结构非常吻合。KARR-seq 与其他方法之间的系统比较表明,KARR-seq与基于补骨脂素的方法的不同之处在于它检测更多的非双链相互作用。使用KARR-seq,作者发现细胞核中的RNA往往比细胞质中的RNA表现出更紧凑的高阶结构。此外,作者还发现翻译过程中的核糖体易位可以解析细胞质mRNA的结构,而翻译抑制会导致转录组范围内的 RNA 构象更加紧凑。当用亚砷酸盐处理细胞以诱导应激颗粒形成时,可以检测到广泛的高阶结构重组,这可能是由翻译抑制、颗粒形成和其他伴随效应引起的。

此外,KARR-seq能够检测各种RNA类别之间的分子间RNA-RNA相互作用。这些相互作用与某些RNA功能有关,包括前rRNA剪接和2'-O-甲基修饰。特别是,作者发现了人类呼吸道合胞病毒感染细胞中病毒RNA与宿主RNA之间的相互作用。阻断这些相互作用可以抑制呼吸道合胞病毒的传播,但不能抑制水泡性口炎病毒的传播。这些结果例证了KARR-seq在检测各种生物系统中RNA-RNA相互作用中的应用。

总结而言,作者在这项工作中开发了一种绘制高阶RNA结构和RNA-RNA相互作用的方法,不需要局部蛋白质-RNA接合。交联策略的化学性质有利于KARR-seq在各种细胞区室中的应用,并具有相当的效率。KARR-seq捕获许多RNA类别,其对不同RNA的敏感性主要由RNA丰度决定。


原文链接:https://doi.org/10.1038/s41587-023-02109-8


04

RNA 3D预测方法性能评估与比较


由于解析 RNA 结构的实验方法仍然困难重重、成本高昂且耗时较长。作为一种替代方法,人们正在利用或不利用补充实验数据(如距离限制或RNA二级结构)对三维RNA结构进行计算预测。不过,这一领域仍处于发展阶段,与AlphaFold出现之前的蛋白质结构预测类似,目前人们对将AlphaFold方法应用于RNA并使其精确度与蛋白质相媲美的潜力持怀疑态度。一般说来,这是由于实验解决的已知结构数量不足。近期在Nucleic Acids Research期刊发表了一篇文章《Comparative analysis of RNA 3D structure prediction methods: towards enhanced modeling of RNA–ligand interactions》评估了六种独立的 RNA 3D 结构预测方法——DeepFoldRNA、RhoFold、BRiQ、FARFAR2、SimRNA 和 Vfold2,由于知识产权问题,不包括基于 Web 的工具。作者专注于再现 RNA-小分子复合物中存在的 RNA 结构,特别是对配体结合位点进行建模的能力。



许多研究小组致力于开发新的生物信息学方法,以高精度预测 RNA 三级结构。这些方法可以大致分为三类:基于物理的、基于知识的和基于机器学习(ML)的。基于物理学的方法,例如分子动力学 (MD),依靠物理学原理来预测RNA的 3D 结构。基于全原子物理学的方法在计算上是昂贵的,因为它们广泛探索折叠途径以寻找稳定的构象。通常,它们应用于较小的RNA分子,并由于计算需求而利用额外的限制或粗粒度模型。这些方法的关键挑战之一是它们使用的力场的固有局限性,这是该领域持续发展的一个领域。基于知识的方法利用源自已知 RNA 结构的工具,采用模板、片段或评分函数来模拟RNA 3D结构。基于机器学习的方法利用一系列人工智能技术来预测3D结构。基于知识和基于机器学习的方法都依赖于现有的实验解决的RNA结构来推导控制RNA 3D结构的原理,其主要限制是可供参考的此类实验解决的结构数量不足。


图1 RNA 3D 建模方法的性能(来源于原文Figure 2)


RNA 3D建模方法的概述阐明了RNA结构预测中不同计算方法的不同功能和局限性。DeepFoldRNA和RhoFold这两种基于ML的方法在RMSD和TM评分指标中始终表现出卓越的性能(图 1A、B),展示了它们在结构准确性和全局折叠相似性方面的优势。然而,DeepFoldRNA在交互网络保真度方面落后,特别是在INF_all和INF_stack中,其中RhoFold 和Vfold2_ss表现出更强的结果(图 1C)。INF_wc和INF_nwc的分析进一步强调了改进的必要性,特别是在准确预测非Watson-Crick相互作用方面。作者还指出,由于训练集中存在相同或同源结构,基于机器学习的方法可能会显示人为夸大的结果。因此,作者构建了盲测试集B1来评估 DeepFoldRNA 和 RhoFold 方法。总的来说,这项研究不仅强调了基于机器学习的方法在 RNA 建模某些方面的优势,而且还确定了需要增强的关键领域。在非基于 ML的方法中,Vfold2方法预测的模型具有较低的 RMSD(图 1A)、较高的TM分数(图 1B)和更好的INF值(图 1C),使模型在以下方面更加可靠:全局折叠和局部结构方面。各种指标和方法的性能对比强调了针对特定建模挑战选择适当工具的重要性,并为RNA 3D结构预测的未来进步铺平了道路。此外,值得注意的是,Vfold2和FARFAR2等基于模板的方法的结果可能取决于适当模板的可用性。这强调了利用精心策划的模板来提高预测准确性的重要性。

作者的研究为选择和应用各种预测方法提供了宝贵的见解。基于机器学习的方法对于生成具有良好全局折叠的模型非常有效。其中许多模型符合I-RMSD标准,使其适合初始模型,特别是针对小分子的药物开发。然而,对于详细的结构特征(例如分子内相互作用和G四联体等特定元素),非基于机器学习的方法表现出卓越的准确性。因此,结合用于全局结构预测的机器学习(ML)和用于详细结合界面建模的非机器学习方法的协同策略可以提供显着的优势。值得注意的是,二级结构约束的包含显着提高了非基于机器学习的方法在结合位点建模中的性能。最近的RNA-Puzzles和CASP竞赛的结果表明,与使用程序默认设置获得的结果相比,经验丰富的用户结合了同源RNA分子的结构和各种实验数据,显着提高了预测准确性。这种增强对于小分子结合位点的建模可能很重要,小分子结合位点必须具有功能性,因此经常表现出序列和结构的进化保守性。因此,使用集成建模方法、整合各种生化和生物物理数据并利用不同的计算工具来改进模型变得至关重要。

总结而言,作者探究的这几种RNA结构预测方法目前在生成初始全局结构模型方面达到了足够的精度,但它们可能达不到基于结构的药物设计中至关重要的高分辨率建模所需的精度。所以设计针对特定 RNA 基序和结合位点的有效小分子疗法所需的更精细细节需要比目前观察到的更高水平的准确性。未来的研究,包括综合对接实验,将在确定这些方法的准确性是否足以满足实际应用方面发挥重要作用。


原文链接:https://doi.org/10.1093/nar/gkae541



   总结   


虽然近年来在RNA结构研究方面取得了显著进展,开发了多种强大的工具和技术,但细胞内RNA的复杂性和动态性意味着我们仍处于探索的初期阶段。当前的技术虽然可以揭示一些局部结构和短暂的相互作用,但要全面捕捉RNA在其天然环境中的真实形态和所有可能的相互作用,仍然存在许多技术和理论上的障碍。未来的研究将需要结合更加精细的实验手段和先进的计算模型,以便逐步揭开RNA在细胞内如何折叠、相互作用以及参与调控的全貌。只有通过持续的技术创新和深入的生物学研究,我们才能逐步接近对RNA结构和功能的全面理解。



本课题组常年全球招募具有化学材料、基因治疗、生物医学和生物信息等相关背景的副研究员、助理研究员、博士后和科研助理。

有意者请将简历发送至宋杰老师邮箱:jiegroup@126.com,或点击此处查看详情


往期回顾

Nature Communications | Thogoto病毒聚合酶的冷冻电镜结构揭示了正粘病毒中独特的RNA转录和复制机制


Nucleic Acids Research | 合理设计DNA - RNA杂合三链体结构作为体外转录活性的调节剂


Science Advances | mRNA-LNP的结构和生化特征决定抗SARS-COV-2的体液和细胞免疫反应


Nature Communications |核苷酸分辨率下RNA结构探测实验的差异分析:揭示RNA结构的调节功能




者:gst
审核:sj 
排版:xjc


宋杰课题组
学术交流,文献阅读,促进科研合作。
 最新文章