利用结构预测工具,开发RNA适体设计新方法!

文摘   2024-11-12 12:08   中国香港  
文章链接:
Deep generative design of RNA aptamers using structural predictions.
 https://www.nature.com/articles/s43588-024-00720-6


一、前言

RNA适体(Aptamers)是一类特定的RNA分子,能够通过其独特的三维结构与特定的分子靶标(如蛋白质、小分子或其他生物大分子)高度特异性地结合。这种结合能力使得RNA适体在医学和生物技术领域具有广泛的应用潜力,特别是作为诊断和治疗工具。最近的研究已经开发出了准确的RNA三维结构预测方法,这也使得我们可以根据结构指导新的RNA序列的设计和生成。近期,香港中文大学(CUHK)李煜教授同麻省理工学院 James Collins教授领导的研究团队开创性地研发了RhoDesign,这是一种基于深度学习的新技术,用于从头设计RNA适体,研究已发表在著名期刊Nature Computational Science上。具体来说,研究人员从已知的RNA适体结构出发,设计出了结构类似但是序列不同的新RNA适体。这也意味着新设计的RNA在形状上与已知的RNA相似,但在基因序列上有显著差异。研究人员一方面从理论上设计出了这些新的RNA适体,另一方面通过湿实验验证了其发光活性,并通过一系列优化方法进一步加强了其活性。这项新技术为我们展示了如何利用结构预测来高效并有针对性地设计新的RNA序列,为后续生物医药和科学研究提供了新的工具和方法。


二、模型细节 
1️⃣数据来源:现有的基于深度学习的模型往往依赖于大规模的数据训练。而在生物领域,数据稀缺性的问题尤为显著。要开发基于结构的RNA序列设计模型,其中核心的一点是需要大量RNA结构和序列数据,目前实验解析出来的RNA结构数量稀少且有较多重复(PDB数据库)。但是随着RNA结构预测工具的发展,人们可以预测大量已知序列的RNA结构,并将其用于模型的训练。本篇文章的作者利用在CASP-15 RNA 结构预测竞赛上取得冠军的模型RhoFold预测了来自于RNACentral序列库中的约36万RNA结构,结合从PDB文件中筛选出的3435个实验解析出来的RNA结构,将其共同用于模型的训练。


2️⃣RhoDesign模型:RhoDesign模型由GVP(Geometric vector perceptron)编码器和Transformer两部分共同组成。其中GVP模块用于对RNA的三维结构数据进行编码,具体而言会从RNA的三维坐标中抽取并计算得到对应的矢量特征和标量特征。例如,从一个核苷酸的C4′到下一个核苷酸的C4′(C4′_i到C4'_i+1)的矢量表征了一个部分的骨架相对于下一部分的空间方向。对于标量特征,则会选择包括C4′, C1′, N1, C2, C5′, O5′, P在内的七个原子。利用这些原子之间的连接关系计算二面角,它们描述了RNA分子局部几何的旋转状态,并且在结构的旋转和平移变换下保持不变。之后,GVP编码的结构特征以及输入的二级结构接触图被送入Transformer的编码器。其中Transformer包括编码器和解码器两部分,这种架构被认为能够捕捉编码信息中的长距离依赖和关系。编码器处理输入特征(包括GVP编码的结构特征和接触图),采用注意力机制来关注相关的结构信息。然后,解码器处理编码器的输出以生成序列结果,以逐步方式操作,产生输出具体的核苷酸序列。
3️⃣湿实验验证:鉴于RNA的结构影响其功能,作者专注于生成荧光RNA适体(Mango aptamer),这种适体与小分子结合,可以进行快速和定量的设计序列测试。并且Fluorogenic Mango适体与TO1-biotin(一种小分子)结合已被广泛探索并解析出了其三维结构。首先,作者考虑了PDB ID为6UP0的Mango-III (A10U)适体。此适体是通过对原始Mango适体,Mango-I的变体进行大规模筛选发现的。作者重新训练了RhoDesign模型,并排除了与6UP0中的Mango-III适体序列相似度大于0.5的结构,以测试模型的泛化能力。
4️⃣结构聚类和优化:在对第一轮设计结果进行湿实验验证得到了具有活性的适体1之后,作者为了进一步优化其活性,对预测得到的结构进行了谱聚类。结果显示,与基于Mango-I和Mango-III的其他生成序列相比,适体1与Mango-III的聚类更为相似,而不是Mango-I,这表明它采样了与高荧光相关的结构空间,且与Mango-III的三维结构特征相似可能是其活性的基础通过测试几种的方法,作者发现使用MPBind(一种最初用于处理SELEX数据的基于模体和序列的统计框架)对110个适体进行评分,与荧光活性呈现出高相关性(皮尔森相关系数=0.428)。基于这些结果,作者通过将RhoFold预测的适体1结构作为输入提供给RhoDesign,生成了一组适体1的衍生物。并且采样了5,000个预测位于适体1周围结构簇的RNA序列,筛选序列以确保它们与适体1的序列相似性大于任何Mango适体,并移除了MPBind评分低(<0.4)的序列,最终得到1,818个候选适体。然后,基于序列使用t-SNE对候选序列进行降采样,并在每个t-SNE簇中选择MPBind评分最高的序列,最终选出20个RNA适体。

三、实验结果


1️⃣基准测试
在进行基准测试时,作者测试了序列恢复度(recovery rate),以及序列折叠回去后与原始序列所对应结构的TM-score和RMSD。RhoDesign在性能上超过了其他模型,包括LEARNA20、Meta-LEARNA、RiboLogic、MCTS-RNA、gRNAde、RDesign和eM2dRNAs。因为这里的TM得分和RMSD取决于RhoFold预测的三维结构,这些度量标准受限于与原始序列的预测结果相对应的差值,最后发现RhoDesign生成的序列接近这些界限。额外的分析显示RhoDesign在交叉折叠验证实验中的表现也优于其他模型


2️⃣Mango适体生成和湿实验验证
作者以6UP0的结构为输入,生成了60个候选序列,然后使用RhoFold预测了这些结构,结果显示这些序列的预测结构与原始结构相似。从生成的序列中,根据预测的RMSD值较低(结构相似度较高)和与输入适体的序列相似度较低这两个标准来进行候选序列的抽样。最后选择了18个适体进行合成和实验评估,这些适体的预测RMSD值在2.9到7.5埃之间,TM分数在0.21到0.39之间,序列相似度在0.43到0.65之间。为了比较,其还合成并评估了使用RaptGen和其他七个结构到序列模型生成的22个和70个类似方式抽样的适体。在测试合成适体的荧光时,发现18个RhoDesign生成的适体中有4个表现出活性虽然22个RaptGen生成的适体中有20个也显示出活性,但这些序列的最大序列相似度都大于0.7,表明这些序列大多是冗余的。相比之下,活跃的四个RhoDesign生成的适体的最大序列相似度为0.59其中,适体1尤为突出,其显示的荧光亮度高于Mango-I。其他七个结构到序列模型生成的70个适体中,只有四个表现出活性;其中一个由gRNAde生成,三个由MCTS-RNA生成。后一方法的有效命中率为30%,略高于RhoDesign的22%。然而,这些其他方法生成的四个活跃适体的荧光强度都没有RhoDesign设计得到的适体1强,而RhoDesign的序列恢复度大约是MCTS-RNA的两倍。除此之外,虽然适体1的预测结构与Mango-III相似,但它并不包含已知与Mango适体荧光活性相关的保守序列部分,这表明它可能是一种前所未有的、具有类Mango活性的适体


3️⃣湿实验优化结果
在第二轮优化中设计并筛选的20个RNA适体中,作者发现20个适体中有15个表现出活性,并且这15个存在活性的适体中有9个的活性高于适体1所有活性适体与原始Mango适体的最大序列相似性也较低(<0.6),而与适体1的序列相似性高(>0.6)。作者最终选出前三名适体,即:适体2-4,进行进一步研究。其中适体2-4显示出的荧光强度高于适体1,这表明它们通过与Mango适体类似的机制发光。事实上,G-四联体——通过鸟嘌呤自我识别形成的三级结构——已被证明能够结合TO1衍生物和其他能够生成荧光的小分子。为进一步研究这一潜在机制,作者通过依赖药理抑制适体1-4及使用荧光染料直接检测G-四联体进行了实验,实验结果也表明其与适体中可能存在G-四联体的潜在情况相一致。总之,湿结果进一步证实了适体1-4,尽管序列不同,但展示了与Mango-III相似的荧光机制,也说明了作者利用结构预测来设计新RNA序列的方法的有效性。


四、总结
此研究提供了一个从头设计RNA序列的计算平台,与传统的耗时且资源密集的方法如SELEX相比,其能极大缩短RNA设计的时间并且极其高效除此之外,鉴于当前RNA结构预测精度的限制,RhoDesign未来将可以结合更加精确的结构预测工具,来进一步提高其设计能力。此研究提出的设计框架也可在未来指导设计更多RNA适体,包括治疗性候选物和诊断适体而且随着更多实验测定的RNA结构的公开,RhoDesign平台也可扩展并用于设计具有多种功能的其他类型RNA,如riboswitch和ribozyme等。

【注意:转载请联系本公众号获得授权。】如果您对我们的内容有任何疑问需要咨询或想要联系作者,可以备注“AIMS”联系课代表。也欢迎大家投稿!

AIMShare课代表咨询
童鞋,看这里

目前已有1700+人关注加入我们

       

       


往期回顾
BREAK AWAY



Nature:如果导师不愿意给推荐人写推荐信,怎么办?

AIMShare

生信研究如何画图?收下这份硬核无广入门指南!


AIMShare

特朗普当选美国总统:留学与科研或将迎来大地震


AIMShare

AIMShare
AlMShare(Al with Mission and Social responsibility)是以推动实现有社会使命的人工智能为目标的高质量知识分享平台。我们专注于AI交叉领域研究与人才培养,致力于打破该领域信息差。
 最新文章