破解RNA逆向折叠难题,扩散模型在生物大分子数据上的又一妙用!

文摘   2024-07-29 12:39   中国香港  


前言



如果要列举近年来人工智能发展最迅猛的方向,AIGC一定是一个绕不开的话题。得益于扩散模型(Diffusion Model)的飞速进展,用户只需将自己的需求转换为文本并输入基于扩散模型的Stable Diffusion、Sora等工具之中,就能得到栩栩如生,以假乱真的图像。


扩散模型在生成式模型领域已经充分展现出了自己独特的优势,相比于其他生成式模型(如生成对抗网络(GANs)和变分自编码器(VAEs)更为优秀。具体而言,扩散模型的逐步去噪过程能够产生高质量的生成结果,同时其训练过程是相对稳定的(不容易出现GANs模型训练崩溃的情况)。


扩散模型在图像生成领域的强大效果使得研究者们开始探索其在许多领域的潜在应用,而最近最令人震撼的进展,当属近期Google DeepMind和Isomorphic Labs发布的工作AlphaFold3。基于扩散模型的框架,AlphaFold能够从生物大分子的序列出发,精准预测生物大分子的3D结构,再一次极大推动了生物大分子结构研究的范式。之后我们也将对Alphafold3的技术原理做深度解析。


而在本文要介绍的工作RiboDiffusion中,研究者们则从另外一个视角出发,将扩散模型应用于RNA大分子的逆向折叠问题中。逆向折叠问题可以看作是结构预测的反问题,即给定大分子结构,如何预测出大分子可能的序列。这项工作被接受在计算生物学领域顶级会议之一的ISMB上(仅58篇论文,接受率18.2%),并被生物信息领域权威媒体CBIRT称赞为"破解了RNA逆向折叠难题"。下面,就让我们一起看看,这篇文章是如何处理Alphafold3的反问题的吧~



论文标题:RiboDiffusion: Tertiary Structure-based RNA Inverse Folding with Generative Diffusion Models

论文链接:https://academic.oup.com/bioinformatics/article/40/Supplement_1/i347/7700903 

代码链接:https://github.com/ml4bio/RiboDiffusion



扩散模型:技术原理



扩散模型包含了前向和反向两个过程,前向过程向目标数据不断添加噪声,将其转化为已知先验分布(比如我们都很熟悉的正态分布)的一个采样。反向过程则是去除噪声的过程,通过机器学习模型,我们将添加在数据的噪声逐步抹除,最终还原为数据本身。




反向预测:从结构到序列



得益于生物数据的积累和深度学习技术的进步,近年来已经有不少用深度学习建模生物大分子的工作。例如蛋白质结构预测领域的AlphaFold,能通过蛋白质的氨基酸序列预测其3D结构。RiboDiffusion处理的问题则是RNA的逆向折叠问题,和结构预测不同,该问题对某种特定的RNA结构条件寻找对应的


RNA序列,是结构预测的逆向问题



那么,RNA的逆向折叠有哪些潜在的生物应用呢?RNA的功能本质上是由RNA3D结构决定的。因此,逆向折叠问题也可以理解为生成具有某种功能的RNA序列,这有助于探索RNA序列和RNA功能的复杂关系,发现更多结构相似、功能相同的新序列


此外,RNA逆向折叠工具是RNA设计流程的一个重要模块。首先我们根据具体的功能需求设计出粗糙的RNA主干,随后利用反向折叠工具预测可能能够折叠成该结构的RNA序列,最后利用RNA结构预测模块精细的预测RNA的3D结构,以设计出满足需求的RNA序列。



RiboDiffusion方法简述



1)扩散模型——从序列到分布


从传统机器学习模型的角度来说,RNA的逆向折叠问题的输入是RNA的结构条件(二级结构或者三级结构),模型的输出则是RNA的序列。在模型训练的过程中,我们的目标是让模型输出的序列尽可能和结构对应的真实序列接近


而在RiboDiffusion这篇工作中,研究者们却采用了一种新的建模方式,即建模RNA结构到一个RNA序列分布的映射,在得到这个分布后,从该分布中采样序列来得到预测序列。使用了一种曲线救国的方式得到了我们想要的输出。


这实际上是将该问题进行了复杂化的处理,从奥卡姆剃刀原则来考虑似乎不是一个合理的选项,原本模型只需要学习一个从结构到序列的简单映射即可,现在却需要学习一个序列的概率分布,那么,为什么作者们要舍近求远,把简单的问题复杂化呢?


需要注意的是,RNA结构到RNA序列的对应关系并非简单的一一映射,而是一种更为复杂的关系:RNA序列可以折叠成多种构象,某一种RNA构象的大致形态可以由许多序列折叠而成。


因此,由于RiboDiffusion的输入是RNA简化表示的三级结构(只包含RNA核糖核苷酸分子主干原子坐标的信息)。这样的三级结构本身就可能对应着多种可能的RNA序列,很可能遭遇“一题多解”的情况。


因此,使用传统机器学习中一对一的预测模型在该问题上就显得不够契合。而从结构到序列分布的建模则比较合适,我们只需要针对得到的分布多次采样,就可以生成既多样又准确的RNA序列,可以很好地解决一题多解的问题


这样的建模方式自然是天生适合扩散模型,因为扩散模型的本质是分布之间的映射。对于RNA的反向折叠问题,我们想要得到给定结构条件下RNA序列的条件分布。利用扩散模型的原理,我们让该条件分布经过前向过程转变为一个已知的先验分布(例如正态分布)。我们只需要学习对应的反向过程,就可以通过采样这个先验分布并去噪得到已知条件分布的采样(也即生成的RNA序列)


2)模型架构


在构建完RiboDiffusion扩散模型的大致框架后,作者们设计一个新颖的模型架构去学习这样一个去噪过程,该模型架构主要包括结构模块和序列模块。


结构模块是基于图神经网络GVP的网络结构,能够捕捉分子中的几何特征。我们可以将RNA分子结构表示为图,将每个核糖核苷酸视为图中的一个节点,每个节点与其的k近邻节点有边连接,点和边的特征则是由坐标关系计算得来的几何特征。该模块能够很好的提取大分子内部的几何特征


序列模块则是基于Transformer,能够捕捉序列内部的相关性。在以往的RNA设计方法中,固定RNA的某些核苷酸去优化其他位置的核苷酸,进而得到目标序列是一种常见的思路,但这种思路没有将RNA序列作为整体来考虑,无法捕捉到RNA序列内部整体的相关性。而利用Transformer可以很好的考虑序列内部相关性。



结果



1)方法性能


为了衡量RiboDiffusion产生的RNA序列的质量,研究者们采用了多种评测方式。


生成序列与真实序列的相似性。如果生成的序列与真实序列相似程度高,则该序列很可能能折叠成原有的三级结构。

RNA二级结构的相似性。RNA的二级结构表示了核糖核苷酸种碱基之间的相互作用,二级结构很大程度上决定了RNA能够折叠成的3D结构的形态,因此如果生成序列的二级结构与真实序列的相似,则该序列的质量较高。

RNA家族信息的相似性。如果生成序列和真实序列的RNA家族信息相似,也能够说明该序列具有较高的质量。


在这几个维度上,RiboDiffusion的生成结果都取得了优秀的结果,相较于已有方法均有明显的提升。


下表展示了在一种数据集分割上RiboDiffusion与其他方法在recovery rate指标上的表现,recovery rate体现了预测序列和真实序列的相似程度。RiboDiffusion在两种不同的数据集分割上平均优于次佳方法11%和16%。同时研究者们发现,基于三级结构的方法性能要普遍优于基于二级结构的方法,这是因为三级结构相较于二级结构包含更多的结构信息。



下表展示了RiboDiffusion与其他方法在F1 scoresuccess rate两种指标上的表现,这两种指标分别体现了预测序列和真实序列在RNA二级结构和家族信息上的相似程度。在二级结构和家族信息方面,RiboDiffusion在二级结构比对方面优于baseline方法,并且能够更有效地保留输入RNA中的家族信息。



2)折叠验证


除了量化指标以外,研究者们还利用了现有的RNA 3D结构预测工具进行折叠验证。将生成的RNA序列用结构预测工具预测出3D结构,再和原先的结构进行比较。



当然,这种验证方式也存在着一定的误差。考虑到结构预测工具本身的性能局限,预测工具得到的3D结构和真实的物理结构可能存在差别。


为了更细致的比较分析,研究者们对比了生成序列预测的结构,真实序列预测的结构和真实的结构。RiboDiffusion生成的序列与原始序列在具有一定差别的情况下仍然能够折叠成相近的三级结构,这说明该工具不仅能够产生合理的RNA序列,同时也能够生成更多具有相似结构的RNA序列




讨论——RNA序列设计的两种视角



根据具体生物应用的需求,RNA序列设计可以从两个不同的目标来考虑。


一方面,我们希望根据结构尽可能还原出RNA序列的原貌,这也是许多RNA序列设计方法的设计初衷。


另一方面,RNA序列到其结构的对应关系并非是简单直接的映射关系,某一种空间结构可能是由数个不同的RNA序列折叠而成,而同一个RNA序列也可能折叠成多种不同的构象,因此我们也可以设计出多种能折叠成目标结构的RNA序列,从而促进探索具有近似结构的多种RNA序列。


以上提到的两种视角分别要求RNA的序列设计强调还原度多样性。相比于“还原度”,“多样性”的实现要求设计方法不能将逆向折叠视为简单的映射关系,而应该将结构对应到一个序列的分布上,通过对该分布进行采样,可以获得具有多样性的一组RNA序列。而这正是RiboDiffusion对RNA序列设计的建模方式,相比于已有的方法,RiboDiffusion能够在另一个视角去探索RNA序列设计新的可能。


如果更进一步考虑“还原度”和“多样性”之间的联系,不难发现二者实际上是一种trade-off的关系,如果要增强模型产生的序列的多样性,则“还原度”势必会呈现下降的趋势。如果能够实现这样的trade-off,RNA序列设计方法就能够获得更强的泛用性。


RiboDiffusion深入探索了RNA逆向折叠问题中的trade-off,并通过扩散模型实现了还原度和多样性的灵活控制。通过将条件分布(结构信息)与非条件分布加权,从而调节结构条件在RNA序列设计过程中的权重,就能够实现对生成序列多样性的控制。



总结



RiboDiffusion这篇工作是使用生成式模型的一种有趣的思路——通过建模条件分布来将生成式过程应用到预测问题上。这样的好处也是显而易见的,我们可以构建更复杂的分布映射关系,从而得到更具有实际意义的机器学习模型。


而在生物学层面,RiboDiffusion的问题构建不仅考虑到了序列设计在序列层面的相似性,也考虑到了序列背后隐藏的结构信息的相似性。两者分别为RNA序列设计的明线和暗线,通过扩散模型的使用很好的交织在了一起。这也回归到了机器学习的本质:根据问题选择合适的方法,先找到钉子,再拿合适的锤子


如果您对我们的内容有任何疑问需要咨询或想要联系作者,可以备注“AIMS”联系课代表。也欢迎大家投稿!课代表微信:AimNina。转载请联系本公众号获得授权。


AIMShare
AlMShare(Al with Mission and Social responsibility)是以推动实现有社会使命的人工智能为目标的高质量知识分享平台。我们专注于AI交叉领域研究与人才培养,致力于打破该领域信息差。
 最新文章