DRUGAI
今天为大家介绍的是来自加州大学伯克利分校IGI机构Jamie H. D. Cate团队的一篇论文。结构化RNA是许多核心生物过程的关键,包括基因表达和催化反应。由于缺乏与生物体表型相关的高质量参考数据,尚无法预测RNA的结构,这些数据本可用于指导RNA的功能。作者介绍了GARNET,这是一个新的RNA结构和功能分析数据库,它基于基因组分类数据库(GTDB)。GARNET将RNA序列与GTDB参考生物的实验和预测最适生长温度相连接。利用GARNET,作者开发了考虑序列和结构的RNA生成模型,采用重叠三联体标记法为类似GPT的模型提供了最佳编码。通过利用GARNET中的高温菌RNA及这些RNA生成模型,作者识别出了核糖体RNA中的突变,这些突变使大肠杆菌核糖体具有更高的热稳定性。本文介绍的基于GTDB的数据和深度学习模型为理解RNA序列、结构与功能之间的关系提供了基础。
RNA在生物学中承担从基因表达到催化等多种基本功能,并能形成复杂的三维结构以执行这些功能。尽管蛋白质结构预测取得了显著进展,RNA结构的深度学习预测仍受到高质量序列、结构及表型数据库不足的限制。作者基于基因组分类数据库构建了GARNET数据库,将RNA序列与参考生物的最适生长温度关联起来。利用GARNET,作者开发了结合序列和结构信息的RNA生成模型,并通过这些模型在大肠杆菌核糖体RNA中识别出提高热稳定性的突变。作者的研究为理解RNA的序列、结构与功能之间的关系提供了坚实的基础。
构建基于GTDB基因组的RNA序列数据集
图 1
为了为GARNET数据库生成多样且低冗余的RNA序列家族比对,作者利用了GTDB中的基因组数据,涵盖了80,789个细菌和4,416个古菌物种群集(图1a)。首先,使用Infernal和相应的Rfam协变模型(CMs)在每个GTDB物种参考基因组中搜索23S、16S和5S rRNA序列,筛选出e值小于1e-5且对齐覆盖率至少85%的最佳命中。如果未找到符合条件的序列,则在各物种群集中的非代表性基因组中继续搜索。对于23S rRNA,作者共识别出32,317个物种的序列(图1b)。
此外,作者针对228个可能存在于细菌或古菌且长度超过100个核苷酸的RNA家族进行了搜索,最终获得了714,662条序列,其中七大类家族占比达58%(图1c)。通过与现有最先进的数据集在不同序列同一性阈值下进行比较,评估了GTDB衍生数据集的序列多样性。结果显示,除16S rRNA和23S rRNA外,GTDB衍生的比对在序列多样性上显著优于现有数据集(见图1d, e)。这些结果凸显了使用GTDB作为框架构建全面RNA序列数据集的优势。
将最适生长温度映射到GTDB参考基因组
利用GTDB的分类框架,作者将GTDB基因组中的RNA序列与表型数据关联,特别是最适生长温度(OGT)。由于TEMPURA和Gosha数据库仅包含15%的GTDB参考物种的实验OGT,作者采用了TOME方法来推断所有GTDB参考基因组的OGT。
图 2
验证结果显示,TOME预测的OGT与TEMPURA和Gosha数据库中未用于训练的物种数据高度相关(图2a)。此外,通过分析每个GTDB参考基因组的分离来源元数据,作者进一步验证了TOME的预测准确性,发现具有明确来源信息的元数据与TEMPURA和Gosha的OGT一致(图2b)。有趣的是,TOME在一些古菌和细菌类别中预测了超嗜热物种,这些类别在TEMPURA和Gosha数据库中尚未记录(图2c)。这些结果为推断GTDB生物的RNA和蛋白质在最佳功能下的生理温度提供了丰富的资源。最终,作者将GTDB衍生的RNA序列与TOME预测的OGT结合,创建了GARNET(Gtdb Acquired RNa with Environmental Temperatures)数据库,用于训练新的RNA深度学习模型。
基于序列和结构的23S rRNA生成模型
图 3
作者开发了一个结合结构信息的图神经网络(GNN)模型,用于23S rRNA的生成(图3a, b)。该模型利用GTDB中的序列多样性和大核糖体(50S)亚基的高分辨率结构,通过输入代表性结构的距离矩阵,并在对齐的多序列比对(MSA)上进行下一个标记预测训练。通过选择k=50最近邻,模型在规模和困惑度方面表现最佳(图3c)。在模型输入分析中,距离矩阵被转换为二进制接触图,模型能够采样到约12 Å以内的所有接触以及部分24 Å的长距离接触(图3d-f)。
针对RNA改进的GPT语言模型
图 4
作者开发了一种改进的GPT语言模型(图4a),专门用于RNA序列的训练。使用GARNET数据库中的23S核糖体RNA序列,作者测试了不同的核苷酸标记化方法。结果显示,采用三核苷酸为一个标记且每个标记滑动一个核苷酸的方式,模型性能显著优于单个或成对核苷酸的标记化方法(图4b)。此外,使用旋转位置嵌入(RoPE)可以支持成对核苷酸编码的训练,但相比三核苷酸编码,成对编码的模型需要更慢的学习率且验证困惑度较高。
作者进一步训练了一个更通用的RNA语言模型,涵盖了GARNET中的231个RNA家族序列(图4c)。相比仅使用23S rRNA序列训练的模型,这些通用模型具有更低的验证困惑度,并且能够生成与完整的23S和16S rRNA对齐的序列(图4d)。这些改进表明,基于三核苷酸标记化的GPT模型在RNA序列生成和对齐方面具有更优的性能,为RNA结构预测和功能研究提供了有力工具。
用高温菌序列微调RNA生成模型
由于目前无法用其他生物的耐热23S rRNA替换大肠杆菌的23S rRNA,作者尝试通过微调GNN和RNA语言模型(LM),利用高温细菌和古菌的23S rRNA序列,以识别增强大肠杆菌核糖体热稳定性的突变。具体步骤如下:
图 5
模型微调与序列生成:
作者使用高温菌的23S rRNA序列对预训练的GNN和RNA LMs模型进行微调。然后,利用这些微调后的模型生成以大肠杆菌23S rRNA5’端为种子的1000条RNA序列,并应用不同的“温度”因子调节生成概率(图5a-d)。
序列质量评估:
相似性评分:通过与Rfam的协变模型(RF02451)比较,GNN和RNA LMs生成的序列在“23S相似性”上与天然序列保持一致。GNN生成的序列在较高生成温度下得分有所下降,这可能由于局部序列段的缺失;而RNA LMs生成的序列在所有温度下得分较高,但在低温下可能出现重复序列,导致得分降低。
二级结构保留:天然23S rRNA通常含有少量非典型碱基对。生成的序列在适当的生成温度下也保留了相似比例的非典型碱基对(图5e-h)。具体来说,预训练的RNA LMs在生成温度≤0.9时保持了类似天然序列的非典型碱基对比例,而微调后的模型在温度>0.5时插入了更多非典型碱基对。
这些结果展示了通过高温菌序列微调RNA生成模型,可以有效生成具有天然23S rRNA特性的序列,为RNA结构预测和功能改造提供了新的方法和资源。
识别稳定大肠杆菌核糖体的突变
图 6
为了识别可能赋予大肠杆菌23S rRNA热稳定性的突变,作者分析了从GNN和RNA语言模型预训练(PT)及微调(FT)模型生成的23S rRNA序列,使用生成温度T = 0.5(图6a)。通过比较FT生成序列与PT生成序列的核苷酸频率分布的Jensen-Shannon散度(JSD),作者确定了在热稳定性方面可能重要的突变位点。结果显示,深度学习模型预测的高JSD位点与自然序列预测的位点重叠较少,而GNN和RNA LMs模型之间有较大重叠。
为了进一步验证这些突变,采用ΔΔlogP方法比较FT模型相对于PT模型生成突变序列的概率,并归一化到野生型(WT)序列(图6b)。结果表明,U2554C突变在FT模型中比85.4%(23S LM)、72.3%(231-RNA LM)和57.4%(GNN模型)的单点突变更具支持性,符合文献中该突变提高核糖体热稳定性的发现。
测试预测的23S rRNA突变以稳定核糖体
作者重点测试了H89区域的U2477C突变,该突变位于23S rRNA的H89茎环末端,邻近肽基转移酶中心(图6d)。实验结果显示,带有U2477C突变的50S亚基在65°C预孵育后,其活性约为WT的两倍,表明该突变显著提升了核糖体的热稳定性(图6f)。此外,结合H92区域的U2554C-U2555C双突变后,50S亚基的热稳定性进一步提高,活性达到WT的三倍以上(图6g)。作者还测试了其他区域的突变,如H68和H81/H82。H68区域的突变组(H68mut)显著提升了核糖体的稳定性(图6h),而H81/H82区域的突变组(H81/H82mut)则未见显著效果,保持了与WT相当的活性和热稳定性(图6i)。
综上所述,通过结合JSD排序和模型概率分析,GNN及RNA LM模型成功预测并验证了多个能够提升大肠杆菌50S核糖体热稳定性的23S rRNA突变位点。这些发现为未来的核糖体工程和定向进化研究提供了重要依据。
讨论
本文展示了两种深度学习框架——图神经网络和生成型RNA语言模型,分析他们在识别核糖体功能性RNA突变中的应用。由于RNA序列和结构数据有限,RNA结构预测和设计滞后于蛋白质研究。为解决这一问题,作者创建了GARNET数据库,涵盖更多细菌和古菌的RNA序列,并通过机器学习方法为每个基因组分配最适生长温度。利用这些数据,模型成功识别了增强大肠杆菌核糖体热稳定性的突变,这些突变与自然序列分析结果不同,表明模型提取了新的信息。此外,采用重叠三联体编码的RNA语言模型在性能上优于其他方法。未来工作将包括探索多突变组合效应、扩展数据库以及结合更多数据类型,以进一步提升RNA功能工程的能力。
编译|于洲
审稿|王梓旭
参考资料
Shulgina, Y., Trinidad, M.I., Langeberg, C.J. et al. RNA language models predict mutations that improve RNA function. Nat Commun 15, 10627 (2024).