Nature子刊：李煜/尹鹏/王晟/孙思琦等开发RNA语言模型，快速准确预测RNA三维结构

学术 2024-12-08 10:03 上海

撰文丨王聪

编辑丨王多鱼

排版丨水成文

2024年诺贝尔化学奖授予了 Demis Hassabis 和 John M. Jumper，以表彰他们在“蛋白质结构预测”方面的贡献，他们开发的AlphaFold系统实现了对蛋白质三维结构的准确预测。

然而，准确预测另一种生物大分子——RNA的三维结构，仍是一个尚未解决的挑战。确定RNA的三维结构对于理解其功能、指导靶向药物开发和合成生物学设计至关重要。但RNA的结构灵活性导致已通过实验确定的结构数据的稀缺，这使得计算预测工作变得复杂。

近日，香港中文大学李煜、哈佛大学James Collins、尹鹏、智峪生科王晟、复旦大学孙思琦等人在 Nature 子刊 Nature Methods 上发表了题为：Accurate RNA 3D structure prediction using a language model-based deep learning approach 的研究论文。

该研究使用RNA语言模型，实现准确、快速的RNA三维结构的从头预测，在建模单链RNA方面显示了很强的准确性，并在不同RNA家族和类型中表现出良好的泛化能力，同时还能够捕捉局部特征（例如螺旋间角和二级结构）。

RNA在“中心法则”中发挥着关键的承上启下的作用。RNA结构如何影响基因调控和功能一直是研究的重点。聚焦于RNA靶向的研究表明，它可以作为药物开发的重要靶点和有用的合成生物学设计元件。

超过85%的人类基因组被转录为RNA，但只有3%的基因组编码蛋白质，这凸显出转录的RNA中有相当一部分功能和结构是未知的。在许多情况下，获得高分辨率的结构信息可以使我们对所关注的RNA分子有具预测性的理解。

RNA分子的构象灵活性使其三维（3D）结构的实验测定具有挑战性。截至2023年12月，RNA结构占蛋白质数据库（PDB）中约214000个结构的不到1.0%，而含RNA的复合物结构仅占2.1%。

尽管X射线晶体学、核磁共振波谱学和冷冻电镜技术取得了进展，但这些低通量技术受到专业要求的限制。利用RNA序列数据的计算方法已成为RNA三维结构预测的补充方法。这些方法主要分为两类：基于模板的建模（例如ModeRNA和RNAbuilder）和从头预测（例如FARFAR2、3dRNA和SimRNA），前者受模板库的限制，后者预测性更高，但由于大规模抽样的要求，计算量更大。

基于深度学习的方法，已被应用于预测蛋白质三维结构、RNA二级结构，以及对其他方法生成的RNA结构进行评分。由于RNA三维结构数据的匮乏，以往的RNA三维结构预测方法主要集中在基于模板或基于能量的抽样技术上。尽管数据匮乏，AlphaFold2在蛋白质结构预测方面的成功推动了从头深度学习方法在RNA三维结构预测方面的发展。这些新方法通常从单个输入序列开始，然后从它构建多序列比对（MSA），然后用于构建三维结构。

多序列比对（MSA）已被证明为蛋白质建模提供了额外信息，这可能对RNA也是如此。例如，DeepFoldRNA和trRosettaRNA利用transformer网络将构建的MSA和预测的二级结构转换为各种一维和二维的距离、方向和扭转角度。然后，这些预测的几何形状被用作利用能量最小化来预测RNA三维结构的约束，并将抽样和评分过程整合到其框架中。包括E2Efold-3D和RoseTTAFoldNA在内的几个模型采用了完全可区分的端到端管线，利用构建的MSA和二级结构约束直接预测全原子3D模型。

AlphaFold2的继承者AlphaFold3也能够直接从输入序列中预测RNA的3D结构，而在预测过程中仍然依赖于其构建的MSA。与其他方法相比，AlphaFold3采用了基于扩散（diffusion-based）的过程来预测原始原子坐标，取代了AlphaFold2结构模块对氨基酸特定框架和侧链扭转角的操作。

虽然这些基于MSA的方法能够准确预测RNA的3D结构，但它们需要在大型序列数据库中进行广泛的搜索，这可能很耗时。相比之下，基于单一序列（包括DRFold）的模型不使用MSA，因此不需要在大型序列数据库中进行大量搜索，相反，DRFold仅依靠预测的二级结构来预测三维结构。这种方法速度更快，但通常与基于MSA的方法相比准确性较低。下一代深度学习方法可能更好地利用基于MSA的方法，从而提高预测的速度和准确性。

在这项新研究中，研究团队提出了一种基于语言模型的深度学习方法——RhoFold+，能够从序列信息中准确且快速从头预测单链RNA的三维结构。

通过整合预训练的约2370万个RNA序列的RNA语言模型，并利用技术解决数据匮乏问题，RhoFold+提供了一个完全自动化的RNA三维结构预测端到端管线。

对RNA-Puzzles（一个评估RNA三维结构预测的国际合作项目）和CASP15（蛋白质结构预测比赛）天然RNA靶点的回顾性评估表明，RhoFold+优于包括人类专家组在内的现有方法。通过跨RNA家族和类型评估以及时间限制的基准测试，进一步验证了RhoFold+的性能和普遍适用性。此外，RhoFold+还能预测RNA二级结构和螺旋间角，提供了可验证的特征，拓宽了其在RNA结构和功能研究中的适用性。

RhoFold+的架构和用于性能评估的任务

RhoFold+与它的前身RhoFold相比，实现了完全自动化和差异化的改进，利用MSA和其他特性的改进集成来提高性能，其主要重点是确定单链RNA的结构，因为单链RNA与其他分子的相互作用有限。解决这一挑战可以帮助我们更好地理解RNA生物学，并为解决更复杂的结构问题提供起点。

论文链接：

https://www.nature.com/articles/s41592-024-02487-0

设置星标，不错过精彩推文

开放转载

欢迎转发到朋友圈和微信群

微信加群

为促进前沿研究的传播和交流，我们组建了多个专业交流群，长按下方二维码，即可添加小编微信进群，由于申请人数较多，添加微信时请备注：学校/专业/姓名，如果是PI/教授，还请注明。

点在看，传递你的品味

生物世界

生物世界重点关注最具转化应用前景和价值的生命科学前沿研究，深度访谈和报道生命科学领域前沿学者及创新企业

最新文章

Nature子刊：施一公团队解析抗癌临床药物抑制γ-分泌酶的分子基础

Science：施一公团队解析γ-分泌酶识别和连续切割淀粉样蛋白的分子机制

Cell Stem Cell：上海科技大学向阳飞团队构建首个自组织的人类神经肌肉骨骼三组织类器官

这位勇敢的上海医生，首次使用通用型CAR-T治疗自身免疫病，当选Nature年度十大人物

Nature子刊：程炜/郁金泰/许予明团队发现57岁是人类大脑衰老的第一个高峰

BMJ：华人学者研究发现，多吃黑巧克力，或可降低糖尿病风险

Cell子刊上新：张宇琪/顾臻/樊春海/陈波团队开发工程化图钉针，增强针灸疗法

人到老年患癌风险反而降低？中国博后一作Nature论文揭开衰老的双刃剑作用

阵容空前！植物发育生物学50年：希望与挑战线上研讨会丨Cell Press Live 2024

为何替尔泊肽比司美格鲁肽减肥效果好？Cell子刊揭示GIP受体的减肥新机制

AI仍需努力！徐华强团队证实，AlphaFold3预测GPCR-配体复合物结构准确性不足

Nature子刊：李煜/尹鹏/王晟/孙思琦等开发RNA语言模型，快速准确预测RNA三维结构

Immunity：复旦大学于肖飞团队揭示IL-22介导的脑肠轴可减轻精神压力对机体的影响

Cell子刊：赵英明/黄河团队鉴定乳酰辅酶A合成酶，并揭示其在胶质母细胞瘤发生中的作用

登上NEJM：侯金林/张文宏等发布siRNA治疗乙肝临床试验结果，大幅提高乙肝表面抗原转阴率

免费注册丨从实验室到临床：细胞与基因治疗的临床试验及转化-海报征集中

Nature子刊：胡全银团队开发基于血小板的靶向蛋白降解技术——DePLT

Cancer Cell：李贵登团队揭示甘露糖代谢重塑T细胞分化，增强抗肿瘤免疫

1000万奖金！薛其坤、谢晓亮获2024腾冲科学大奖，卢煜明、张锋为首届获奖者

Cell重磅！蛋白质“堵车”，是导致慢性疾病的罪魁祸首！

专访陆林院士：关于推进致幻剂在脑疾病治疗中合理使用的思考

浙江大学张进团队解析iPSC-NK细胞分化中转录因子的重要作用，为合成免疫细胞奠定基础

人类历史上首次看清小鼠基因组DNA全貌！西湖大学俞晓春团队Science论文解析迄今最完整小鼠基因组图谱

最新研究显示，喜欢在聊天中使用表情包的人，情商更高

Nature Methods：广州实验室苗智超团队发布系统化的RNA结构预测评估研究成果

Nature重磅：揭开奶茶等高果糖饮食的促癌机制，肝脏将果糖代谢为脂质来“喂养”肿瘤

Science大地震！天才少年一周三篇Science，打破百年规则

Cell子刊：这种来自橄榄的天然物质能够发挥抗衰老作用

Nature：上海交大洪登礼团队揭示胚胎发育组织维持干细胞基因组稳定性及发育疾病起源的机制

Nature Aging：浙江大学王本团队提出抗衰新策略，设计嵌合多肽诱导免疫细胞清除衰老细胞

Nature子刊：上海科技大学钱学骏团队开发多模态AI模型，实现多层级乳腺癌风险预测

国内首例！邦耀生物基因治疗的首例外籍镰刀型细胞贫血病患者顺利出院

Nature Aging：杭州师范大学丛羽生团队揭示内源性逆转录病毒的失调触发衰老

除了幽门螺杆菌，我国学者发现，这种细菌也会促进胃癌的发生和发展

Nature子刊：借助AI，郭宇/饶子和/赵磊团队开发基于铁蛋白纳米颗粒的新型狂犬疫苗

类器官之父最新Cell：成功创建包含所有关键胰腺细胞的新型类器官

郑州大学魏建伟/孙婷综述癌症液体活检的现状、挑战和未来前景

Nature子刊：傅阳心/彭华团队开发双功能抗癌融合蛋白，在清除Treg的同时激活CD8+T细胞

Nature子刊：叶海峰团队开发新型光遗传学技术，实现光照减肥！

华人学者研究发现，适量饮酒可降低关节炎风险，而喝茶和咖啡或增加风险

如虎添翼！西湖大学开发全新递送系统，让CRISPR基因编辑更高效

Nature Medicine：刺激下丘脑，瘫痪病人恢复行走能力

Nature Methods：郑明月团队开发生成式AI模型，实现蛋白质-配体复合物结构的精准预测

Nature Aging：我国学者揭示老年人易患癌症的新机制

连发四篇Nature子刊，湖南大学宋国胜/张晓兵团队在分子影像研究中取得一系列重要进展

午睡半小时，大脑更强大！Science论文揭开睡眠增强大脑功能及表现的关键机制

Cell重磅：揭开人类身高的遗传模式

Nature子刊：崔庆华团队开发新型AI算法，实现人类蛋白质重要性的预测分析

重磅发现：人类心脏拥有巨大的再生潜能，存在着启动自我修复的密钥

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉