连发两篇IF>33+Nature系列!复旦大学孙思琦:利用语言模型实现快速的蛋白质同源物检测和RNA三级结构预测

文摘   2024-12-13 18:06   上海  


来自复旦大学“生命健康"领域最新的科研进展。面向世界科技前沿,践行行业使命感,助力基础研究,推广科技成果。服务行业,造福社会!


2024年诺贝尔化学奖授予了Demis Hassabis 和 John M. Jumper,以表彰他们在蛋白质结构预测方面的贡献,他们开发的AlphaFold系统实现了对蛋白质三维结构的准确预测。


然而,准确预测另一种生物大分子——RNA的三维结构仍是一个尚未解决的挑战。确定RNA的三维结构对于理解其功能、指导靶向药物开发和合成生物学设计至关重要。但RNA的结构灵活性导致已通过实验确定的结构数据的稀缺,这使得计算预测工作变得复杂。


2024年11月21日(当地时间),复旦大学智能复杂体系基础理论与关键技术实验室孙思琦团队与香港中文大学、麻省理工学院以及智峪生科团队合作,于国际知名杂志Nature旗下方法学领域期刊Nature Methods(IF:36.1)发表题为“Accurate RNA 3D structure prediction using a language model-based deep learning approach”的论文。该研究提出一种创新的高精度端到端RNA三维结构预测方法——RhoFold+该方法基于RNA语言模型和多序列比对数据通过充分利用RNA海量序列数据资源实现了RNA三维结构的高效预测

RNA结构预测的挑战与机遇


RNA分子在分子生物学中扮演重要角色,在基因表达、蛋白质合成、细胞代谢和信号传导等生命活动中承担着多种关键功能。RNA结构对于理解其生物功能及相关药物开发至关重要但由于其结构灵活性实验测定三维结构具有挑战性。目前研究人员开发的计算方法各有局限:基于多序列比对(MSA)的方法(如AlphaFold3)准确度高但耗时较长,而基于单序列的方法(如DRFold)虽快速但准确性较低。


通过语言模型实现精确的RNA结构预测


RhoFold+通过整合近2400万条RNA序列数据预训练的语言模型RNA-FM与多个深度学习模块相结合能够从RNA序列直接预测其三维结构。RhoFold+的架构包含两个核心模块特征处理模块结构预测模块。特征处理模块利用RNA-FM生成的序列嵌入信息,并结合多序列比对(MSA)数据,提取序列中的进化保守信息。结构预测模块则通过几何感知注意力机制和生物学约束,在三维空间中精确预测RNA的全局构象。

图1. RhoFold+实现高精度RNA结构预测;a)在RNAP-Puzzles基准测试集上,RhoFold+的平均RMSD达到4Å,显著优于现有最佳方法。b)在CASP15测试集的评估中,RhoFold+的预测精度超越了包括AlphaFold3和基于专家知识的AIchemy_RNA2在内的其他方法


在国际RNA结构预测竞赛RNA-Puzzles中,RhoFold+展现出优异性能,其预测结构与实验结构的平均RMSD(均方根偏差)为4.02Å。除PZ24外,RhoFold+在所有测试目标上的表现均优于其他竞争方法(图1)。此外,RhoFold+具有显著的计算效率,能在约0.14秒内完成典型RNA-Puzzles目标的结构预测。在另一个权威竞赛CASP15中,RhoFold+的预测精度比第一名AIchemy_RNA高0.06Å,尽管后者依赖专家知识辅助。RhoFold+还显著超越了其前代模型RhoFold(AI组第一名),预测精度提升了1Å。


总结与展望


RhoFold+的成功开发不仅提高了RNA三维结构的预测准确性更通过其高效的处理速度为大规模RNA结构分析提供了可能对药物开发合成生物学和基因调控等领域具有重大意义。未来,研究团队还将进一步开发此类模型,以支持对复杂RNA,孤儿RNA和RNA复合物等结构预测。通过以上改进,RhoFold+将为RNA生物学领域带来更强大的计算工具加速从RNA结构到功能的机制研究


蛋白质同源物检测方法研究成果

蛋白质同源物检测是计算生物学中的一项基础工作,在蛋白质结构预测、生物分子功能分析、转录调控研究、系统发育重建以及生物标志物预测和药物发现等几乎所有生物序列相关研究中都发挥着重要作用。随着下一代测序技术的发展,生物序列数据库的规模不断扩大,传统的同源物检测方法在速度和灵敏度之间难以权衡,常常会遗漏远同源蛋白(即序列相似性较低但结构或功能相似的蛋白质)这些方法中的一部分会在第一阶段就过于激进地丢弃远同源序列剩下的方法则非常依赖于序列比对耗时费力

2024年8月9日(当地时间),复旦大学智能复杂体系基础理论与关键技术实验室孙思琦团队与香港中文大学、耶鲁大学合作,于国际知名杂志Nature旗下生物技术领域期刊Nature Biotechnology(IF:33.1)发表题为“Fast, sensitive detection of protein homologs using deep dense retrieval”的论文。该研究提出了一种全新的超高速高灵敏度的蛋白质同源物检测方法——Dense Homolog Retriever(DHR)。该方法利用蛋白质语言模型和密集检索技术,在不依赖序列比对的情况下实现了蛋白质远程同源物的快速检测显著提升了多序列比对(MSA)构建速度和蛋白质结构预测效率

通过语言模型实现快速的蛋白质同源物检测,类似于基于人类语言训练的ChatGPT,在大规模序列数据集上预训练的蛋白质语言模型展现出捕获进化信息的潜力。此外,蛋白质语言模型的另一个优势在于其无需比对的特性在处理序列时速度极快。研究团队基于蛋白质语言模型和密集检索(Dense Retrieval)开发了Dense Homolog Retriever(DHR)方法(图2)该系统利用先进的蛋白质语言模型将查询序列编码为嵌入式向量表示并通过向量之间的简单相似度度量对数据库进行搜索和同源性比较

图2. DHR用于快速检测远程同源物;a)与AF2使用的传统MSA构造方法相比,DHR实现了极快的同源物搜索和MSA构建。b)DHR构建的MSA能提升结构预测精度


实验表明DHR在远程同源物检测中表现出极高的速度和灵敏度。与传统方法相比,DHR的灵敏度提高了10%以上,在传统方法难以识别的超家族水平上,DHR的灵敏度更是提高了超过56%。同时,DHR的速度是传统方法(如PSI-BLAST和DIAMOND2)的22倍,是HMMER的28,700倍。当将DHR与JackHMMER串联以加速迭代MSA构建过程时DHR比传统方法快93倍并且构建的MSA与AlphaFold2生成的MSA高度一致。此外,DHR与JackHMMER生成了更多样化和全面的MSA,在与AlphaFold2生成的MSA合并时,平均能提高0.4Å的蛋白质预测精度。


总结和展望

DHR为蛋白质远程同源物鉴定这一项计算生物学的基本挑战提供了强大的解决方案有望成为蛋白质进化结构和功能分析的基础它也是语言模型在生物学中的一种强大应用。除了预测蛋白质结构和功能外,还可以进一步开发此类模型以解决序列分析中的其他重要计算挑战。研究团队后续将利用上述方法无需序列比对的特性和处理海量数据集的能力,开发更强大的工具。


注:文中插图源于   Nature Methods、Nature Biotechnology


原文链接:
https://doi.org/10.1038/s41592-024-02487-0
https://doi.org/10.1038/s41587-024-02353-6


来    源     复旦大学智能复杂体系基础理论与关键技术实验室

近期活

近期进展


● 全球乙肝患者新希望!NEJM|复旦大学张文宏:合作发布siRNA治疗乙肝临床试验结果,大幅提高乙肝表面抗原转阴率

● 免疫系统抵御精神疾病!Immunity|复旦大学于肖飞:揭示脑肠轴(IL-22介导)可减轻精神压力对机体的影响

● 为儿童 “护航”!JAMA系列|复旦大学阚海东:发现多场景空气净化干预可显著改善学龄儿童呼吸系统关键指标

● 胃癌诊断和治疗新靶点!Cell Discov|复旦大学张朝:发现除幽门螺杆菌外,咽峡炎链球菌也会促进胃癌的发生和发展

● 乳腺癌免疫治疗获新突破!JCI|复旦大学余科达:首次证实酪胺饮食或可增敏“腔面型”乳腺癌对免疫治疗的响应

● 协同抗肿瘤效应!Mol Cell|复旦大学周祥/郝茜:合作揭示p53促进肿瘤细胞铜死亡的现象及分子机理

● “牛皮癣”治疗新希望!JMC|复旦大学付伟:报道用于银屑病治疗的新型RORγt反向激动剂

● 分子水平扰动亦能引发心脏发育缺陷!JCI|复旦大学王红艳:合作报道microRNA调控心脏内皮细胞发育机制研究新进展

● AI大数据又添重要成果!Cell|复旦大学郁金泰/程炜/冯建峰/毛颖:全面绘制人类健康与疾病蛋白质组图谱

● 创新性治疗方法!Adv Mater|复旦大学沙先谊/赵静/王鹤:仿生纳米马达用于缺血性脑卒中的神经保护治疗


关于光华


复旦大学光华生命健康校友会”是复旦大学校友总会正式注册成立的分支机构,是跨学科、跨界别、跨地域,覆盖生命健康领域的公益性行业校友组织。

校友会以推动中国生命健康领域的“科技创新”,提升人类健康为使命,以促进“产学研医用”的融合创新与资源整合为目标以加强母校与校友联动,增进校友互助协作,发掘科技创新成果,助力母校发展、助力校友成功、助力行业进步、造福社会大众为宗旨

校友会立足上海、辐射全国,会员以复旦大学生命科学、医学、药学、附属医院校友为基础,同时覆盖化学、材料、信息、大数据、金融、管理等多学科泛生命健康相关院系,涵盖产业、学术、科研、医疗、政府、资本等“产学研医政资”的优秀校友。


欢迎“生命健康”领域校友,加入光华“宝藏”校友会

复旦大学校友会光华生命健康分会
“复旦大学校友总会光华生命健康分会”新媒体平台,传播生命健康领域“产研医”的最新知识与进展,促进产业界、科研界、医疗界的跨界交流与合作。助力母校发展、助力校友成功、促进行业发展、造福社会大众。
 最新文章