利用大语言模型比对蛋白序列是否可以更新宏基因组研究中的序列比对过程?

文摘   2024-09-28 16:49   江苏  

DOI:10.1038/s41587-024-02353-6

摘要


在大型数据库中使用传统方法(如蛋白质序列比较)识别蛋白质同源物通常会遗漏远源同源物。在这里,我们提供了一种超快速、高灵敏度的方法——密集同源物检索器(Dense Homolog Retriever, DHR),基于蛋白质语言模型和密集检索技术来检测同源物。它的双编码器架构为同一蛋白质序列生成不同的嵌入,并通过对比较这些表示来轻松定位同源物。其无需对齐的特性提高了速度,蛋白质语言模型在DHR嵌入中结合了丰富的进化和结构信息。与以前的方法相比,DHR在灵敏度上提高了超过10%,在超家族级别对于难以使用基于对齐的方法识别的样本,灵敏度提高了超过56%。它比传统方法如PSI-BLAST和DIAMOND快22倍以上,比HMMER快高达28,700倍。DHR独有的新远源同源物对于揭示已知蛋白质之间的联系以及提高我们对蛋白质进化、结构和功能的认识非常有用。


蛋白质同源物检测是计算生物学中一个关键和基础的组成部分,对于几乎所有与生物序列相关的研究至关重要,例如蛋白质结构预测、生物分子功能分析、转录调控研究、新酶的发现和系统发育重建。在生物序列数据库中,同源物代表具有相似结构和功能的进化相关蛋白质序列。因此,检测同源物已被广泛用作进化分析的首要步骤,并有利于药物发现、疾病诊断、生物标志物预测和蛋白质结构预测。在AlphaFold2(AF2)1发表之前,蛋白质同源物鉴定和线程被认为是预测蛋白质三维(3D)结构的有效方法。尽管AF2的深度学习功能令人印象深刻,但人们已经意识到蛋白质同源物和多序列比对(MSAs)在AF2框架中的重要性,这一点从CASP15(蛋白质结构预测的关键评估)11比赛中可以看出。



结果


1. DHR算法核心

双编码器架构:DHR采用了一个查询编码器和一个数据库编码器,分别对输入的查询序列和候选序列进行编码。这种设计使得同一蛋白质序列可以根据其作为查询还是候选而生成不同的嵌入表示。


蛋白质语言模型:DHR利用预训练的蛋白质语言模型(如ESM)来初始化编码器,从而在嵌入中隐式地包含了丰富的进化和结构信息。


对比学习:通过对比学习策略,DHR学会将同源对拉近,而将非同源对推远,从而增强了模型的判别能力。


无需比对的相似性计算:DHR通过简单的向量内积来计算序列相似性,避免了耗时的序列比对步骤。


2. DHR的性能优势

超快速度DHR通过避免传统方法中需要的大量成对序列比对,显著提高了搜索速度。与传统的BLAST方法相比,DHR快22倍以上,与HMMER相比则快达28,700倍以上。


高灵敏度DHR在检测同源物方面表现出超过10%的灵敏度提升,特别是在难以通过基于对齐的方法识别的超家族级别的样本上,灵敏度提升超过56%。


无需对齐作为一种无需对齐的方法,DHR不受已知家族的限制,也不要求序列长度相似,使其在序列搜索和多序列比对(MSA)构建中具有广泛的适用性。


丰富的信息嵌入DHR利用蛋白质语言模型来编码查询序列和数据库,嵌入中包含了丰富的进化和结构信息,有助于更准确地检索同源物。


3. DHR的工作流程

预训练蛋白质语言模型DHR使用大型蛋白质语言模型(如ESM-1b)对大量蛋白质序列进行预训练,以学习序列特征和蛋白质家族间的复杂关系。


双编码器架构DHR采用双编码器架构,包括查询编码器和数据库编码器,分别对查询序列和数据库中的序列进行编码,生成固定维度的嵌入向量。


对比学习通过对比学习策略,模型学习将正样本(同源序列对)的嵌入向量靠近,而将负样本(非同源序列对)的嵌入向量推远,以此增强模型对同源序列的识别能力。


离线推理在离线推理阶段,使用数据库编码器将数据库中的所有序列转换为嵌入向量,并保存在内存中。这一步骤虽然耗时,但只需执行一次。


在线检索对于给定的查询序列,使用查询编码器生成嵌入向量,然后与数据库中存储的嵌入向量进行比较,通过计算相似度得分(如点积)来检索最相似的序列。


使用FAISS进行高效检索利用FAISS(Facebook AI Similarity Search)库进行高效的相似性搜索,快速从大规模数据库中检索出与查询序列最相似的前K个序列。


构建多序列比对(MSA)使用检索到的同源序列作为输入,通过JackHMMER等工具构建MSA,为后续的蛋白质结构预测和其他分析任务提供基础。


下游应用DHR生成的MSA可以直接用于AlphaFold2等蛋白质结构预测工具,提高预测的准确性和效率。


4. DHR的优势与局限性

优势:

        速度快DHR通过避免序列比对,实现了前所未有的检索速度。


        高灵敏度尤其在检测远缘同源体方面表现出色。


        结构感知尽管只基于序列,但能捕捉到丰富的结构信息。


        可扩展性可以轻松应用于大规模数据集。


        多任务适用不仅适用于同源体检测,还能提升多个下游任务的性能。


局限性:

        长序列处理对于超过1000个氨基酸的序列,性能可能会下降。


        内存需求需要较大内存来存储预计算的嵌入向量。


        模型依赖性能在一定程度上依赖于预训练语言模型的质量。





根际互作生物学研究室 简介

根际互作生物学研究室是沈其荣院士土壤微生物与有机肥团队下的一个关注于根际互作的研究小组。本小组由袁军教授带领,主要关注:1.植物和微生物互作在抗病过程中的作用;2 环境微生物大数据整合研究;3 环境代谢组及其与微生物过程研究体系开发和应用。团队在过去三年中在 Nature Communications,ISME J,Microbiome,SCLS,New Phytologist,iMeta,Fundamental Research, PCE,SBB,JAFC(封面),Horticulture Research,SEL(封面),BMC plant biology等期刊上发表了多篇文章。欢迎关注 微生信生物 公众号对本研究小组进行了解。


撰写:赵向阳

修改:文涛

排版:刘泽鹏

审核:袁军

团队工作及其成果 (点击查看)

了解 交流 合作



    • 小组负责人邮箱 袁军:junyuan@njau.edu.cn;

    • 小组成员文涛:taowen@njau.edu.cn等

    • 团队公众号:微生信生物 添加主编微信,或者后台留言。


    • 加主编微信 加入群聊

      目前营销人员过多,为了维护微生信生物3年来维护的超5500人群聊,目前更新进群要求:

      • 1.仅限相关专业或研究方向人员添加,必须实名,不实名则默认忽略。

      • 2.非相关专业的其他人员及推广宣传人员禁止添加。

      • 3.添加主编微信需和简单聊一聊专业相关问题,等待主编判断后,可拉群。

      • 微生信生物VIP微信群不受限制,给微生信生物供稿一次即可加入(群里发送推文代码+高效协助解决推文运行等问题+日常问题咨询回复)。

    • 团队关注

    • 团队文章成果

    • 团队成果-EasyStat专题

    • ggClusterNet专题

    • 袁老师小小组

根际互作生物学研究室
根际互作生物学研究室是沈其荣院士土壤微生物与有机肥团队下的一个关注于根际互作的研究小组。本小组由袁军教授带领,主要关注:1.植物和微生物互作在抗病过程中的作用;2 环境微生物大数据整合研究;3 环境代谢组及其与微生物过程研究体系开发和应用。