港中文李煜团队开发基于蛋白质语言模型和向量比对的超快速同源序列检索方法DHR

2024-08-10 20:34   日本  
















研究背景
      蛋白质同源序列检测是计算生物学中几乎所有序列相关研究的基础,也常常是进化分析、生物标志物预测和药物发现的首要步骤。随着下一代测序技术给生物序列数据库带来显著数量增长,传统的蛋白质同源序列搜索方法难以平衡速度和灵敏度,往往难以发现低相似度同源,要么在过滤阶段就发生了丢失,要么就依赖耗时的序列对齐。
      为处理海量的序列数据,基于蛋白质语言模型和向量比对,香港中文大学李煜团队研发了一种无需对齐,超快速且高度灵敏的方法DHR(Dense Homolog Retrieval),用于在海量数据中检测低相似度同源序列,并提高我们对蛋白质进化、结构和功能的认识。

研究结果与展望

      就像ChatGPT能够有效处理人类语言一样,在大量序列数据集上预训练的蛋白质语言模型也拥有捕捉进化信息的能力,并且无需进行耗时的动态规划对齐便能够超快速地处理序列。香港中文大学李煜团队开发的DHR方法(图1)利用微调的蛋白质语言模型对查询序列和数据库进行编码,通过对比学习进行训练最后通过对嵌入向量表示进行相似度排序来进行同源性比对。DHR构建的结果相比传统方法(如PSI-BLAST)能够大幅提速22倍以上,相比HMMER更是可以提速28,700倍,同时灵敏度也能显著提升约10%,能检测到其他方法遗漏的新的低相似度同源蛋白。

图1. 无需进行序列对齐,DHR可超快速且灵敏地能检测到低相似度同源蛋白并帮助我们理解蛋白质的进化、结构和功能。

      当其丰富的结果作为MSA(对序列对齐)用于下游任务时,我们发现它与金标准工具的结果高度相似并且有同等的下游任务效果,而构建时长只需要1/93。这是DHR作为单独工具的强大之处。此外,DHR还能与别的方法工具互补结合以创建更多样化和全面的MSA,更进一步帮助下游的任务。以蛋白质结构预测作为例子,将基于DHR构建的MSA和AlphaFold2原本使用的MSA进行融合,我们可以将AlphaFold2在CASP13/14/15数据集上蛋白质结构预测精度提升0.4 Å RMSD。这说明了DHR确实可以找到其他方法遗漏的新的低相似度同源蛋白并且帮助我们理解蛋白质的进化、结构和功能。


作者简介

      香港中文大学李煜团队致力于开发新的人工智能方法以解决生物和医药领域内的核心计算和数据处理问题,进而推动生物基础研究并加速医药开发(网页:www.liyu95.com)。李煜教授,耶鲁大学的Mark Gerstein教授和复旦大学的孙思琦教授为本研究的共同通讯作者。李煜团队的博士生洪亮,胡智航以及复旦大学的孙思琦教授和耶鲁大学博士生唐相如为共同第一作者。

点击蓝字 · 关注我们

版权声明:本文内容由Nature Biotechnology 刊发文章的原文作者提供,本文所表述的观点均为原文作者的观点。中文内容仅供参考, 一切内容以英文原版为准,欢迎转发至朋友圈。未经允许,请勿转载。未经授权的翻译是侵权行为,版权方将保留追究法律责任的权利。

© 2024 Springer Nature Limited. All Rights Reserved.


欢迎点赞,在看+转发!

NBiotechnology
Nature Biotechnology 《自然生物技术》期刊致力于服务科学界,探索尖端科技与生命科学的交汇之处。 我们将涵盖生物学, 生物医学, 农业和环境领域,为相关最新研究成果的发布提供平台。《自然生物技术》期刊成立于1996年。
 最新文章