还在用BLAST序列比对检索数据库?快试试基于蛋白结构比对的检索工具Foldseek

文摘   科技   2024-04-07 21:01   陕西  

关注我们并在后台回复 “进群”,即可加入农心生信工作室学习交流群,群内不定时分享源代码及示例文件,并在线交流答疑。我们在等你!

由于微信改版,乱序推送,很多朋友反映收不到公众号推文。快跟着图片步骤,将公众号设为星标,不错过每一条精彩内容!

写在前面

AlphaFold出现之前,预测蛋白质结构是一项非常耗时、困难且复杂的任务,需要耗费许多时间和大量的实验数据。而现在,AlphaFold可以在数分钟内预测蛋白质的结构,这大大加速了生物学研究的进程。最直观的一个改变,就是随着AlphaFold的出现,可公开获取的蛋白质结构数据库得到快速发展。可是,随之而来也出现了新的问题,如何高效、快速、准确地检索这类数据库,成为新的行业瓶颈
2023年5月发表在Nature BiotechnologyFast and accurate protein structure search with Foldseek 一文似乎很好地突破了这个瓶颈,作者开发出来了高敏感度和极快速的检索工具Foldseek,该工具可以将查询蛋白质的结构与数据库进行比对。

什么是Foldseek

蛋白质注释和分析中使用最广泛的方法是基于序列相似性搜索,如BLAST。其目的是找到同源序列,从这些同源序列中可以推断出query序列的性质,如分子和细胞功能以及结构。尽管如此,仍有许多蛋白质无法进行注释,因为仅从蛋白的一级序列特征,就判断出蛋白间的进化关系,并不是一件容易的事情
目前来看,Foldseek似乎是一个非常可行和高效的解决方案。它拥有高效、快速的类BLAST功能,但同时,它不再受到一级序列的限制,它可以通过蛋白的3D结构信息进行检索比对,这极大提高了相似性搜索的敏感性。在这个3D蛋白结构数据库得到飞速扩展的时代,像Foldseek这种基于结构相似性进行同源蛋白检索的工具,很可能替换传统的如BLAST这类基于序列相似搜索的工具。

如何使用

Foldseek有本地版以及一个网络服务器,用于多数据库搜索,包括AlphaFoldDB (version 4: Proteomes and Swiss-Prot),AlphaFoldDB (version 4) ,CATH25 clustered at 50% sequence identity, ESM Atlas-HQ and Protein Data Bank (PDB)。
这里我们介绍用于多数据库搜索的Foldseek网络服务器版本的使用,其网站链接如下:
https://search.foldseek.com
它的界面操作十分简单,可以点击UPLOAD PDB来从本地选择包含蛋白结构信息的PDB文件,然后点击Search即可开始在数据库中进行搜索。在这里,我们以人类(Homo sapiens)Inorganic pyrophosphatase蛋白的PDB文件为输入示例:

完成搜索后,会显示在多个数据库中比对后的结果,可以选择查看不同数据库。

结果信息的第二列是Description,可以显示比对到的蛋白结构的功能注释。

判断比对结果的准确性时,除了第6列E-Value值越小越好,还要注意最后一列Alignment,点击红圈所示,可以显示query蛋白和subject蛋白结构比对相似性的指标:

这里会提供TMscore和RMSD两个指标。TMscore是基于蛋白质结构之间的相似性来计算的,当TMscore大于0.5时,意味着两个蛋白质结构之间存在较高的相似。RMSD,也称为均方根偏差(root mean square deviation),是一种用来量化两个结构之间的差异性的数值。通常,RMSD值越小,说明两个结构之间的差异越小,相似度越高。我们可以根据这两个指标,来选择最佳的比对结果。

写在最后

结构比对有远高于序列比对的敏感度,这是结构比对的先天优势,在过去,人们对蛋白结构的特征知之甚少,导致缺少大规模的蛋白结构数据库;如今,随着蛋白结构预测软件的成熟,蛋白结构数据库得到极大的扩展,或许,现在已经是时候,抛弃过去的序列比对,迎接结构比对的新时代了。


END

编辑 | Narcissus

供稿 | Deeecade

审核 | 农心生信工作室



农心生信工作室
用生信力量服务中国农业!!!