pdb2FASTA | 一个批量从pdb文件中提取氨基酸序列信息的脚本(附:TBtools插件版本)

文摘   科技   2024-06-03 20:39   陕西  

关注我们并在后台回复 “进群”,即可加入农心生信工作室学习交流群,群内不定时分享源代码及示例文件,并在线交流答疑。我们在等你!

由于微信改版,乱序推送,很多朋友反映收不到公众号推文。快跟着图片步骤,将公众号设为星标,不错过每一条精彩内容!


本公众号已开通留言功能,欢迎大家直接在文末留言交流!


写在前面

PDB(Protein Data Bank) 文件,是用于表示蛋白质三级结构的标准文件格式,以文本形式存储蛋白质的结构信息。每个PDB文件对应一个特定的蛋白质,包括蛋白的原子坐标、残基标识、结构域等信息。例如,AlphaFold2预测蛋白结构后,会输出包含预测结果的pdb文件;目前,也有许多pdb数据库,涵盖了大量已证实或预测的蛋白质结构,这些数据都是由pdb格式储存的。
前面提到,pdb文件本身也会储存氨基酸信息,这里就涉及到一种应用需求,有时候,我们可能是从数据库网站或他人文章中下载到pdb文件,对于这些pdb文件,我们需要提取蛋白氨基酸序列信息,用于后续的分析(如进化分析等)。USalign开发者张阳老师团队制作过一个在线网站,可以将pdb文件转化成fasta文件 (https://zhanggroup.org/pdb2fasta/);但这一网站在功能上有所限制,无法进行批量转化,不适用于从大量pdb文件中提取氨基酸序列信息。为此 ,我们开发一个脚本pdb2FASTA.py,并配套TBTools插件,可以批量提取pdb文件中氨基酸信息并储存至fasta文件

如何安装

Linux用户可使用python脚本,TBtools用户可使用插件版本,python脚本和插件版本均可在下方链接获得:
https://github.com/nongxinshengxin/pdb2FASTA.py

TBtools插件版本需要安装,点击下图所示Install Plugin进行安装,安装完成后即可运行。

如何使用

Linux用户使用

运行下面命令查看使用帮助:

pdb2FASTA.py -h
#usage: pdb2FASTA.py [-h] PDBdir [output_fasta]

#positional arguments:
#  PDBdir        存储PDB文件的目录
#  output_fasta  输出的fasta文件所在路径以及名称,如未设置,默认在pdb文件存储路径,名称为out.fasta

详细解释下脚本需要的两个参数。PDBdir是必须的参数,是存储AlphFold2预测目标蛋白三维结构pdb文件的路径。

output_fasta是输出的fasta文件所在路径以及名称,这在python脚本中不是必须参数,在运行命令时可以忽略,如果忽略,会默认在pdb文件存储路径生成一个名为out.fasta的文件,来储存转化后的序列信息。

TBtools用户使用

打开pdb2FASTA插件,界面如下:

输入存储pdb文件的目录:

输入转化后fasta文件目录及名称(注意!插件版本此处为必须输入的参数,不可忽略,否则无法运行):

点击start即可开始运行。

结果可信度评价

我们经过测试,在张阳老师团队pdb2fasta在线工具上逐条输入10个pdb文件,运行10次,获得的fasta序列,与我们一次运行pdb2FASTA插件产生的结果一致。

如何引用

如果quickGenome插件版对您有所帮助,请引用以下链接:https://github.com/nongxinshengxin/pdb2FASTA.py


END

编辑 | Narcissus

供稿 | Deeecade

审核 | 农心生信工作室


农心生信工作室
用生信力量服务中国农业!!!
 最新文章