关注我们并在后台回复 “进群”,即可加入农心生信工作室学习交流群,群内不定时分享源代码及示例文件,并在线交流答疑。我们在农心生信,等你!
由于微信改版,乱序推送,很多朋友反映收不到公众号推文。快跟着图片步骤,将农心生信公众号设为星标,不错过每一条精彩内容!!
本公众号已开通留言功能,欢迎大家直接在文末留言交流!
写在前面
PDB(Protein Data Bank) 文件,是用于表示蛋白质三级结构的标准文件格式,以文本形式存储蛋白质的结构信息。每个PDB文件对应一个特定的蛋白质,包括蛋白的原子坐标、残基标识、结构域等信息。例如,AlphaFold2预测蛋白结构后,会输出包含预测结果的pdb文件;目前,也有许多pdb数据库,涵盖了大量已证实或预测的蛋白质结构,这些数据都是由pdb格式储存的。
前面提到,pdb文件本身也会储存氨基酸信息,这里就涉及到一种应用需求,有时候,我们可能是从数据库网站或他人文章中下载到pdb文件,对于这些pdb文件,我们需要提取蛋白氨基酸序列信息,用于后续的分析(如进化分析等)。USalign开发者张阳老师团队制作过一个在线网站,可以将pdb文件转化成fasta文件 (https://zhanggroup.org/pdb2fasta/);但这一网站在功能上有所限制,无法进行批量转化,不适用于从大量pdb文件中提取氨基酸序列信息。为此 ,我们开发一个脚本pdb2FASTA.py,并配套TBTools插件,可以批量提取pdb文件中氨基酸信息并储存至fasta文件。
如何安装
Linux用户可使用python脚本,TBtools用户可使用插件版本,python脚本和插件版本均可在下方链接获得:
https://github.com/nongxinshengxin/pdb2FASTA.py
TBtools插件版本需要安装,点击下图所示Install Plugin进行安装,安装完成后即可运行。
如何使用
Linux用户使用
运行下面命令查看使用帮助:
pdb2FASTA.py -h
#usage: pdb2FASTA.py [-h] PDBdir [output_fasta]
#positional arguments:
# PDBdir 存储PDB文件的目录
# output_fasta 输出的fasta文件所在路径以及名称,如未设置,默认在pdb文件存储路径,名称为out.fasta
详细解释下脚本需要的两个参数。PDBdir是必须的参数,是存储AlphFold2预测目标蛋白三维结构pdb文件的路径。
output_fasta是输出的fasta文件所在路径以及名称,这在python脚本中不是必须参数,在运行命令时可以忽略,如果忽略,会默认在pdb文件存储路径生成一个名为out.fasta的文件,来储存转化后的序列信息。
TBtools用户使用
打开pdb2FASTA插件,界面如下:
输入存储pdb文件的目录:
输入转化后fasta文件目录及名称(注意!插件版本此处为必须输入的参数,不可忽略,否则无法运行):
点击start即可开始运行。
结果可信度评价
我们经过测试,在张阳老师团队pdb2fasta在线工具上逐条输入10个pdb文件,运行10次,获得的fasta序列,与我们一次运行pdb2FASTA插件产生的结果一致。
如何引用
如果quickGenome插件版对您有所帮助,请引用以下链接:https://github.com/nongxinshengxin/pdb2FASTA.py
END
编辑 | Narcissus
供稿 | Deeecade
审核 | 农心生信工作室