pdb2FASTA | 一个批量从pdb文件中提取氨基酸序列信息的脚本（附：TBtools插件版本）

文摘科技 2024-06-03 20:39 陕西

关注我们并在后台回复 “进群”，即可加入农心生信工作室学习交流群，群内不定时分享源代码及示例文件，并在线交流答疑。我们在农心生信，等你！

由于微信改版，乱序推送，很多朋友反映收不到公众号推文。快跟着图片步骤，将农心生信公众号设为星标，不错过每一条精彩内容！！

本公众号已开通留言功能，欢迎大家直接在文末留言交流！

写在前面

PDB（Protein Data Bank） 文件，是用于表示蛋白质三级结构的标准文件格式，以文本形式存储蛋白质的结构信息。每个PDB文件对应一个特定的蛋白质，包括蛋白的原子坐标、残基标识、结构域等信息。例如，AlphaFold2预测蛋白结构后，会输出包含预测结果的pdb文件；目前，也有许多pdb数据库，涵盖了大量已证实或预测的蛋白质结构，这些数据都是由pdb格式储存的。
前面提到，pdb文件本身也会储存氨基酸信息，这里就涉及到一种应用需求，有时候，我们可能是从数据库网站或他人文章中下载到pdb文件，对于这些pdb文件，我们需要提取蛋白氨基酸序列信息，用于后续的分析（如进化分析等）。USalign开发者张阳老师团队制作过一个在线网站，可以将pdb文件转化成fasta文件 (https://zhanggroup.org/pdb2fasta/)；但这一网站在功能上有所限制，无法进行批量转化，不适用于从大量pdb文件中提取氨基酸序列信息。为此，我们开发一个脚本pdb2FASTA.py，并配套TBTools插件，可以批量提取pdb文件中氨基酸信息并储存至fasta文件。

如何安装

Linux用户可使用python脚本，TBtools用户可使用插件版本，python脚本和插件版本均可在下方链接获得：
https://github.com/nongxinshengxin/pdb2FASTA.py

TBtools插件版本需要安装，点击下图所示Install Plugin进行安装，安装完成后即可运行。

如何使用

Linux用户使用

运行下面命令查看使用帮助：

pdb2FASTA.py -h
#usage: pdb2FASTA.py [-h] PDBdir [output_fasta]

#positional arguments:
#  PDBdir        存储PDB文件的目录
#  output_fasta  输出的fasta文件所在路径以及名称，如未设置，默认在pdb文件存储路径，名称为out.fasta

详细解释下脚本需要的两个参数。PDBdir是必须的参数，是存储AlphFold2预测目标蛋白三维结构pdb文件的路径。

output_fasta是输出的fasta文件所在路径以及名称，这在python脚本中不是必须参数，在运行命令时可以忽略，如果忽略，会默认在pdb文件存储路径生成一个名为out.fasta的文件，来储存转化后的序列信息。

TBtools用户使用

打开pdb2FASTA插件，界面如下：

输入存储pdb文件的目录：

输入转化后fasta文件目录及名称（注意！插件版本此处为必须输入的参数，不可忽略，否则无法运行）：

点击start即可开始运行。

结果可信度评价

我们经过测试，在张阳老师团队pdb2fasta在线工具上逐条输入10个pdb文件，运行10次，获得的fasta序列，与我们一次运行pdb2FASTA插件产生的结果一致。

如何引用

如果quickGenome插件版对您有所帮助，请引用以下链接：https://github.com/nongxinshengxin/pdb2FASTA.py

END

编辑 | Narcissus

供稿 | Deeecade

审核 | 农心生信工作室

http://mp.weixin.qq.com/s?__biz=Mzk0MzM5NzQ3Mw==&mid=2247487978&idx=1&sn=82c4bdd2a9cca98707e47a4d2a7ad6f2

农心生信工作室

用生信力量服务中国农业！！！

Passion！如何从零开始制作一个TBtools插件(Python版)

自学生物信息学必看：8点经验分享，让你少走弯路！

GeneCorrectionStatistics：一个可以对基因结构注释手动校正后结果进行快速统计的插件

跟着JIPB学作图 | 用ggplot2轻松绘制MUMmer染色体共线性点阵图

博士生版MBTI：快来测一测你会不会延毕吧

一键解锁！用R脚本轻松统计SUPPA2识别的可变剪接（AS）事件结果

一题多解：AWK、R、Python大比拼，如何用不同的编程语言轻松合并行列名相同的多个文件

评估基因组组装质量？不止是BUSCO、Merqury和LAI，试试CRAQ吧

农心生信两周年：彷徨的一年，不变的是你们的支持（文末有抽奖福利）

进化树可视化？你一直做错，知道吗？

蝙蝠肠道微生物的变奏曲：季节性饮食调整下的能量与营养新策略

从组学小错误到科学大发现：真菌中A-to-I mRNA编辑的发现与探索

一篇掌握！蛋白质结构预测、分析与可视化的完全指南，收藏就是赚到！

pdb2FASTA | 一个批量从pdb文件中提取氨基酸序列信息的脚本（附：TBtools插件版本）

软件教程 | CD-HIT：超快超好用的核酸/蛋白序列聚类软件

千呼万唤始出来！AlphaFold3会带来生命科学的变革吗？(附：AlphaFold Server使用攻略)

博士毕业答辩那天，老师竟对我说……

AutoDock分子对接（4）--对接过程（下）及结果分析

从ChatGPT到Sora

还在用BLAST序列比对检索数据库？快试试基于蛋白结构比对的检索工具Foldseek

准备好走进生物AI时代了吗？8个和大模型相关的名词解释

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉