做蛋白质功能、信号通路、疾病靶点与作用机制,乃至于筛选新药物靶标蛋白质及其结合位点等课题,都有一项基础的需求:分析比对蛋白质序列和预测蛋白质结构。
因为肽链的氨基酸序列本身以及蛋白质的高级结构都会很大程度影响到它的最终功能。光做实验收获数据可能会没有处理头绪,因此我们需要生物信息学(bioinfo)手段。
Bioinfo作为一个学科近年已越发成熟,如今拥有大量的数据分析方法和理论模型,推动蛋白质研究的发展。在这里,小编给大家提供一个用于“分析比对蛋白质序列和预测蛋白质结构”的入门新手包:
图片来源:https://images.app.goo.gl/emPxHQPu9HhXqPq48
首先,在实验初期我们要获取蛋白质及其编码基因的序列数据。可以在这些网站获取:
NCBI (National Center for Biotechnology Information):
https://www.ncbi.nlm.nih.gov/
NCBI包含很多子分类数据库,覆盖中心法则的各个步骤。我们可以使用如GenBank(核酸序列)和Protein数据库(蛋白质序列)。直接在搜索栏中检索目的蛋白或基因,尤其是可以在NCBI数据库中下载FASTA格式的序列文件,这是一种可用于序列比对的文本格式,用于表示核酸序列或蛋白质序列,其中每个序列由单行的标题后跟序列数据组成,是很多分析操作的基础。
PDB (Protein Data Bank):
https://www.rcsb.org/
PDB存储蛋白质三维结构数据,是目前最主要的收集生物大分子(蛋白质、核酸和糖)2.5维(以二维的形式表示三维的数据)结构的数据库。我们可以在每个蛋白质的专属页面获取包括但不限于初级结构、三维结构、原子坐标甚至相关参考文献等各种信息。如果你要研究的蛋白质已有研究人员汇报过结构,可以直接从PDB下载结构文件,甚至可能获得NMR实验数据等珍贵资料。
UniProt:
https://www.uniprot.org/
UniProt是现在最全面的综合性蛋白质序列和功能的数据库,可以提供关于蛋白质功能、分类和序列等详细信息。除了序列与结构这些基础信息,还可以在其中获取如亚细胞定位、翻译后修饰、蛋白互作等实用信息。
毫无疑问,数据库,尤其是蛋白质数据库,肯定远远不止此处提到的三个。根据不同的研究需要,研究人员可能需要专门针对如保守序列、激酶、磷酸化、相互作用等各种特定信息的数据库。由于本文是带新手入门,此处给出的是三个相对最常用、最综合性的数据库。
图片来源:https://images.app.goo.gl/4gK2ypPzXDLpPogu7
获取了目的蛋白的信息,接下来就需要进行实验操作。我们当然不可能使用肉眼手工或者office全家桶进行对比,这里给大家提供一些常用的基础工具,在序列分析和结构预测领域能轻松进行大部分初步分析工作:
EMBOSS (European Molecular Biology Open Software Suite):
http://emboss.open-bio.org/
EMBOSS是一套开源软件工具,用于分子生物学分析。功能繁多,包括序列比对搜索、反向翻译、密码子比较与统计分析、序列提取等。有一些工具如water(局部序列比对)或needle(全局序列比对)相对更适合新手。
BLAST (Basic Local Alignment Search Tool):
https://blast.ncbi.nlm.nih.gov/Blast.cgi
BLAST是用local alignment方式比较蛋白质或核酸序列的工具,有本地程序。可以用于发现序列的相似性、同源性与差异性。
SWISS-MODEL:
https://swissmodel.expasy.org/
SWISS-MODEL是一个在线自动的蛋白质结构同源建模网站。一句话介绍就是它用同源建模的方式预测蛋白质的三维结构。只需提供蛋白质序列,比如在NCBI等数据库里下载的FASTA,SWISS-MODEL将自动寻找模板,进行序列-结构比对,并构建模型。尤其是在PDB找不到结构的情况下,可以用来预测。但注意它的方法是同源建模。
以上是为初学者准备的蛋白质序列分析与结构预测的新手包。由于面向新手,选择的并非最新最热门的工具,而是比较传统基础不易出错的。很简单,来试试吧(x)!
往期文章推荐
经验总结|生物信息学的学习方法
经验总结|ACT数据库的使用教学:单细胞转录组自动注释、细胞marker查询
经验总结|科研中常用到的在线工具、网站或数据库系列(1)
手把手教学|如何利用DAVID数据库进行GO、KEGG富集分析