水均为去离子水,以下所有试剂均用0.22um滤器过滤除菌。
样品制备及裂解
每管菌体细胞不得低于3*10^9个。
将样品管从液氮中取出,加入1mlB1裂解液,最大转速涡旋混匀。
分别加入2ul RNaseA(核糖核酸酶A)、40ul lysozyme(溶菌酶)、45ul Protesae K(蛋白酶 K),上下颠倒混匀。
37℃水浴中孵育60min。
加入0.35mlB2裂解液,上下颠倒混匀。
50℃水浴中孵育60min。
常温,12000rpm离心5min,将裂解液上清转移到一个新的离心管中。
B1:取 18.61g Na2EDTA▪2H2O 和 6.06g Tris-base 溶解在 800ml 水中,加入 50ml 10% Tween-20 和 50ml 10%Triton-100。将 PH 值调至 8.0(用HCl或NaOH)最后定容至1升。
B2:溶解286.59g 盐酸胍在中,加入200ml100%Tween-20然后定容至1升,不用调PH。
试剂的作用原理:Triton X-100、Tween 20 :去污剂。
盐酸胍(有毒有害,注意防护,不可吸入粉末,不可接触皮肤):蛋白质变性剂。
EDTA二钠:在TE缓冲液中加入EDTA的目的是为了螯合金属离子,特别是二价金属离子(如镁、钙等)。EDTA可以与这些金属离子形成稳定的络合物,从而防止它们对DNA样本产生影响或降解。
[EDTA in Molecular Biology]
(https://www.thermofisher.com/us/en/home/life-science/dna-rna-purification-analysis/nucleic-acid-amplification/dna-extraction/isolate-nucleic-acid/edta-molecular-biology.html)
[Role of EDTA in DNA Extraction]
(https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3140208/)
[The Power of EDTA]
(https://bitesizebio.com/11936/the-power-of-edta/)
核糖核酸酶A:是一种内切核糖核酸酶,可特异攻击RNA上嘧啶残基的3’端,切割胞嘧啶或尿嘧啶与相邻核苷酸形成的磷酸二酯键,反应终产物是3’嘧啶核苷酸和末端带3’嘧啶核苷酸的寡核苷酸。
溶菌酶(lysozyme):又称胞壁质酶(muramidase),碱性酶。溶菌酶主要通过破坏细胞壁中的N-乙酰胞壁酸和N-乙酰氨基葡萄糖之间的β-1,4糖苷键,使细胞壁不溶性黏多糖分解成可溶性糖肽,导致细胞壁破裂内容物逸出而使细菌溶解。
蛋白酶K:主要作用是酶解与核酸结合的组蛋白,使DNA游离在溶液中。EDTA等螯合剂或SDS等去垢剂均不能使之失活。蛋白酶K贮存液一般为10mg/ml或20mg/ml。2-8℃短期储存,-20℃长期贮存。蛋白酶K溶液为无色透明,如出现沉淀就不能再使用。
过柱纯化流程
加入2mlQBT平衡20G柱子,使其靠重力流出。
将处理后的裂解液加入柱子内,使其靠重力流出。
加入1mlQC清洗柱子,使其靠重力流出,共清洗3次。
加入1mlQF洗脱DNA。
加入0.7倍体积的异丙醇沉淀DNA。
12000rpm,4℃离心20min,弃掉上清液,收集DNA沉淀。
加入1ml70%乙醇洗涤沉淀,共清洗2次。
加入适当体积的TE溶解DNA,37℃金属浴上孵育60min-120min。
QBT: 43.83g NaCl,10.46g MOPS(3-吗啉丙磺酸)(无酸)溶解在 800ml 水中,然后调整 PH 到7.0,加入150ml 纯异丙醇和15ml 10%Triton-100 最后定容至 1升。
QC: 58.44 NaCl,10.46g MOPS 溶解在 800ml 水中,然后调整 PH 到7.0,加入 150ml 纯异丙醇(沉淀大体积溶液中的DNA 时,异丙醇是比较好的选择。沉淀少量的DNA使用乙醇效果更好)最后定容至1 升。可参考《分子克隆实验指南》作者是J.萨姆布鲁克、D.W.拉塞尔。
QF:73.05g NaCl,6.06g Tris-base 溶解在 800ml 水中,将 PH 值调至 8.5(用 HCl 或 NaOH)加入150ml 纯异丙醇,最后定容至1升。
基因组建库流程
1.纯化:对基因组DNA进行随机打断;利用磁珠富集、纯化大片段DNA,将大片段进行切胶回收;
2.片段修复:对筛选好的大片段DNA进行损伤修复、末端修复及3'末端加A,并对反应产物进行纯化;
3.连接:片段修复产物进行测序相关接头的连接及纯化,得到最终的上机文库;
4.定量检测:Qubit定量;采用荧光染料检测特定目标分子的浓度,配套只有与DNA、RNA或蛋白质结合后才发出荧光的Molecular Probes® 染料。这些荧光染料只有与特异性的靶分子结合时才能发出荧光信号,采用专门的荧光检测技术,检测特定目标分子的浓度,从而对DNA和RNA进行精准定量。
5.文库上机:取一定量的DNA文库,与上机测序,获得原始测序数据。
Nanopore 测序的下机数据的原始数据格式为包含所有原始测序信号的二进制fast5格式,通过 guppy3.2.6 软件进行 base calling 后会将 fast5 格式数据转换为 fastq格式,经进一步过滤接头、低质量及短片段(长度<2000bp)的reads后,得到总的数据集。
基因组组装
使用Canuv1.5[5] / wtdbg v2.2[34]软件对过滤后subreads 进行组装。最后采用Pilonv1.22[6]软件利用二代 数据进一步对组装基因组进行纠错(若无二代数据,则跳过此步),得到最终准确度更高的基因组。将组装contig序列同NT数据库进行比对,确定染色体类型。
基因组组分分析与注释
原核生物基因组中重复序列含量极少。采用RepeatMaskerv4.0.5[7]软件对细菌基因组进行重复序列的预测。
采用Prodiga V2.50[8]软件对组装基因组进行编码基因预测。
非编码RNA即不编码蛋白质的RNA,针对非编码RNA的结构特点,采用不同的策略预测不同的非编码 RNA。
使用软件tRNAscan-SEv1.3.1预测基因组中的tRNA,使用软件Infernalv1.1基于 Rfam v12.0数据库预测基因组中的rRNA以及除了tRNA和rRNA之外的其它ncRNA。
假基因(pseudogene)是具有与功能基因相似的序列,但由于插入、缺失等突变以致失去了原有的功能。
利用已预测得到的蛋白序列与Swiss-Prot数据库中收录的蛋白序列,通过软件GenBlastAv1.0.1比对, 在基因组上寻找同源的基因序列(可能的基因),然后利用软件GeneWisewise2-2-0寻找基因序列中的不成熟的终止密码子及移码突变,得到假基因。
CRISPR 是一串包含多个短而重复的序列的碱基序列,重复序列之间是一些长度约30bp的"spacerDNA"。在原核生物中,CRISPR起到免疫系统的作用,对外来的质粒和噬菌体序列具有抵抗作用。CRISPR能识 别并使入侵的功能元件沉默。我们使用CRTv1.2软件对基因组进行CRISPR预测
基因岛可与多种生物功能相关,如共生关系和发病机理,生物体的适应性等。基因岛基于其功能的不同可以划分为不同的子类,如病原性基因岛(pathogenicityisland(PAIs))与发病机理相关,抗生素抗性岛包含许多抗生素抗性基因。相同的基因岛能在近缘物种上发生各种的水平基因转移。可通过比较分析来识别, 例如系统发育分析。
在细菌中,很多三型分泌系统和四型分泌系统都位于基因岛区域中。这些基因岛通常都在10kb大小以上,与tRNA编码基因相关,GC含量也与基因组其它序列有所差异。很多基因岛两边存在重复序列结构,包含一些其它的例如噬菌体或质粒的小元件。一些基因岛可以自主从染色体上脱 离并转移到其它的序列上。使用软件IslandPath-DIMOBv0.1对细菌基因组进行基因岛预测。
整合在宿主基因组上的温和噬菌体的核酸称之为前噬菌体(prophage)。基因组上带有前噬菌体的菌称为溶源菌,它们具有无需由外部感染而可产生噬菌体的遗传能力,并且这种能力可传递给后代。如果提供适当条件打破保持前噬菌体状态的机制,噬菌体基因组即变为可增殖型而进行自主增殖,并使细胞裂解。前噬菌体序列的存在可能也会允许一些细菌获取抗生素抗性,增强对环境的适应性,提高粘附力或使细菌成为致病菌。同时,通过前噬菌体的研究可能找到特异的抗生素甚至是先进的癌症治疗方法。通过软件PhiSpy v2.3预测前噬菌体。
基因组功能注释
利用预测得到的基因序列与COG、KEGG、Swiss-Prot (2015_01)、TrEMBL、Nr等功能数据库做BLASTv2.2.29比对,得到基因功能注释结果。基于Nr数据库比对结果,应用软件Blast2GOv2.5进行GO(releases20160907)数据库的功能注释。利用软件hmmer v3.0基于 Pfam (27.0)数据库进行 Pfam 功能注释。
另外,对COG、KEGG代谢通路富集分析、GO功能富集分析等基因功能注释分析。
Nr数据库的全称是Non-RedundantProtein Database,是一个非冗余的蛋白质数据库,该数据库含有全面的蛋白序列和注释信息。该数据库中部分蛋白序列和注释信息未经过验证,可靠性有待提高。
GO(gene ontology)是基因本体联合会(Gene Onotology Consortium)所建立的数据库,旨在建立一个适用于各 种物种的,对基因和蛋白质功能进行限定和描述的,并能随着研究不断深入而更新的语义词汇标准。
SwissProt 数据库是一个人工注释的非冗余高质量蛋白序列数据库,其特点是注释结果有相应实验验证,可靠性较高。
Pfam 数据库是一种包含注释信息和多序列比对信息的蛋白家族数据库,其中的多序列比对信息是由隐马尔科夫模型产生。该数据库提供了较为完整和精确的蛋白家族和功能域的分类信息。
专有数据库注释
利用预测得到的基因的蛋白序列与转运蛋白分类数据库(TCDB)、病原体-宿主互作因子数据库(PHI)、 抗生素抗性基因数据库(ARDB)、毒力因子数据库(VFDB)等功能数据库做BLAST比对,得到相应的注释结果。另外,利用软件hmmer基于碳水化合物相关酶数据库(CAZyme)进行碳水化合物酶类基因的功能注释
CAZy 数据库注释
CAZy v4.0 全称为 Carbohydrate-Active enZYmes Database,即碳水化合物活性酶数据库, 参考链接 http://www.cazy.org/。
该数据库主要包含与糖苷键降解、修饰及生成相关的酶类家族。主要包含 5 大分类:糖苷水解酶(Glycoside Hydrolases,GHs)、糖基转移酶(Glycosyl Transferases,GTs)、多糖裂解酶 (Polysaccharide Lyases,PLs)、碳水化合物酯酶(Carbohydrate Esterases,CEs)、辅助活性酶(Auxiliary Activities,AAs)。
此外,该数据库还包含与碳水化合物结合相关的酶(Carbohydrate-BindingModules,CBMs)。
TCDB 数据库注释
TCDB 是对膜转运蛋白进行分类的数据库,它制定了一套转运蛋白分类系统 TransporterClassification(TC) System, 类似于对酶进行分类的EC系统, 参考链接http://www.tcdb.org/。TC 分类系统包含5个层级,因此, TCNumber 包含5个数字或者字母, 每个数字或字母实际代表某一个层级的分类。
PHI 数据库注释
PHI(病原宿主互作数据库),收录了经过实验验证或文献报道的能够感染动植物、真菌和昆虫的细菌、真菌等病原菌的致病基因、毒力基因和效应蛋白基因。另外,还收录了抗真菌化合物及其靶基因。
ARDB 数据库注释
ARDB(ardbAnno1.0)(Antibiotic Resistance Genes Database)抗生素抗性基因数据库,收录了细菌耐药基因,
VFDB 数据库注释VFDB(virulence factor database)毒力因子数据库,用于识别细菌中含有的毒力因子。