懂报告 | 宏基因组测序报告(非冗余基因集构建和基因丰度计算)

文摘   科学   2024-12-10 10:19   内蒙古  



了解测序报告常见分析内容

轻松上手报告解析

强化科研理解

助力科研成功


在完成序列拼接之后,会获得大量的序列信息,其中通常包含大量重复或相似的序列,对所有序列进行分析可能导致对微生物群落结构和功能的错误解释。由于来自相同环境的样品之间有很多微生物(或基因)是共有的,不同基因的丰度在样本之间的变化可以反映样本之间的共性和差异性,因此可以通过构建一个非冗余基因集,来描述该类环境所有基因的整体信息。构建非冗余基因集可以提高分析的效率和准确性,简化数据集,增强基因预测的准确性。有助于更深入地理解微生物群落的功能和动态变化及其与环境因素之间的关系。

构建非冗余基因集的方法如下:将所有样品预测出来的基因序列,用CD-HIT软件进行聚类,每个类取最长的基因作为代表序列,构建非冗余基因集。

报告中会给出非冗余基因集基因的长度分布统计柱状图,其中横坐标是非冗余基因集基因序列长度区间,纵坐标是该区间所含有的序列数。文件夹中还会给到非冗余基因集的核苷酸序列和非冗余基因集的氨基酸序列。

下面是基因丰度计算,计算基因表达量使用到的程序是Salmon,其特点是可以从数据中产生高度精确的序列比对丰度估算,而且这种技术预估基因表达水平的速度也与其它快速方法相当。Salmon通过许多不同的创新实现了准确性和快速性,包括准映射的使用,以及大规模并行随机折叠的变分推理。其结果是一个适合于许多不同管道的通用的工具。

目前基因丰度有几种不同的计算方法,其中包括TPM、reads Count和相对丰度,下面我们来详细了解下这几种基因的表达量计算方法:

reads Count:计算测序中比对到exon上的reads数,但其受限于exon长度不同,难以进行不同exon丰度比较;且由于测序总数不同,难以对不同测序样本间进行比较;

相对丰度:计算样本中微生物或基因的序列数占该样本内序列总数的比例,其同样会受到样本不同测序深度的影响,不能对不同样本之间的相对丰度直接进行比较;

TPM:Transcripts Per Kilobase of exon model per Million mapped reads (每千个碱基的转录每百万映射读取的Transcripts),其计算公式为:

解释:Ni为比对到第i个基因的reads数;Li为第i个基因的长度;sum(N1/L1+N2/L2 + ... + Nn/Ln)为所有 (n个)基因按长度进行标准化之后数值的和。
计算过程:首先对每个基因计算Pi=Ni/Li,即按长度对reads count进行标准化;随后计算过程类似RPKM (将Pi作为正常的GeneMappedReads,然后以RPKM的公式计算TPM)。
TPM是一种标准化的基因表达量测量方法,其通过处理消除了基因长度和测序深度的影响。适用于不同样本或条件下的基因表达比较,所以结果中选择TPM作为基因丰度的计算方式。报告中会给出基因在各个样品中的丰度表,表中的GeneID一列是以样本名+contig名称+contig上的ORF排序来进行命名的。文件夹中还会给到非冗余基因集的read矩阵。

宏基因组测序报告本期分享内容就到这里啦,我们下期见!如有不明之处,欢迎大家加入凌波微课交流群一起来讨论学习。
凌波微课,创意于2020年不平凡的春天,由高通量测序及组学研究领域从业近十年的技术团队精心打造。

凌波微课的讲师们,实战经验丰富,旨在通过在线微课程及线下交流,帮助科研学生及科研工作者们由简入繁,掌握科研思路及生信分析的实际操作。倾心打造的高通量测序数据分析平台——凌波微课·云平台(http://www.cloud.biomicroclass.com/CloudPlatform/home),无需命令行,零基础玩转数据分析。凌波微课,用心服务科研用户,打造专业教育品牌,助力科研提升。

关注我

发现更多精彩

关注凌波微课公众号,回复“入群”,即可加入凌波微课课下交流群,更多干货等你呦!

凌波微课
凌波微课旨在通过在线微课程及线下交流,帮助科研学生及科研工作者们由简入繁,掌握科研思路及生信分析的实际操作。用心服务科研用户,打造专业培训品牌,助力科研提升。
 最新文章