了解测序报告常见分析内容
轻松上手报告解析
强化科研理解
助力科研成功
构建非冗余基因集的方法如下:将所有样品预测出来的基因序列,用CD-HIT软件进行聚类,每个类取最长的基因作为代表序列,构建非冗余基因集。
报告中会给出非冗余基因集基因的长度分布统计柱状图,其中横坐标是非冗余基因集基因序列长度区间,纵坐标是该区间所含有的序列数。文件夹中还会给到非冗余基因集的核苷酸序列和非冗余基因集的氨基酸序列。
下面是基因丰度计算,计算基因表达量使用到的程序是Salmon,其特点是可以从数据中产生高度精确的序列比对丰度估算,而且这种技术预估基因表达水平的速度也与其它快速方法相当。Salmon通过许多不同的创新实现了准确性和快速性,包括准映射的使用,以及大规模并行随机折叠的变分推理。其结果是一个适合于许多不同管道的通用的工具。
目前基因丰度有几种不同的计算方法,其中包括TPM、reads Count和相对丰度,下面我们来详细了解下这几种基因的表达量计算方法:
reads Count:计算测序中比对到exon上的reads数,但其受限于exon长度不同,难以进行不同exon丰度比较;且由于测序总数不同,难以对不同测序样本间进行比较;
相对丰度:计算样本中微生物或基因的序列数占该样本内序列总数的比例,其同样会受到样本不同测序深度的影响,不能对不同样本之间的相对丰度直接进行比较;
TPM:Transcripts Per Kilobase of exon model per Million mapped reads (每千个碱基的转录每百万映射读取的Transcripts),其计算公式为:
凌波微课的讲师们,实战经验丰富,旨在通过在线微课程及线下交流,帮助科研学生及科研工作者们由简入繁,掌握科研思路及生信分析的实际操作。倾心打造的高通量测序数据分析平台——凌波微课·云平台(http://www.cloud.biomicroclass.com/CloudPlatform/home),无需命令行,零基础玩转数据分析。凌波微课,用心服务科研用户,打造专业教育品牌,助力科研提升。
关注我
发现更多精彩
关注凌波微课公众号,回复“入群”,即可加入凌波微课课下交流群,更多干货等你呦!