一文读懂基因组过滤:专业术语解析(二)

文摘   2024-12-03 08:02   内蒙古  

在基因组过滤上一期的推文中,我们深入了解了基因组学中的一些专业术语,这些术语构成了我们理解基因组数据过滤技术的基础。今天,小编将继续带领大家深入学习更多相关名词,进一步丰富我们的基因组学知识库。

 1.  N50或L50分数(N50 or L50 scores)

在基因组组装中,将contigsscaffolds按长度排序后,达到累积基因组长度50%contig/scaffold长度(N50),或达到累积基因组长度50%所需的contig数(L50);用于评估组装质量。

 2.  旁系同源(Paralogues)

由于基因复制而产生的同源基因。这是一种由于特定区域的重复或整个基因组的重复而产生的同源的一种类型,与由于物种分化事件而产生的同源是不同的。

3.  PCR重复(PCR duplicates)

由于模板数量不足或其他因素,反复测序多次相同模板DNA片段而导致的虚假、通常相同的reads复本。

 4.  种群结构(Population structure)

也称为种群细分。研究区域/地区中个体之间非独立的原因,由空间、时间、行为或其他形式的生殖隔离引起。种群结构特征在不同位点间等位基因频率的差异。

 5.  reads深度(Read depth)

覆盖给定或固定基因组位置的reads数。也称为“覆盖度”。可以理解为基因组中每个被测到的碱基重复被测序的的平均次数(以碱基数量为单位)。

测序深度 = reads长度×比对的reads数目/参考序列长度

 6.  参考偏倚(Reference bias)

对于包含非参考等位基因的reads,有遗漏比对或报告错误比对的倾向。

 7.  同源区域(Runs of homozygosity)

连续的同源性序列,其中个体从其两个亲本处获得了相同的等位基因。可用于识别近亲繁殖、确定受选择的基因区域以及估计遗传负荷。长的同源区域可能意味着近期的近亲繁殖,而短的同源区域则可能代表远期的共同祖先。

 8.  单核苷酸多态性(Single-nucleotide polymorphisms,SNPs)

在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。与其它分子标记相比,SNP分辨率较高也较为丰富,覆盖基因组范围大,遗传上比较稳定。

 9.  Singletons 

在个体样本中仅出现一次的等位基因。有时被定义为在仅一个个体中出现的等位基因(可能是该等位基因的同源基因)。

 10.  位点频谱(Site-frequency spectra,SFS)

研究或样本组内位点间等位基因频率的分布。可以是描述衍生等位基因频率分布的“展开”或“极化”频率谱,或者描述少数等位基因频率(MAF)分布的“折叠”或“非极化”频率谱。也称为等位基因频率分布。

 11.  结构变异(Structural variation)

基因组上大长度的序列变化和位置关系变化。基因组结构性变异类型很多,包括长度在50bp以上的长片段序列插入或者删除(Big Indel)、串联重复(Tandem repeate)、染色体倒位(Inversion)、染色体内部或染色体之间的序列易位(Translocation)、拷贝数变异(CNV)以及形式更为复杂的嵌合性变异。

 12.  全研究过滤(Study-wide filtering)

将过滤阈值“全局”应用于整个数据集中的所有样本,而不是在每个样本组内单独应用。

 13.  VCF文件

用于描述SNP(单个碱基上的变异),INDEL(插入缺失标记)和SV(结构变异位点)结果的文本文件。VCF文件分为两部分内容:以“#”开头的注释部分;没有“#”开头的主体部分。主体部分中每一行代表一个Variant的信息。

第一列 CHROM:染色体。 

第二列 POS:基因组位置。 

第三列 ID:变异位点的rsID号,如果没有的话用”.”表示。 

第四列 REF:与参考基因组一样的位点。 

第五列 ALT:与参考基因组不一样的位点。 

第六列 QUALcall出这个位点的质量。这个值等于-10log10(p),p值是callalt allele错误的概率。也就是QUAL越大出错概率越小。 

第七列 FILTER:对变异位点进行过滤,如果通过则为PASS,如果没有进行过滤就是”.”。

第八列 INFOvariant的详细信息。GT: 表示这个样本的基因型;AD: 对应两个以逗号隔开的值,这两个值分别表示覆盖到REFALT碱基的reads数,相当于支持REF和支持ALT的测序深度;DP: 覆盖到这个位点的总的reads数量;PL:对应3个以逗号隔开的值,这三个值分别表示该位点基因型是0/00/11/1的没经过先验的标准化Phred-scaled似然值;GQ:表示最可能的基因型的质量值。

 14.  Wahlund效应(Wahlund effect)

相对于Hardy-Weinberg比例(HWP)下的预期杂合度,在许多/大多数位点上由于潜在的种群结构引起的观察到的杂合度的减少。当样本中包含多个(亚)种群时,(亚)种群之间的等位基因频率差异将导致在这些位点上出现更多的同种型个体,这超出了在HWP下预期的数量(导致个体相对于亚群体的固定指数升高)。

 15.  样本组内过滤(Within-group filtering)

在每个样本组内部分别应用过滤阈值,而不是同时应用于所有个体(例如,全研究范围或全局)。

 对代表性研究和问题进行深思熟虑的、系统的和可重复的筛选的流程图

参考文献

Hemstrom, W., Grummer, J.A., Luikart, G. et al. Next-generation data filtering in the genomics era. Nat Rev Genet (2024).


凌恩生物

凌恩生物拥有完善的测序平台、丰富的动植物基因组研究经验、超过十年的核心技术团队、个性化分析定制服务以及完整的研究技术路线和技术服务支持,帮助您深度挖掘基因组故事,开启生命科学领域的无限可能。联系我们,开启合作新篇章!

凌恩生物
凌恩生物旗下综合性生物咨询和服务平台。
 最新文章