在基因组过滤上一期的推文中,我们深入了解了基因组学中的一些专业术语,这些术语构成了我们理解基因组数据过滤技术的基础。今天,小编将继续带领大家深入学习更多相关名词,进一步丰富我们的基因组学知识库。
1. N50或L50分数(N50 or L50 scores)
2. 旁系同源(Paralogues)
由于基因复制而产生的同源基因。这是一种由于特定区域的重复或整个基因组的重复而产生的同源的一种类型,与由于物种分化事件而产生的同源是不同的。
3. PCR重复(PCR duplicates)
由于模板数量不足或其他因素,反复测序多次相同模板DNA片段而导致的虚假、通常相同的reads复本。
4. 种群结构(Population structure)
也称为种群细分。研究区域/地区中个体之间非独立的原因,由空间、时间、行为或其他形式的生殖隔离引起。种群结构特征在不同位点间等位基因频率的差异。
5. reads深度(Read depth)
6. 参考偏倚(Reference bias)
7. 同源区域(Runs of homozygosity)
连续的同源性序列,其中个体从其两个亲本处获得了相同的等位基因。可用于识别近亲繁殖、确定受选择的基因区域以及估计遗传负荷。长的同源区域可能意味着近期的近亲繁殖,而短的同源区域则可能代表远期的共同祖先。
8. 单核苷酸多态性(Single-nucleotide polymorphisms,SNPs)
在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。与其它分子标记相比,SNP分辨率较高也较为丰富,覆盖基因组范围大,遗传上比较稳定。
9. Singletons
在个体样本中仅出现一次的等位基因。有时被定义为在仅一个个体中出现的等位基因(可能是该等位基因的同源基因)。
10. 位点频谱(Site-frequency spectra,SFS)
研究或样本组内位点间等位基因频率的分布。可以是描述衍生等位基因频率分布的“展开”或“极化”频率谱,或者描述少数等位基因频率(MAF)分布的“折叠”或“非极化”频率谱。也称为等位基因频率分布。
11. 结构变异(Structural variation)
基因组上大长度的序列变化和位置关系变化。基因组结构性变异类型很多,包括长度在50bp以上的长片段序列插入或者删除(Big Indel)、串联重复(Tandem repeate)、染色体倒位(Inversion)、染色体内部或染色体之间的序列易位(Translocation)、拷贝数变异(CNV)以及形式更为复杂的嵌合性变异。
12. 全研究过滤(Study-wide filtering)
将过滤阈值“全局”应用于整个数据集中的所有样本,而不是在每个样本组内单独应用。
13. VCF文件
用于描述SNP(单个碱基上的变异),INDEL(插入缺失标记)和SV(结构变异位点)结果的文本文件。VCF文件分为两部分内容:以“#”开头的注释部分;没有“#”开头的主体部分。主体部分中每一行代表一个Variant的信息。
第一列 CHROM:染色体。
第二列 POS:基因组位置。
第三列 ID:变异位点的rsID号,如果没有的话用”.”表示。
第四列 REF:与参考基因组一样的位点。
第五列 ALT:与参考基因组不一样的位点。
第六列 QUAL:call出这个位点的质量。这个值等于-10log10(p),p值是call错alt allele错误的概率。也就是QUAL越大出错概率越小。
第七列 FILTER:对变异位点进行过滤,如果通过则为PASS,如果没有进行过滤就是”.”。
14. Wahlund效应(Wahlund effect)
15. 样本组内过滤(Within-group filtering)
图 对代表性研究和问题进行深思熟虑的、系统的和可重复的筛选的流程图
参考文献
Hemstrom, W., Grummer, J.A., Luikart, G. et al. Next-generation data filtering in the genomics era. Nat Rev Genet (2024).
凌恩生物