一文读懂基因组过滤：专业术语解析（二）

文摘 2024-12-03 08:02 内蒙古

在基因组过滤上一期的推文中，我们深入了解了基因组学中的一些专业术语，这些术语构成了我们理解基因组数据过滤技术的基础。今天，小编将继续带领大家深入学习更多相关名词，进一步丰富我们的基因组学知识库。

1. N50或L50分数（N50 or L50 scores）

在基因组组装中，将contigs或scaffolds按长度排序后，达到累积基因组长度50%的contig/scaffold长度（N50），或达到累积基因组长度50%所需的contig数（L50）；用于评估组装质量。

2. 旁系同源（Paralogues）

由于基因复制而产生的同源基因。这是一种由于特定区域的重复或整个基因组的重复而产生的同源的一种类型，与由于物种分化事件而产生的同源是不同的。

3. PCR重复（PCR duplicates）

由于模板数量不足或其他因素，反复测序多次相同模板DNA片段而导致的虚假、通常相同的reads复本。

4. 种群结构（Population structure）

也称为种群细分。研究区域/地区中个体之间非独立的原因，由空间、时间、行为或其他形式的生殖隔离引起。种群结构特征在不同位点间等位基因频率的差异。

5. reads深度（Read depth）

覆盖给定或固定基因组位置的reads数。也称为“覆盖度”。可以理解为基因组中每个被测到的碱基重复被测序的的平均次数（以碱基数量为单位）。

测序深度 = reads长度×比对的reads数目/参考序列长度

6. 参考偏倚（Reference bias）

对于包含非参考等位基因的reads，有遗漏比对或报告错误比对的倾向。

7. 同源区域（Runs of homozygosity）

连续的同源性序列，其中个体从其两个亲本处获得了相同的等位基因。可用于识别近亲繁殖、确定受选择的基因区域以及估计遗传负荷。长的同源区域可能意味着近期的近亲繁殖，而短的同源区域则可能代表远期的共同祖先。

8. 单核苷酸多态性（Single-nucleotide polymorphisms，SNPs）

在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。与其它分子标记相比，SNP分辨率较高也较为丰富，覆盖基因组范围大，遗传上比较稳定。

9. Singletons

在个体样本中仅出现一次的等位基因。有时被定义为在仅一个个体中出现的等位基因（可能是该等位基因的同源基因）。

10. 位点频谱（Site-frequency spectra，SFS）

研究或样本组内位点间等位基因频率的分布。可以是描述衍生等位基因频率分布的“展开”或“极化”频率谱，或者描述少数等位基因频率（MAF）分布的“折叠”或“非极化”频率谱。也称为等位基因频率分布。

11. 结构变异（Structural variation）

基因组上大长度的序列变化和位置关系变化。基因组结构性变异类型很多，包括长度在50bp以上的长片段序列插入或者删除（Big Indel）、串联重复（Tandem repeate）、染色体倒位（Inversion）、染色体内部或染色体之间的序列易位（Translocation）、拷贝数变异（CNV）以及形式更为复杂的嵌合性变异。

12. 全研究过滤（Study-wide filtering）

将过滤阈值“全局”应用于整个数据集中的所有样本，而不是在每个样本组内单独应用。

13. VCF文件

用于描述SNP（单个碱基上的变异），INDEL（插入缺失标记）和SV（结构变异位点）结果的文本文件。VCF文件分为两部分内容：以“#”开头的注释部分；没有“#”开头的主体部分。主体部分中每一行代表一个Variant的信息。

第一列 CHROM：染色体。

第二列 POS：基因组位置。

第三列 ID：变异位点的rsID号，如果没有的话用”.”表示。

第四列 REF：与参考基因组一样的位点。

第五列 ALT：与参考基因组不一样的位点。

第六列 QUAL：call出这个位点的质量。这个值等于-10log10(p)，p值是call错alt allele错误的概率。也就是QUAL越大出错概率越小。

第七列 FILTER：对变异位点进行过滤，如果通过则为PASS，如果没有进行过滤就是”.”。

第八列 INFO：variant的详细信息。GT：表示这个样本的基因型；AD：对应两个以逗号隔开的值，这两个值分别表示覆盖到REF和ALT碱基的reads数，相当于支持REF和支持ALT的测序深度；DP：覆盖到这个位点的总的reads数量；PL:对应3个以逗号隔开的值，这三个值分别表示该位点基因型是0/0，0/1，1/1的没经过先验的标准化Phred-scaled似然值；GQ：表示最可能的基因型的质量值。

14. Wahlund效应（Wahlund effect）

相对于Hardy-Weinberg比例（HWP）下的预期杂合度，在许多/大多数位点上由于潜在的种群结构引起的观察到的杂合度的减少。当样本中包含多个（亚）种群时，（亚）种群之间的等位基因频率差异将导致在这些位点上出现更多的同种型个体，这超出了在HWP下预期的数量（导致个体相对于亚群体的固定指数升高）。

15. 样本组内过滤（Within-group filtering）

在每个样本组内部分别应用过滤阈值，而不是同时应用于所有个体（例如，全研究范围或全局）。

图对代表性研究和问题进行深思熟虑的、系统的和可重复的筛选的流程图

参考文献

Hemstrom, W., Grummer, J.A., Luikart, G. et al. Next-generation data filtering in the genomics era. Nat Rev Genet (2024).

凌恩生物

凌恩生物拥有完善的测序平台、丰富的动植物基因组研究经验、超过十年的核心技术团队、个性化分析定制服务以及完整的研究技术路线和技术服务支持，帮助您深度挖掘基因组故事，开启生命科学领域的无限可能。联系我们，开启合作新篇章！

凌恩生物

凌恩生物旗下综合性生物咨询和服务平台。

最新文章

Cell Metabolism | 用别人的单细胞数据也能发27+？

产品更新| 遗传图谱+物理图谱，加速QTL定位分析！

KEGG大更新：开启生物研究新纪元

精准识别：专用引物提升叶际与植物内生菌鉴定精度

单细胞研究新热点：宿主-微生物互作分析

宏转录组+HiFi宏基因组：揭示厌氧消化中的碳流和能量转换

产品升级！Science子刊同款ARGs-HOST分析，get！

Amazing, 数据库也能发Nature？！

双因素研究：湿地类型与季节对微塑料生物膜的影响

双剑合璧：转录组+宏基因组揭示微生物与宿主互作机制

智慧之旅不止步！凌恩生物11月客户文章累计IF>532！

eDNA多营养级环境关联核心物种挖掘，Nature子刊教你还能这样做！

客户佳作|基因组解析新方法——单细胞DNA测序

一区10+ | 微生物功能+宿主转录组，突破反刍动物瘤胃发育机制！

CNS新热潮—单细胞层面的宿主与微生物关联分析

一文读懂基因组过滤：专业术语解析（二）

"暖心预付，冬日好礼相送 —— 凌恩生物2024冬季专享优惠活动"

重磅更新！双因素扩增子分析流程来了！

C4平台|单细胞核RNA测序揭示骨骼肌卫星细胞生物学功能

用RNA-seq打开重测序样本，快速发掘性状关联基因？

一文读懂基因组过滤：专业术语解析（一）

宏基因组+宏转录组双剑合璧，让您的研究脱颖而出!

重磅！宏基因组产品升级——病毒可以拼接完成图啦！

国产单细胞也能发CELL！

果味升级：多组学助力桃子风味改良

eDNA也能发Nature？！

单菌研究最佳拍档——宏基因组+qPCR

全新升级抗性宏基因组，直击病毒和毒力因子分析！

IF=7.6|单物种数据库构建标准流程

Nature子刊 | 单细胞测序打开发育系统溯源新视角

单细胞技术加持，扩增子测序重回高大上| 一区微生物多组学研究新思路！

研界的福尔摩斯——扩增子+qPCR

产品升级！肠道宏基因组微生物营养代谢新方向！

智慧之旅不止步！凌恩生物10月客户文章累计IF>452！

前沿快报|泛基因组在动植物研究中最新进展

【科研前沿】揭秘树蕨抗性基因：转录组与代谢组双剑合璧

微生态研究新热潮：微生物绝对定量（二）

"暖心预付，冬日好礼相送 —— 凌恩生物2024冬季专享优惠活动"

宏组学干货|一文get宏基因组产品如何选择

动物食性分析—eDNA+多营养级

C4单细胞|仅7个样品拿下高分文章！

多生境扩增子探秘：深度溯源与多样性解析

展会公告|第8届深海微生物国际学术研讨会(中国厦门)

如何认识泛基因组？从单一到多元？

展会公告|第8届深海微生物国际学术研讨会(中国厦门)

敢为天下先：三代宏基因组cMAGs交付承诺

拯救选择困难症！凌恩生物告诉您如何有效选择eDNA引物！

Nature子刊｜宏病毒研究新热点-元素循环

测序界的白宫严选，国产纳米孔测序测评报告，诚邀现场交流！

展会公告 | 凌恩生物与您相约2024年中国生态学学会微生物生态专业委员会2024年学术年会

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉