低深度重测序专题 | 基因型填充参考面板的构建策略

文摘   2024-09-14 17:43   北京  


全基因组低深度重测序(lcWGS)已日渐成为群体基因组学研究的一种经济高效的方案。

lcWGS的测序深度通常为0.1x~5x,在该测序深度水平下,基因组覆盖度有限,需要基于变异位点间的连锁不平衡对缺失基因型进行填充。

填充后的数据可用于全基因组关联分析(GWAS)、全基因组选择育种(GS)等场景。


基因型填充参考面板:低成本实现全基因组基因分型的关键


基于包含多种单倍型的参考面板进行基因型填充,这是lcWGS的一种常见分析策略。


高质量的参考面板对低次等位基因频率(Minor allele frequency, MAF)识别仍具有较优效果,显著提高关联分析的能力,为复杂性状的潜在生物学机制提供更多见解。



图  在次等位基因频率(MAF)较低的情况下,低深度重测序的填充准确度远高于50K SNP芯片[1]


研究显示,影响参考面板填充质量的因素主要包括测序深度、群体结构、群体大小[2-4]目前,格致博雅已自建涵盖多种单倍型的猪和牛的参考面板,可充分满足该类物种低深度测序水平下的群体基因组学研究需求



经验分享:猪遗传变异参考面板的构建和基因型填充效果评估


个体数量:2079头猪样本,数据来自于权威研究、公开数据库、自测高深度样本等

品种:亚洲野猪、欧洲野猪、亚洲家猪、欧洲家猪等

平均测序深度:约20x

质控后SNP数量:41,294,807个(对比SWIM数据库:30,489,782个[3]


填充效果分析:

基于缺失位点填充后结果和高深度测序结果的皮尔逊相关性系数的平方(r2)来评估填充效果。结果显示,lcWGS基因型填充结果与20x全基因组测序之间的r2达0.988以上。



表 基于自建猪参考面板测试样本的填充结果评估





无参考面板的群体如何开展低深度重测序


针对目前尚无参考面板(ref panel)的物种群体,可在本群体低深度重测序之后,基于群体结构分析结果,选取代表性个体进行至少>15x的高深度重测序,用于构建参考面板,完成基因型填充。



图 自构建参考面板流程



具体构建策略
(1)选多少品种?
研究显示[2,5],参考面板群体和目标填充群体之间的遗传相似性是基因型填充准确性的主要因素之一,即参考面板需包含待测品种。

我们对纳入品种数量进行测试。根据种群结构选取ref panel中4个种群样本(EO、SC、NC、EU),选定并构建包含不同样本数量或种群数量的参考面板子集:L0、L1、L2、L3,对EO群体1x 测序数据进行填充。


表 参考面板品种数量测试设置组别


结果显示,当构建参考面板样本数量一定时,若不包含待填充个体所属的种群或品种,填充准确性较低;当参考面板包含一定数量的待填充种群时,增加参考面板内的种群多样性可以一定程度提高填充准确性


(2)需要纳入的样本量?

用于构建参考面板的样本需要进行高深度全基因组测序,基于格致博雅实测结果,选取待测样本数量的20%进行高深度测序,即可作为构建参考面板的基础。



图 按照群体结构抽取20%样本做ref panel,填充准确性可以达到0.94且基本进入平台期


(3)用于构建参考面板的个体平均测序深度为多少?

既往研究中用于构建参考面板样本的测序深度多在10-30x。


表 既往针对不同物种的参考面板构建测序深度统计[1,6-9]


格致博雅实测结果显示,用于构建参考面板的样本测序深度至少大于15x,20x以上效果更优。

图 不同测序深度测试结果



(4)如何评估构建与填充效果效果?

一般从一致率和r2两个维度评估参考面板构建与填充效果[10-12]。一致率即为填充正确的位点占总待填充位点的比率;r2即为缺失位点填充后结果和高深度测序结果的皮尔逊相关性系数的平方(r2)。


总结:
综上所述,高质量的基因型参考面板作为基因型填充过程中不可或缺的一部分,对于提高填充准确性和降低研究成本具有重要意义。格致博雅通过对样本的合理收集、严格的数据质量控制、领先的单倍型构建技术,以及持续的验证和优化,确保参考面板的高效性和可靠性。同时针对自建参考面板提供了一整套构建策略,以便为客户提供定制化的参考面板构建方案提供基准。

【参考文献】



【1】Lloret-Villas A, Pausch H, Leonard AS. The size and composition of haplotype reference panels impact the accuracy of imputation from low-pass sequencing in cattle.Genet Sel Evol. 2023;55(1):33. Published 2023 May 11. doi:10.1186/s12711-023-00809-y

【2】Ding R, Savegnago R, Liu J, et al. The SWine IMputation (SWIM) haplotype reference panel enables nucleotide resolution genetic mapping in pigs.Commun Biol. 2023;6(1):577. Published 2023 May 30. doi:10.1038/s42003-023-04933-9

【3】Rubinacci S, Hofmeister RJ, Sousa da Mota B, Delaneau O. Imputation of low-coverage sequencing data from 150,119 UK Biobank genomes.Nat Genet. 2023;55(7):1088-1090. doi:10.1038/s41588-023-01438-3

【4】Martin AR, Atkinson EG, Chapman SB, et al. Low-coverage sequencing cost-effectively detects known and novel variation in underrepresented populations.Am J Hum Genet. 2021;108(4):656-668. doi:10.1016/j.ajhg.2021.03.012

【5】Tong X, Chen D, Hu J, et al. Accurate haplotype construction and detection of selection signatures enabled by high quality pig genome sequences.Nat Commun. 2023;14(1):5126. Published 2023 Aug 23. doi:10.1038/s41467-023-40434-3

【6】Fuller ZL, Mocellin VJL, Morris LA, et al. Population genetics of the coral Acropora millepora: Toward genomic prediction of bleaching.Science. 2020;369(6501):eaba4674. doi:10.1126/science.aba4674

【7】Zhang Z, Wang A, Hu H, et al. The efficient phasing and imputation pipeline of low‐coverage whole genome sequencing data using a high‐quality and publicly available reference panel in cattle[J]. Animal Research and One Health, 2023, 1(1): 4-16.

【8】Reich P, Falker-Gieske C, Pook T, et al. Development and validation of a horse reference panel for genotype imputation[J]. Genetics Selection Evolution, 2022, 54(1): 49.

【9】Sui M, Liu Z, Huang X, et al. Development and evaluation of a haplotype reference panel of Zhikong scallop (Chlamys farreri) for genotype imputation[J]. Aquaculture, 2024, 582: 740497.

【10】Wang X Q, Wang L G, Shi L Y, et al. Imputation strategies for low-coverage whole-genome sequencing data and their effects on genomic prediction and genome-wide association studies in pigs[J]. animal, 2024, 18(9): 101258.

【11】Zhang Z, Ma P, Zhang Z, et al. The construction of a haplotype reference panel using extremely low coverage whole genome sequences and its application in genome-wide association studies and genomic prediction in Duroc pigs[J]. Genomics, 2022, 114(1): 340-350.

【12】Yang R, Guo X, Zhu D, et al. Accelerated deciphering of the genetic architecture of agricultural economic traits in pigs using a low-coverage whole-genome sequencing strategy[J]. Gigascience, 2021, 10(7): giab048.







北京格致博雅生物科技有限公司(简称“格致博雅”)是国内领先的高通量测序和生物信息学技术研发企业,自成立以来始终秉持着“让生命可知”的愿景,专注于动植物多组学测算服务,致力于为育种 4.0 提供智能化解决方案。格致博雅具备完整的基因检测技术链,拥有自动化的样本前处理平台、超高通量 DNBSEQ-T7 测序平台以及配备有大量自研数据处理流程的高性能计算中心,以“大数据+生物技术”为核心竞争力。格致博雅搭建有多基因分型检测、高通量测序和动植物多组学数据挖据的生物育种底层技术平台,提供基因组测序与分析、单细胞及多组学测序与分析和宠物基因检测三大技术服务。格致博雅现已获得北京市“专精特新”中小企业、国家高新技术企业、中关村高新技术企业、北京市“创新型”中小企业、ISO9001 质量体系认证等多项荣誉资质。 


格致博雅生物科技
Make Life Predictable
 最新文章