一文畅谈,何为“泛”基因组——泛基因组的样本选择

学术   2024-11-07 16:35   湖北  

点击蓝字关注我们




泛基因组(Pangenome)是指一个物种中所有个体的基因组信息的集合,包含核心基因组和可变基因组。核心基因组是所有构建泛基因组的物种个体共有的基因,而可变基因组则包含特定个体或亚种中存在的独特基因或序列变异。泛基因组研究在现代基因组学中占据重要地位,它揭示了不同物种的基因多样性和变异性,进而推动了对进化、生物多样性、疾病抵抗及农业改良等领域的深入理解。


泛基因组示意图

(图源:https://www.nature.com/articles/nmicrobiol201740)


在泛基因组研究中,材料的选择至关重要,不同物种在样本选择和研究策略上存在显著差异。人类、动物和植物的泛基因组研究各自侧重于不同的样本选择目标和策略,反映了它们在基因组研究中的独特需求。根据不同的样本类型,我们将泛基因组研究整理并分为以下几类,以便各位老师可以结合自身材料特点,更好地规划和设计泛基因组构建所要用的材料体系。


01

人类泛基因组


在人类的泛基因组研究中,样本选择通常聚焦于来自不同族群和地理背景的代表性个体。这种选择旨在捕捉广泛的遗传多样性,不仅有助于识别与特定族群相关的疾病易感性、个体差异及环境适应性相关的遗传变异,还通过涵盖特定地理环境的遗传特征,提供了揭示适应性、免疫反应和环境适应机制的独特视角。通过分析这些多元化的样本,研究者能够深入理解人类遗传多样性及其对健康和疾病的影响,从而建立更全面且具有代表性的基因组参考数据基础。


人类泛基因组案例1- A pangenome reference of 36 Chinese populations

发表时间:2023.06

发表期刊:Nature

所选样本:36个少数民族的58例个体二倍体基因组(共116个assemblies)

基因组组装特点:单倍型分型基因组

主要研究内容:首个中国人群专属的泛基因组参考图谱,涵盖了36个少数民族的高质量基因组数据,新增了此前未记录的序列和变异,为人类进化研究和复杂疾病遗传研究提供了新的视角。


CPC(Chinese Pangenome Consortium)包含58个核心样本的二倍体组装


人类泛基因组案例2- A draft human pangenome reference

发表时间:2023.05

发表期刊:Nature

所选样本:47例全球各地不同血统人群二倍体基因组(共94个assemblies)

基因组组装特点:单倍型分型基因组

主要研究内容:人类泛基因组参考联盟发布了首个泛基因组参考的初步草图。此泛基因组包含来自全球各地不同血统人群的47个二倍体组装,每个基因组覆盖了超过99%的预期序列,并在结构和碱基对水平上达到99%以上的准确性。不仅捕获了已知变异和单倍型,还揭示了结构复杂位点的新等位基因。与GRCh38参考基因组相比,新增了1.19亿个碱基对的常染色质多态性序列和1,115个基因重复,其中约9,000万碱基对来自结构变异。使用此泛基因组分析short-reads数据,检测到结构变异基因的数量增加了104%,对较小变异检测的准确性也提高了34%左右。


HPRC(Human Pangenome Reference Consortium)样本选择


02

动物泛基因组


在动物泛基因组研究中,样本选择通常聚焦于来自不同品种和地理区域的个体,以探讨性状差异的遗传基础。研究人员会挑选具有显著遗传多样性的个体,尤其是那些在不同环境中表现出独特适应性的个体,从而识别与这些性状相关的基因。例如,选择在特定环境中表现优异的个体可以帮助揭示遗传变异如何影响适应性。此外,选择来自全球不同地区的样本有助于研究动物在进化过程中形成的关键遗传特征,为理解性状形成的遗传机制及适应性提供了独特视角。


动物泛基因组案例1- Evolutionary origin of genomic structural variations in domestic yaks

发表时间:2023.09

发表期刊:Nature Communications

所选样本:该研究使用测序组装的28个样本(6 wild yaks, 15 domestic yaks, 2 low-altitude Asian zebu, 4 high-altitude taurine cattle, 1 high-altitude taurine-zebu-yak hybrid)结合已发表的19个样本基因组数据(1 wild yak, 14 cattle, 2 bison, 1 wisent, 1 gaur),共47个样本构建牛属超级泛基因组

基因组组装特点:HiFi / ONT de novo基因组

主要研究内容:该研究基于7种可杂交牛种(cross-fertile bovine species)的47个基因组图谱,进一步构建牛属超级泛基因组图谱,识别出与驯化、自然选择和种间基因流相关的57,432个高置信度的结构变异(SVs),并分析这些变异在家养牦牛的基因组中的来源和对表型多样性的贡献。研究发现,大约90%的家养牦牛受到基因流影响,并且与KIT基因相关的结构变异和白色家养牦牛的育种有关。


牛属图形泛基因组特征


动物泛基因组案例2- De novo assembly of 20 chicken genomes reveals theundetectable phenomenon for thousands of core genes on micro-chromosomes and sub-telomeric regions

发表时间:2022.03

发表期刊:Molecular Biology and Evolution

所选样本:15个世界范围内不同家鸡品种的20个个体样本

基因组组装特点:PacBio SMRT de novo基因组

主要研究内容:本研究通过对20个高深度测序的de novo组装基因组构建了鸡的泛基因组,鉴定出了1,335个新的蛋白编码基因和3,011个长链非编码RNA,这些基因在现有的GRCg6a参考基因组中未被发现。大部分新基因来自于转录组分析,但在DNA测序数据中较少被检测到。与以往泛基因组模型不同,这些新基因主要集中在染色体的亚端粒区域和微染色体,且受高比例串联重复序列的影响,DNA测序质量受到非典型DNA结构的显著干扰。


研究表明,新鉴定的基因的替代率是参考基因组的三倍,可能代表了鸟类进化速率较低的一种补偿机制。亚端粒区域具有高重组率和高双链断裂率,这些特征可能与基因转换过程和串联重复的扩增或收缩有关。此外,研究发现的新免疫相关基因及其改善的免疫途径,对理解相关疾病具有重要意义。该研究为构建更完善的鸡基因组提供了框架,有助于深入理解鸟类进化并促进家禽育种的改进。


测序样本的地理位置分布及组装结果统计


动物泛基因组案例3- Duck pan-genome reveals two transposon insertions caused bodyweight enlarging and white plumage phenotype formation during evolution

发表时间:2023.12

发表期刊:iMeta

所选样本:3个北京鸭(商业品种)+1个绍兴鸭(本土品种)+1个野鸭(野生近缘种),共5个鸭基因组构建泛基因组

基因组组装特点:公共数据库下载的参考基因组

主要研究内容:本文构建了首个鸭子泛基因组,并研究了结构变异(SVs)在鸭子驯化和性状改良中的重要性。结合高深度测序数据(约46.5×),共识别出101,041个SV,其中相当一部分来源于转座子的活性。许多源于转座子的SV位于基因体或调控区域,与鸭子的驯化和改良密切相关。通过数量遗传学与分子实验的结合,首次揭示了6945 bp的Gypsy插入作为与鸭体重相关的主要基因IGF2BP1的功能突变。这一Gypsy插入被认为是鸟类中对体重影响最大的突变,解释了27.61%的表型变异。此外,作者发现MITF内含子中的另一个6634 bp的Gypsy插入导致MITF产生新转录本,从而促进了白色羽毛的发育。本文研究结果强调了采用泛基因组作为参考基因组在基因组学研究中的重要性,且揭示了转座子对鸭重要经济性状形成的影响。


鸭泛基因组研究总览


03

植物泛基因组


在植物泛基因组研究中,样本选择至关重要,旨在确保样本的代表性和遗传多样性。研究者通常优先考虑与农业特性相关的因素,如产量、农艺性状、抗逆性和环境适应性等,这些因素直接影响作物在不同环境下的表现。因此,所选代表性样本通常包括来自不同地理区域和生长条件的个体,并涵盖近缘野生种,以充分覆盖物种的遗传变异范围。


此外,通过整合多群体样本的重测序数据,植物泛基因组研究能够开展结构变异-基因组关联研究(SV-GWAS),这种样本选择策略不仅有助于识别与特定性状和环境适应相关的关键基因,还揭示了结构变异(SV)在基因组多态性中的重要作用。这种方法深入解析了与农艺性状和环境适应相关的结构变异,推动了对植物遗传基础的理解,并为育种和遗传改良提供了重要资源。


植物泛基因组案例1- Grapevine pangenome facilitates trait genetics and genomic breeding发表时间:2024.11

发表期刊:Nature Genetics

所选样本:29个单倍型组装(包含本研究9个新测序组装的共18个单倍型组装+11个已发表的组装数据)

基因组组装特点:单倍型T2T基因组

主要研究内容:该研究对9个二倍体葡萄样本进行精细组装,获得了18个T2T水平的单倍型基因组。整合已发表的基因组,构建了首个驯化葡萄Grapepan v1.0图泛参考基因组。成功消除了单参考基因组的偏差。基于泛基因组,研究构建了包含SNP、InDel和SV的葡萄基因型图谱与重要育种性状的表型图谱。通过系统的群体遗传学与数量遗传学挖掘,解析了葡萄复杂农艺性状的遗传基础,定位了29个农艺性状相关的QTLs。此外,该研究发现大部分SVs与SNPs不连锁,且SVs对农艺性状缺失的遗传力有显著贡献。通过整合机器学习算法、基因型图谱、表型图谱和数量遗传学分析,提出了葡萄多性状的全基因组选择育种模型,成功构建了葡萄全基因组选择育种体系,为多性状基因组选择育种提供了理论依据和实践指导,有助于加速葡萄品种创新,适应种植需求、市场变化和气候变化。


T2T基因组组装和Grapepan v.1.0构建


植物泛基因组案例2- Telomere-to-telomere Citrullus Super-pangenome Provides Direction for Watermelon Breeding

发表时间:2024.07

发表期刊:Nature Genetics

所选样本:西瓜属全部7个种的28份代表性材料

基因组组装特点:T2T基因组

主要研究内容:作者根据429个样本的系统发育关系和地理分布,选择了27个具有代表性的种质,将其组装至端到端(T2T)水平,结合已发表的西瓜T2T基因组,共同构建了西瓜属的超级泛基因组。该发现,结构变异(SV)对基因组多态性和功能基因变异的影响显著大于单核苷酸多态性(SNP)。与G42参考基因组对比,鉴定出461,987个非冗余的SV,且这些SV倾向于集中在DNA重复区域。平均而言,27.5%的SV与基因的上游或下游2 kbp区域重叠,7.5%的SV导致氨基酸编码的变化,从而可能引起基因功能的多样性。这些结果显示,超级泛基因组中的SV反映了栽培西瓜及其相关物种在进化过程中的重大结构变化,深化了对西瓜属基因组及表型变化的理解。


西瓜T2T泛基因组特征分析


植物泛基因组案例3- Large-scale gene expression alterations introduced by structural variation drive morphotype diversification in Brassica oleracea

发表时间:2024.02

发表期刊:Nature Genetics

所选样本:22个从头组装的代表性材料+5个已发表的甘蓝基因组(共27个高质量基因组构建泛基因组,包含了B. oleracea所有的形态类型及野生近缘种)

基因组组装特点:PacBio SMRT / ONT de novo基因组

主要研究内容:研究团队使用27个能够代表所有形态类型及其野生亲缘种的高质量基因组构建了B. oleracea泛基因组。在此研究中,研究人员识别了这些基因组之间的结构变异(SVs),结果表明,SVs对许多基因的表达具有双向调控作用,可能通过DNA甲基化抑制基因表达,或通过包含转录因子结合元件来促进基因表达。例如,SVs在花椰菜/西兰花中促进了BoPNY基因的表达,而抑制了BoCKX3基因;在卷心菜中抑制BoKAN1和BoACS4基因的表达,并促进了观赏甘蓝中BoMYBtf基因的表达。这些结果为SVs在基因表达调控中的作用提供了明确的证据,推动了B. oleracea的驯化和多样化进程。


甘蓝群体样本的系统发育树(含27个代表性样本图像)


总结


基因组研究的从一到泛,在不同物种中展示了遗传多样性的丰富图景。从人类到动物、植物,各自的泛基因组研究都围绕特定的遗传多样性展开,以捕捉不同物种的独特基因特征,并解答它们在环境适应、性状形成和遗传多样性等多个方面的科学问题。通过科学的样本选择和多维度的关联分析,这些研究不仅推动了科学家们对各物种遗传基础的理解,更为精准医学、农业育种和生态保护等研究带来了宝贵的应用资源。


为帮助读者进一步探索泛基因组研究的多样性,我们特别整理了近年发表的高分且具有代表性的泛基因组研究文章,展示该领域的最新进展:











往期精彩:


开学季产品介绍——T2T基因组

开学季产品介绍——泛基因组

开学季产品介绍——单倍型T2T基因组

文献解读|最全面的猪基因组结构变异图谱

多组学方案——植物(非)生物胁迫机制研究专题

NAR解读|Direct RNA测序揭示U6 snRNA m6A 修饰在mRNA准确剪接中的关键作用

Nature子刊解读|基于单细胞长读长测序揭示了发育中及成年小鼠和人类大脑中的特定剪切模式

NC文献解读| Direct RNA测序能够消除传统抗体方法检测m6A修饰的假阳性问题

文献解读|小鼠肝脏对反复毒性损伤的耐受性与脂肪变性和炎症有关




武汉贝纳科技有限公司(下称"贝纳基因")成立于2012年,总部位于武汉高农生物园,是一家专注于Nanopore测序、二代测序和生物信息分析技术开发和应用的国家高新技术企业。核心团队拥有多年高通量测序、Nanopore测序和生物信息分析经验,在Nature和Science系列杂志发表多篇学术论文,博士、硕士学历员工占企业员工总数的72%。拥有自主测序平台(国内首批引进Nanopore PromethION平台)和专业的生物信息分析团队。


贝纳基因使用Nanopore平台完成全球第一个大型复杂植物基因组(菊花基因组)的组装和后续分析工作。提出并推动千种本草基因组计划,并构建药用植物基因组数据库,推动药材研究的发展。


贝纳基因使用Nanopore平台完成数千份细菌基因组、宏基因组测序和数据分析;完成数千份全长转录组和Direct转录组测序及分析。提出并推动基于Nanopore测序的万种微生物基因组完成图计划和十万人的Nanopore宏基因组研究计划。


贝纳基因开发了基于Nanopore平台的微生物检测体系,自主开发的数据库涵盖现已正式发表的所有微生物基因组,大型测序仪单机一次运行可以产生7.2T数据,小型便携式测序系统可用于临床检测和野外作业。


服务类型



网站:www.benagen.com
地址:武汉东湖新技术开发区高新大道888号高农生物园总部B区12C栋
电话:027-62435310 
手机:15337161420
邮箱:service@benagen.com

贝纳课堂-Nanopore交流QQ群:992789813(本群已满)

贝纳课堂-Nanopore交流QQ群2:923119248

生物信息交流QQ群:198746977

客服QQ:3277498363


贝纳基因
贝纳基因拥有Nanopore测序平台,专业提供基因组、转录组、宏基因组、重测序、蛋白组和代谢组等服务。贝纳基因愿景是“多场景测序应用方案引领者”。
 最新文章