入门泛基因组,从发展史到测序和分析(内附泛基因组数据库)

学术   2024-12-25 11:30   湖北  
谈“泛基因组”之前,我们先聊聊传统参考基因组。高质量的参考基因组是做其他组学研究的前提,比如说我们常接触的转录组,表观组ChIP-seq、CUT&Tag、WGBS和ATAC-seq等。基因组包含生物体的全套遗传信息,研究中通常会将一个物种中重要的品系或者最先测出的基因组作为参考基因组,并以此为基础进行个体或群体水平的遗传变异分析。然而,由于地域、环境等因素的影响,同一物种内的不同个体间存在着丰富的遗传变异,来自单一个体的参考基因组难以覆盖。
单一参考基因组的局限性,由此“泛基因组”应运而生,它是指一个物种中所有个体的基因组信息的集合,包含核心基因组、非必需基因组和特有基因组

泛基因组的概念[1]

通常情况,对一个物种的多个个体进行测序、组装,然后比较分析,找到它们的共有基因或者基因组序列,这部分就是核心基因组; 剩下的不是所有个体共有的,就是非必需基因组,或者说是可变基因组(下图)。

图:利用多种基因型构建泛基因组[2]

根据下面的拟合曲线,可以将泛基因组分为两类:开放泛基因组(Open Pangenome)和封闭泛基因组(Closed Pangenome)。开放泛基因组指的是物种或种群的泛基因组规模可以持续增加,随着新个体的加入,泛基因组会不断引入新的基因,没有明显的上限。封闭泛基因组指的是物种或种群的基因组规模有限,随着新个体的加入,泛基因组的总大小趋于稳定,不再显著增加。

图:泛基因组大小作为分析中使用的个体数量的函数[2]

传统的基因组研究通常依赖于单一参考基因组,这种方法虽然为基因组学的发展奠定了基础,但也存在显著的局限性。单一参考基因组无法全面反映种群内的遗传多样性,尤其是在高度异质性的物种中(如细菌、植物和人类)。泛基因组的提出弥补了这一不足,它通过整合多个个体的基因组信息,构建出包含核心基因组(所有个体共有的基因)和可变基因组(部分个体特有的基因)的综合基因组框架,从而揭示种群内的遗传多样性和进化规律。基于泛基因组的优势,可以想见未来泛基因组会成为参考基因组的新标准。
图:传统的线性参考基因组与泛基因组的比较[3]
IGENEBOOK


 泛基因组的发展史 


测序技术的发展,尤其是三代技术在基因组组装和结构变异检测上有了很大的提升,带动了泛基因组的发展。泛基因组相关的文章数量也在逐年走高。

Pubmed发表文章

2005年,Tettelin等在无乳链球菌的研究中首次提出泛基因组的概念,包括所有菌株中都存在核心基因组和部分菌株中特有的非必需基因组。2007年,Morgante等首次将这一概念引入植物研究,但当时限于测序技术和成本,并没有大规模应用。2014年,陆续报道了大豆、水稻和玉米等植物的泛基因组。后来随之测序技术的发展,尤其是三代技术,许多植物的泛基因组得到构建,近两三年相关报道明显增加了不少。

01
人泛基因组
传统的人类基因组研究以“参考基因组”(如GRCh38)为基础,但仅基于有限样本进行构建,未能充分反映全球人群的基因组多样性。2023年,人类泛基因组参考联盟构建了有史以来最完整、最准确的人类 "泛基因组 "。DNA 样本来自47个不同种族的个体。据官网信息,2024年预期增长到350个个体。
与GRCh38参考基因组相比,该人类泛基因组新增了1.19亿个碱基对的常染色质多态性序列和1,115个基因重复,其中约9,000万碱基对来自结构变异。人类参考基因组不断演化,从最初的HGP到GRCh36/37/38,标志着人类基因组学的进步。传统线性参考基因组的局限性使得泛基因组成为未来的主流方向。通过结合长读长测序、图结构算法,以及更大范围的人群数据,我们正在迈向一个更加全面、多样化的基因组研究新时代。
除了针对全球人类的泛基因组的构建,还有一些针对特定地区或国家的人类泛基因组的发布。2024年,复旦大学、西安交大、中国医学科学院等26家单位联合发布了中国人群泛基因组联盟(CPC)一期研究进展。相关成果以“A Pangenome Reference of 36 Chinese populations”为题发表于Nature。
02
动物泛基因组

相较于微生物和植物,动物的泛基因组研究主要集中在人类和家禽类动物,在动物研究中,泛基因组学具有重要的科学价值和实际应用意义,涉及进化生物学、育种、遗传学以及保护生物学等多个方面。

据不完全统计,已构建泛基因组的动物

03
植物泛基因组

2000年,模式植物拟南芥的第一个参考基因组发布,此后陆续发布了重要作物的第一个参考基因组,比如水稻、葡萄、玉米、大豆、番茄和小麦等。随着植物参考基因组的可用性和短读长测序技术的成熟(约2010年),利用新型计算算法实现基因组范围内复杂结构变异(插入、缺失、重复、倒位等)的识别成为可能。2016年,提出了一种“映射到泛基因组”的策略,用于未映射短读长的组装和泛基因组的构建。几乎在同一时间,PacBio和Nanopore长读长测序技术的进步促进了高质量基因组的组装和比较,以无偏差地识别PAV序列并构建泛基因组。2020年,第一个基于图形的植物泛基因组在大豆中构建;预计它将成为传统线性泛基因组方法的更好替代方案,以实现更有效的泛基因组分析。

高等植物具有高度的种内遗传多样性,以适应不同的生长环境。得益于测序技术的发展,基因组在作物遗传学研究和分子育种中发挥越来越重要的作用。泛基因组比传统单个参考基因组具有许多优势,可以预见未来泛基因组在植物研究的应用会越来越广泛。

图:植物参考基因组构建中的主要事件的时间线(上)和代表植物泛基因组的方法(下)[4]
IGENEBOOK


 测序和分析  

01
样本和测序
样本选择对泛基因组研究的检测效率和完整性至关重要。选择亲缘关系近的材料会低估泛基因组规模,而结合野生种质和栽培种质则能构建更大规模的泛基因组。为在最低成本下捕获物种的全部基因组信息,应基于经验或群体结构选择最具代表性的个体,涵盖不同亚种、地域及野生与栽培种等多种特性。
测序策略上,泛基因组构建通常采用“三代+二代”的测序策略,同时以Hi-C和RNA-seq辅助组装和注释。
02
泛基因组构建
泛基因组的构建主要有三种方法:从头组装、迭代组装和基于图的组装。以下图为例,解释相关构建原理。

图:泛基因组的构建方法[6]

  • 从头组装

针对每个个体(A、B、C、D)的基因组数据进行De novo组装,生成每个个体的完整基因组序列。然后将所有个体的基因组比对,识别出核心基因组和非必需基因组。这个组装能清晰地区分核心基因组和特异的可变基因。但需要大量计算资源,尤其当个体数目增加时,处理大规模数据的难度增加。

  • 迭代组装

使用一个个体(A)的基因组作为参考基因组,进行初始组装。将新增个体(如B)的基因组与参考基因组比对,整合新发现的序列,生成更新后的泛基因组(AB)。重复这一过程,依次加入其他个体(如C和D),最终得到包含所有个体(ABCD)的完整泛基因组。优点:这是一种增量更新方法,每次只处理一个新增个体,计算量相对较低。可以动态扩展泛基因组,便于分析过程中逐步改进。缺点:基于已有参考基因组组装,可能会对后来加入的个体序列产生偏差,遗漏部分特异基因组特征。

  • 图形泛基因组

利用所有个体的基因组数据(De novo组装),构建序列图(Graph),图中每个节点表示一个基因或序列模块,每条边表示相邻序列之间的关系。不同颜色的模块节点对应不同个体的序列特征。共享路径:即所有个体都共有的基因或片段(例如核心基因)。分支路径:即不同个体特有的可变序列(如仅存在于某些个体中)。
图形泛基因组的优点是能全面展示所有个体序列之间的共享与变异关系,尤其适合高遗传多样性物种。表达灵活,便于可视化复杂基因结构和变异模式。缺点:建立大规模序列图需要复杂算法和较高的计算资源,成本高。通常情况需要10个个体以上的染色体水平的高质量基因组,一些文章采用的策略是“自测+公共数据库”。

03
泛基因组分析
泛基因组的分析流程大体如下:
  • 常见分析结果

泛基因组文章中常见的高频分析结果有系统发育树、核心基因和非必需基因统计分类、结构变异分析、共线性分析和GWAS分析,涵盖了从进化分析到变异分析、基因组结构和功能基因挖掘等多方面内容。
  • 核心与非核心基因分析

泛基因组分析通过对每个个体中共有情况进行基因集聚类,通常分为以下三种:核心基因(core gene)、非必需基因(dispensable gene)和特有基因(Private)。除了这三个分类,在某些研究中还有更细的分类。

泛基因组特征分析除了对基因进行分类,还会分析基因组大小和核心基因组大小(下图a),有多少基因/基因家族在所有个体中都存在。泛基因组中基因频率分布描述了基因在物种或群体基因组之间的保守和可变性。基因频率分布,经常呈现不对称的首尾高中间低的分布形式(U形),表明大多数基因要么以核心基因组的形式存在于绝大多数个体中,要么存在于个别个体中(下图b)。核心基因通常比较保守,多为管家基因,能够反映该物种的稳定性;非必需基因通常具有特定环境适应性,与个体的特性和防御反应相关[1]
西瓜泛基因组分析[5]
  • 结构变异分析

泛基因组分析的重点之一就是结构变异,主要有几种类型:缺失(deletions)、 插入(insertions)、重复(duplications)、倒位(inversions)和异位(translocations)。比对参考基因组鉴定结构变异,然后统计SV数量和分布占比。此外,研究中通常利用PCR验证SV结果。

不同基因组中SV类型的比较[5]

PCR验证SV鉴定结果

  • SV-GWAS

GWAS是一种探索基因组变异与表型(疾病或其他性状)之间关联的方法。传统的GWAS大多基于SNP(单核苷酸多态性),但随着测序技术进步和基因组学的深入研究,结构变异(SV, Structural Variations)的重要性日益凸显,SV-GWAS逐渐成为新热点。结构变异涉及的DNA序列长,可能对表型产生更大的影响,数目相对SNP少。SV-GWAS,目前策略上通常采用“泛基因组+群体重测序数据(二代)”的方式。

西瓜肉色的GWAS分析[5]

04
泛基因组数据库
目前,有不少物种发布了泛基因组文章,并且发布了相关基因组和数据库。
  • 水稻泛基因组:https://riceome.hzau.edu.cn/

该数据库是华中农业大学开发并储存的一个水稻数据库RGI,并向全球开放免费使用。在这个数据库里,亚洲稻的每一个基因都能轻松找到同源或相近的基因,以及追踪其演变历史。该数据库是世界上首个基于同源基因的水稻泛基因组综合数据库。

  • 杨树泛基因组:http://www.populus-superpangenome.com/

该数据库可以使研究人员能够轻松访问杨属超级泛基因组中任何物种的泛基因类型和特定基因的功能注释。该数据库还支持在物种内及跨物种搜索直系同源和旁系同源基因,从而高效探索多个基因组中的结构变异(SVs)。另外,这个网站还支持下载杨树物种的多种组学数据。

  • 家蚕泛基因组和多组学数据库SilkMeta:http://silkmeta.org.cn/

  • 甘蓝型油菜泛基因组数据库BnPIR:http://cbi.hzau.edu.cn/bnapus/

IGENEBOOK


 泛基因组家族分析 


基因家族分析通常用于研究一组来源于共同祖先的功能相关基因的扩张、收缩和进化特性,帮助理解基因的功能分化和生物性状的适应性演化。以往的基因家族分析主要基于单一参考基因组,并且是一种低成本、短平快发文章的方式。
泛基因家族分析是一种基于物种泛基因组序列信息的新方法,可弥补单一参考基因组无法全面代表物种全部遗传变异的不足,为基因家族分析提供了全新的思路。

基于玉米泛基因组(26个玉米基因组)的基因家族分析[7]

近日,澳大利亚莫道克大学李承道院士团队在Plant Communications 在线发表了题为 “Pangenome and pantranscriptome as the new reference for gene family characterisation -a case study of basic helix-loop-helix (bHLH) genes in barley”的研究论文,为泛基因组和泛转录组时代的基因家族分析提供了一个新参考——大麦bHLHs基因的案例研究:首个将泛基因组基因家族分析与泛转录组数据整合在一起的研究。

进行泛基因组基因家族分析的前提是已有发表的泛基因组。据不完全统计,目前已发表过泛基因组的植物有如下物种:

IGENEBOOK


 泛基因组和多组学 


泛基因组与多组学的结合将传统基因组分析从静态的基因结构层面延伸到动态的功能和调控层面。这种结合弥补了单一参考基因组视角的不足,能够深入探索基因变异如何影响复杂表型和生态适应性,为农业育种和生物学基础研究提供了全新思路,同时也为精准医学、工业化生物工程等领域的应用开辟了更广阔的前景。
2024年,四川大学和南京林业大学等团队合作构建杨属物种属级水平超泛基因组,并结合转录组、甲基化组WGBS、染色质可及性ATAC-seq、群体重测序、基因功能验证等多维度、多尺度证据,深入解析了基因组同源/等位变异和表观遗传调控在杨属物种形态特征多样化和差异环境适应性中的潜在作用和可能机制[7]

泛基因组研究之外衍生的泛转录组和泛三维基因组也是现在较为前沿的研究方向。

泛转录组:Pan-transcriptomic是泛基因组理论在转录组学中的延伸,通过全局比较不同样本或条件下的转录组,揭示物种多样性、适应性和进化特性。主要生成和分析来自多个组织的大量短读和长读RNA测序数据集。




泛三维基因组:泛三维基因组(Pan-3D Genome)是一种基于三维基因组学和泛基因组学的整合研究方法,旨在构建特定物种或种群范围内多样性的三维基因组结构集合。

本期,我们介绍完泛基因组的基本内容,涉及概念、发展史、样本选择、测序策略、常见分析和相关泛基因组数据库,另外还有介绍基于泛基因组的基因家族分析,还有泛基因组和多组学的结合。

如您有泛基因组相关研究的计划,欢迎联系我们~

项目咨询

  • 参考文献

[1] 郝晨路,於晓芬,曲明昊,赖恩惠,郭素敏,高磊. 植物泛基因组研究进展与展望[J]. 植物科学学报,2022,40(1):124-132.
[2] Golicz A A, Bayer P E, Bhalla P L, et al. Pangenomics comes of age: from bacteria to plant and animal applications[J]. Trends in Genetics, 2020, 36(2): 132-145.
[3]  Matthews C A, Watson-Haigh N S, Burton R A, et al. A gentle introduction to pangenomics[J]. Briefings in Bioinformatics, 2024, 25(6): bbae588.
[4] Shi J, Tian Z, Lai J, et al. Plant pan-genomics and its applications[J]. Molecular Plant, 2023, 16(1): 168-186.
[5] Zhang Y, Zhao M, Tan J, et al. Telomere-to-telomere Citrullus super-pangenome provides direction for watermelon breeding[J]. Nature Genetics, 2024, 56(8): 1750-1761.
[6] Li W, Liu J, Zhang H, et al. Plant pan-genomics: recent advances, new challenges, and roads ahead[J]. Journal of Genetics and Genomics, 2022, 49(9): 833-846.
[7] Shi T, Zhang X, Hou Y, et al. The super-pangenome of Populus unveils genomic facets for its adaptation and diversification in widespread forest trees[J]. Molecular Plant, 2024, 17(5): 725-746.
 了 解 更 多 
{ 往 期 精 彩 回 顾 }

 精选合集,欢迎收藏哟! 

点个「在看」 天天发SCI

爱基百客生物
爱基百客是一家专业提供表观组学、单细胞与空间组学以及高通量测序分析的新型生物科技服务企业,旗下拥有DNBSEQ-T7、10xGenomics等平台,依托表观技术的优势,为生命科学研究和医疗健康等领域提供方案设计到数据分析一站式服务。
 最新文章