Nature Genetics | 中国农业大学李孟华团队发表首个绵羊T2T参考基因组

文摘   2025-01-18 08:42   湖南  

       绵羊(Ovis aries)是最早被驯化的家畜之一,其参考基因组的高质量组装对于研究其进化历史、迁徙、遗传多样性以及与特定性状相关的因果突变具有至关重要的意义。自2014年绵羊基因组草图首次公布以来,已有近60个不同品种的绵羊基因组在NCBI发布。反刍动物存在大规模的串联重复序列区域(例如端粒、端着丝粒,Y染色体),这些区域在现有的绵羊基因组上往往缺失或未被解析,即使使用最新的长读长测序数据,完整组装这些复杂区域仍然面临极大挑战。目前所有已报道的绵羊基因组中均存在数百到数千个未填补的“空白”区域,限制了对绵羊基因组完整性的深入理解。绵羊端粒到端粒(T2T)基因组的组装有助于填补这些关键空白,显著提升基因组研究的准确性和完整性,为反刍动物的遗传与功能研究开辟新的视野。

       近日,中国农业大学动物科学技术学院李孟华教授团队在国际知名学术期刊 Nature Genetics上发表了题为

Telomere-to-telomere sheep genome assembly identifies variants associated with wool fineness 的文章。


      该研究首次完成了中国著名的高繁殖力品种——湖羊(HU3095)的端粒到端粒无间隙基因组组装(T2T-sheep1.0),其中包括完整的Y染色体(T2T-sheep1.0-chrY)和着丝粒区域的组装。除此之外,该研究报道了T2T水平的单倍型基因组组装,即父本基因组T2T-sheep1.0P和母本基因组T2T-sheep1.0M。基于T2T-sheep1.0参考基因组,该研究对着丝粒、端粒结构以及当前参考基因组中未解析的区域(PURs)进行了深入解析。同时,结合三代PacBio测序数据以及全球范围内野生和家养绵羊的全基因组重测序数据,该研究进行了变异检测和群体分析,结果表明,与当前的绵羊参考基因组Ramb_v3.0相比,T2T-sheep1.0在比对性能和变异检测方面表现出显著优势,有助于鉴定新的与驯化和毛用性状相关的选择信号和候选基因。绵羊端粒到端粒的完整基因组组装将为绵羊遗传育种相关的研究提供新的见解。


图1 T2T-sheep1.0与Ramb_v3.0的比较

01

T2T基因组组装

本研究共获得了543.2 Gb的超长ONT(189.0×),149.0 Gb的PacBio HiFi(52.0×),1135.86 Gb的Bionano光学图谱和357.22 Gb的Hi-C测序数据。利用超长ONT reads通过延伸和局部组装的方式填补了初步组装中产生的139个gap,组装出26条常染色体和X染色体。Y染色体组装通过父本的超长ONT reads独立进行,最终组装的T2T-sheep1.0包含了所有常染色体和性染色体,大小为2.85 Gb。

相比当前的绵羊参考基因组Ramb_v3.0,T2T-sheep1.0基因组鉴定了220.05 Mb先前未解析的区域,这些区域主要集中于染色体末端和着丝粒等高度重复区域。T2T-sheep1.0在基因组完整性和准确性方面表现优异,其BUSCO注释率超过96%,QV值为51.53,均高于Ramb_v3.0。在T2T-sheep1.0中鉴定到了47.67%的重复序列,21,517个高置信度的蛋白编码基因,其中99%的基因可以被公共数据库注释到。在着丝粒区域注释到了147个基因,并通过RNA-seq分析发现这些基因表达水平较低。

图2 着丝粒区域组装及卫星序列重复单元的鉴定

02

着丝粒卫星序列重复单元的鉴定

本研究利用磷酸化CENP-A(Ser7)抗体的ChIP-seq技术准确定位了绵羊染色体的着丝粒区域,28条染色体的着丝粒长度分布范围从0.36 Mb到22.63 Mb。与人类染色体相似,绵羊染色体着丝粒区域也是高度甲基化的。常染色体和X染色体的着丝粒区域主要由高阶重复单元(higher-order repeats, HORs)组成的卫星DNA主导,其中卫星重复序列被分为三类:SatI(816 bp)、SatII(702 bp)和SatIII(22 bp)。SatI和SatII是T2T-sheep1.0着丝粒区域的主要成分。本研究发现了一类新的卫星序列重复单元SatIII,并通过荧光原位杂交(FISH)实验验证了它的存在及分布,染色体末端的FISH信号强度与SatIII的着丝粒位置一致。此外,RNA-seq分析显示着丝粒周围的基因表达水平较高,这为近着丝粒区域的功能研究提供了新的线索。

 

绵羊的三条中着丝粒染色体(Chr01、Chr02和Chr03)经历了显著的演化事件,在野生祖先和相关近缘物种中,非等位同源重组(NAHR)在两条近端着丝粒染色体上发生,从而形成了中着丝粒染色体。通过绵羊、盘羊和山羊的基因组序列追溯染色体重组的过程,发现山羊6条端着丝粒染色体与绵羊的3条中着丝粒染色体之间存在2:1的融合关系。基于不同程度的序列相似度,本研究发现着丝粒卫星序列存在不同时期的扩增,从而形成不同的进化层。此外,通过比较NCBI数据库中相关序列,进一步确定了在牛科(Bovidae)和羊亚科(Caprinae)物种中,SatI、SatII和SatIII的序列具有一定的相似性和保守性。


图3 X和Y染色体的组装

03

X和Y染色体的组装

由于X和Y染色体之间存在假常染色体区域(PARs)以及Y染色体的高度重复序列,Y染色体的组装一直是基因组研究的挑战。本研究成功完成了绵羊Y染色体的高质量组装,揭示了与其他染色体显著不同的特性。研究发现,绵羊Y染色体上缺乏着丝粒特异性卫星(SatI、SatII和SatIII),但存在一种新的简单重复序列CenY,其长度为2516 bp,总覆盖长度达到180.12 kb,该重复区域具有较高的甲基化水平,序列相似性超过95%,并通过荧光原位杂交(FISH)实验得到验证。研究团队在绵羊Y染色体上注释了133个蛋白编码基因和59个假基因,检测到了TSPY、HSFY和ZFY三个基因家族显著的拷贝数增加,并且这三个基因家族的扩张与这些区域中的SD富集密切相关。

 

本研究修正了Ramb_v3.0中X染色体上错误倒位组装,并将组装的QV提高到51.04。T2T-sheep1.0的X染色体共注释了959个基因,并基于ChIP-seq和高甲基化信号的富集确定了着丝粒区域。此外,X染色体的p臂(约7 Mb,包含31个基因)与T2T-sheep1.0-chrY的p臂上(约8.6 Mb的区域,包含54个基因)具有同源性,因此该区域被认定为假常染色体区域。PAR富含MUK和PUR,并在血液组织中表现出高甲基化特征。


图4 基于PacBio长读长的比对和结构变异检测

04

基于PacBio测序数据的结构变异检测

为了评估T2T-sheep1.0在结构变异(SVs)检测中的表现,该研究对一只滩羊和一只欧洲摩弗伦进行了三代测序,并将其PacBio长读长数据与其他16只下载的绵羊三代测序数据集比对到T2T-sheep1.0参考基因组,共鉴定了192,265个SVs,其中包括75,962个缺失(DELs)和113,541个插入(INSs),而比对到Ramb_v3.0所鉴定的SV数量明显较少。T2T-sheep1.0在PURs中发现了16,885个SVs,覆盖了24.20 Mb的序列长度。此外,研究团队还鉴定了位于外显子上的16个纯合SVs,这些SVs重叠的基因与湖羊的繁殖、毛囊生长和发育功能关联。


图5 基于重测序数据的变异检测及群体遗传结构

05

基于重测序数据的变异检测及群体遗传结构

本研究将738只家养绵羊和72只野羊的二代重测序数据比对到T2T-sheep1.0,更高的reads比对率和更低的比对错误率进一步表明其作为参考基因组的优势。将T2T-sheep1.0鉴定的SNPs用于野生和家养绵羊的群体分析结果显示,利用T2T-sheep1.0作为参考基因组更正了一些样本在系统发生树和PCA分析中的位置。基于ADMIXTURE(k=10)和FST 的种群遗传结构揭示了家养(六个种群)和野生(四个种群)绵羊种群之间的遗传分化在地理起源上的一致模式。

图6 与驯化相关的选择信号

图7 与毛用性状相关的选择信号

06

与驯化和毛用性状相关的选择信号检测

为了验证T2T-sheep1.0在鉴定驯化过程中受选择基因组区域的改进,该研究对亚洲摩弗伦羊和五个家养地方品种羊种群进行了选择分析,并与之前的研究进行了比较。T2T-sheep1.0 鉴定出的前1%受选择区域中,有311,888个SNP(92.27%)能够成功映射到Oar_v4.0,并在着丝粒附近的PURs中发现了多个新的选择信号。

 

基于T2T-sheep1.0检测的SNPs和SVs,鉴定不同羊毛细度家养种群之间的全基因组选择特征,在非PURs和PURs中分别鉴定了约779个和24个新的选择基因,如与细毛特征相关的基因TARBP1、EPS8和DMXL2,与毛发发育和毛发弯曲有关的RSPO3和OFCC1等。此外,研究团队发现了毛囊分化的关键基因FOXQ1在不同绵羊种群中的等位基因频率差异,检测到了显著的选择信号。通过使用PacBio长读长来验证短读长检测到的PURs中的SVs,与驯化相关的7个SVs中的5个以及所有与羊毛细度性状选择相关的9个SVs均得到验证。


总之,首个绵羊端粒到端粒的完整参考基因组(T2T-sheep1.0)的组装,标志着在揭示反刍动物基因组中高度复杂且难以解析的重复区域方面取得了重要突破。T2T-sheep1.0解锁了当前绵羊的参考基因组(Ramb_v3.0)中未被解析的220.05 Mb序列,实现了重复序列富集的着丝粒区域和Y染色体的完整组装,对着丝粒卫星序列的重复单元和Y染色体上的多拷贝基因家族(ZFY, TSPY, HSFY)。18个PacBio测序数据和全球738只家羊及72只野羊的全基因组重测序数据的变异检测和群体分析结果显示,T2T-sheep1.0在比对性能和变异检测上具有优势,有助于识别新的与驯化和毛用性状相关的选择信号和候选基因。


中国农业大学动物科学技术学院博士生罗凌云、吴慧和兰州大学草地农业科技学院博士生赵利明为共同第一作者,中国农业大学动物科学技术学院李孟华教授、中国农业大学草业科学与技术学院贾善刚副教授和兰州大学草地农业科技学院王维民教授为共同通讯作者。该工作得到了国家生物育种重大科技项目、国家重点研发计划、国家自然科学基金、中国农业科学院北方农牧业技术创新中心项目、中国科学院战略性先导科技专项和第二次青藏高原科学考察研究项目的资助。


文章链接:
https://doi.org/10.1038/s41588-024-02037-6

项目代码:
https://github.com/lly1214/CAU-T2T-Sheep

生物信息与育种
致力将生信、AI、大数据、云计算等技术应用于现代生物育种
 最新文章