点击蓝字关注我们
英文标题:Telomere-to-telomere sheep genome assembly reveals new variants associated with wool fineness trait
发表时间:2024.07.23
发表平台:bioRxiv
2024年7月23日,中国农业大学的李孟华教授团队,在生物预印本服务器BioRxiv平台发布了题为Telomere-to-telomere sheep genome assembly reveals new variants associated with wool fineness trait的研究成果,发布了首个反刍动物绵羊的T2T完整基因组。该研究纠正了之前参考基因组中的多个结构错误,改进了重复序列区域中的结构变异检测,鉴定了新的SNP和SV,并检测了驯化以及羊毛质细度性状的选择信号。
研究背景
绵羊(Ovis aries)是最早驯化的家畜之一,是肉类、毛皮和乳制品的重要来源,建立绵羊的参考基因组对于探讨其进化历史、迁徙、遗传多样性及与特定性状相关的致病基因和变异至关重要。先前研究组装的绵羊基因组存在许多缺陷,尤其是富含重复序列的区域(如着丝粒和端粒)仍未得到准确的组装。本研究报告了中国高产绵羊品种——湖羊(HU3095)的de novo T2T无间隙基因组组装(T2T-sheep1.0),该完整组装覆盖了湖羊Y染色体,并且组装了父母本的单倍型基因组(T2T-sheep1.0P和T2T-sheep1.0M),为后续的遗传学和功能研究提供了坚实的基础。
主要研究结果
1. T2T基因组组装和注释
本研究使用多种测序数据进行T2T基因组组装:543.2 Gb的超长ONT reads(190.4×),149.0 Gb的PacBio HiFi reads(52.2×),1135.86 Gb的Bionano光学图谱和357.22 Gb的Hi-C测序数据。使用超长ONT reads通过延伸和局部组装的方式填补gap,组装出26条常染色体和X染色体。Y染色体组装通过父本的超长ONT reads独立进行,最终组装的参考基因组T2T-sheep1.0包含了所有常染色体和性染色体,大小为2.85 Gb。
相比绵羊参考基因组Ramb_v3.0,本研究组装的参考基因组鉴定了220.05 Mb先前未组装的区域,主要在染色体末端和着丝粒等高度重复区域中。T2T-sheep1.0的BUSCO注释率为96%,QV值为51.53,均高于参考基因组Ramb_v3.0。在基因组中鉴定了47.67%的重复序列,21517个高置信度的蛋白编码基因,99%的基因可以被公共数据库注释到。在着丝粒区域注释了147个基因,并通过RNA-seq分析发现这些基因表达水平较低。
图 1 Ramb_v3.0和T2T-sheep1.0组装结果比较
2. 基因家族和着丝粒区域演化
绵羊T2T-sheep1.0与其他三个羊参考基因组(绵羊Ramb_v3.0,盘羊CAU_O.ammon polii_1.0和山羊ARS1)相比基因家族发生了扩张,且与片段重复(segmental duplication,SD)有较强的关联,SD对基因拷贝数有着显著贡献。
研究人员发现十一个近端着丝粒染色体共享相似的卫星序列,也就是着丝粒区域的重复序列,并基于磷酸-CENP-A(Ser7)抗体的ChIP-seq确定了着丝粒区域。与人类染色体中观察到的情况一致,绵羊染色体着丝粒区域也存在高度甲基化的CpG。着丝粒长度分布范围从0.36 Mb到22.63 Mb,与染色体长度无关。
由高阶重复单元(higher-order repeats,HORs)组成的卫星DNA主导着常染色体和X染色体的着丝粒区域。卫星重复序列分为三类:SatI(816 bp)、SatII(702 bp)和SatIII(22 bp)。SatI和SatII主导着T2T-sheep1.0的着丝粒区域。研究团队发现了一种新的卫星SatIII,并通过荧光原位杂交(FISH)实验验证了SatIII重复序列的存在,染色体末端的FISH信号强度与SatIII的着丝粒位置一致。此外,通过RNA-seq检测到着丝粒周围的基因表达水平较高。
绵羊的Chr1、Chr2和Chr3三条近中着丝粒染色体经历了显著的演化事件,在野生祖先和相关物种中,非等位同源重组(NAHR)发生在两条近端着丝粒染色体上,从而产生了近中着丝粒染色体。通过绵羊、盘羊和山羊的基因组序列追溯染色体重组的过程,发现山羊6条染色体与两种绵羊物种的3条染色体之间存在二对一融合关系。基于山羊和两种绵羊中染色体上的着丝粒位置,建立了着丝粒卫星痕迹的染色体融合模式。通过比较NCBI数据库中相关序列,确定了Caprinae和Bovidae物种中SatI、SatII和SatIII的序列相似性和保守性。
图 2 着丝粒区域组装和重复单元鉴定
3. X和Y染色体结构特征
由于X和Y染色体之间存在假常染色体区域(PARs),组装Y染色体是个难题,目前仅有人类(T2T-CHM13v2.0)和六种猿类(GCA_011170295.1)有着相对完整的Y染色体组装。本研究组装了绵羊的Y染色体,发现在绵羊Y染色体上没有着丝粒特异性卫星(SatI、SatII 和 SatIII),但存在另一种简单重复序列类型CenY,其长度为2516 bp,总长180.12 kb,这种重复类型获得了高甲基化数据和序列同一性热图的支持,同时研究团队也做了FISH探针验证。研究团队在棉羊的Y染色体上注释了133个蛋白编码基因和59个假基因,检测到了TSPY、HSFY和ZFY三个基因家族显著的拷贝数增加,并且这三个基因家族的扩张与这些区域中的SD富集密切相关。
本研究修正了Ramb_v3.0中X染色体上错误倒位组装,并且将组装的QV值提高到51.04。T2T-sheep1.0的X染色体上共注释了959个基因,并基于ChIP-seq和高甲基化信号的富集确定了着丝粒区域。此外,研究团队发现X染色体的p臂(约7 Mb,包含31个基因)与Y染色体p臂上54个基因存在约8.6 Mb区域同源,被认为是PAR。在血液中的X和Y染色体PAR区域富含MUK和PUR区域,并呈现高度的甲基化。
图 3 X和Y染色体组装
4. 长读长和短读长的变异检测
为了研究T2T-sheep1.0在检测结构变异(SV)的表现,研究团队对滩羊和欧洲盘羊的两只个体进行了基因组测序,并将它们的PacBio长读长数据与其他16只下载的绵羊样本数据集回比到T2T-sheep1.0参考基因组,一共鉴定了192265个SV,包括75,962个缺失(DELs)和113,541个插入(INSs),而比对到Ramb_v3.0鉴定的SV数量明显较少。T2T-sheep1.0使得在PURs内发现了额外的16885个SVs,涵盖了24.20 Mb的序列长度。此外,研究团队还鉴定了与外显子相关的16个SVs,并在所有18个个体中都存在同源基因,这些SVs重叠基因与湖羊的生育、毛发和发育功能关联。
图 4 长读长mapping率的提升以及call SVs的提升
为了研究T2T-sheep1.0 在短读长变异检测中的表现,研究团队收集了全球810只羊的NGS测序数据,并比较了使用T2T-sheep1.0和Ramb_v1.0作为参考基因组时检测到的SNPs。使用T2T-sheep1.0作为参考基因组时reads映射的数量增加了10%以上,且reads的错配率显著降低,表明了其作为参考基因组的优势。一共检测133,314,255个高质量SNP变异位点,其中有2,664,979个位于PURs,使用T2T-sheep1.0 作为参考基因组后,总SNP数量增加,包括杂合SNP和纯合SNP方面都增加了,比使用Ramb_v1.0 作为参考基因组鉴定的SNPs要多得多。T2T-sheep1.0中PURs的组装为定量性状位点(QTL)映射分析提供了新的变异,根据动物数量性状位点数据库(Animal QTLdb)中的既往研究,寻找农艺性状相关的绵羊QTL位点,发现PURs中的758个SNP位于与QTL最近区域的2 Mb内。
5. 核苷酸多样性和遗传结构
通过T2T-sheep1.0鉴定的SNPs用于野生和家养绵羊的种群分析,发现与所有野生群体相比,家养绵羊的核苷酸多样性(π)值最高,盘羊和亚洲盘羊两种野生羊的π值则高于先前报道的家养羊。绵羊种群的系统发育位置对参考基因组很敏感,使用T2T-sheep1.0作为参考基因组进行的分析解决了一些在NJ树和PCA分析中具有混淆系统进化位置的样本,并且基于FST进一步证实了系统发育关系的可靠性。基于ADMIXTURE(k=10)和基于FST 的种群遗传结构显示了家养(六个种群:欧洲为红色、非洲为绿蓝色、中亚和东亚为浅蓝色、南亚和东南亚为黄色、中东和美洲为马赛克色彩)和野生(四个种群)绵羊种群之间的遗传分化在地理起源上的一致模式。此外,在各大洲的家养绵羊种群内观察到了系谱的遗传分化。
图 5 T2T-sheep1.0基因组提升基于短读长的绵羊群体分析
6. 驯化和羊毛纤维直径的选择信号
为了确认T2T-sheep1.0在鉴定驯化过程中选择基因组区域的改进,研究团队重新分析了亚洲盘羊和五个古老家养地方品种羊种群之间的基因组比较的测序数据。在由T2T-sheep1.0 鉴定出的前1%选择区域中,有311,888个SNP(92.27%)能够成功映射到Oar_v4.0,在这些区域内鉴定出了1403个基因作为候选选择基因,并在着丝粒附近的PURs中发现了多个新的选择信号。
基于T2T-sheep1.0检测的SNPs和SVs,检测毛发直径递减的粗毛、中细毛家养羊种群之间的全基因组选择特征,在非PUR区域和PUR区域中分别鉴定了约779个和24个新的选择基因,如与细毛特征相关的等位基因TARBP1、EPS8和DMXL2,与毛发发育和卷发功能有关的RSPO3 和 OFCC1等。此外,研究团队研究了毛囊分化的关键基因FOXQ1在不同绵羊种群中的等位基因频率变异,检测到了显著的选择信号。通过使用PacBio长读长来验证短读长检测到的PUR中的SVs,发现与驯化相关的7个SVs中的5个以及所有与羊毛细度性状选择相关的9个SVs都得到了确认。
图 6 羊毛纤维直径的选择信号
总结
自人类T2T-CHM13发布以来,T2T基因组组装已成为多个物种中受欢迎且可用的选择,然而,最近几乎完整的动物基因组组装中仍存在一些空隙。本研究组装的T2T-sheep1.0基因组是第一个无空隙的反刍类动物T2T基因组,预计这一装配将促进更全面的基因组演化研究、结构变异(SVs)和单核苷酸多态性(SNPs)的检测,以及在羊和相关物种中基因功能的研究。
参考文献:
Luo, Ling-Yun, et al. Telomere-to-telomere sheep genome assembly reveals new variants associated with wool fineness trait. bioRxiv. 2024.
点击文末阅读原文,获取文献链接
往期精彩:
IF=150+ | 贝纳基因王牌产品T2T基因组项目文章合集
文章解读|异源多倍体阿拉比卡咖啡的基因组和群体基因组揭示了现代咖啡品种的多样化历史
NG详解|泛基因组分析为深入了解柑橘进化和果实柠檬酸积累的关键基因提供线索
贝纳基因使用Nanopore平台完成全球第一个大型复杂植物基因组(菊花基因组)的组装和后续分析工作。提出并推动千种本草基因组计划,并构建药用植物基因组数据库,推动药材研究的发展。
贝纳基因使用Nanopore平台完成数千份细菌基因组、宏基因组测序和数据分析;完成数千份全长转录组和Direct转录组测序及分析。提出并推动基于Nanopore测序的万种微生物基因组完成图计划和十万人的Nanopore宏基因组研究计划。
贝纳基因开发了基于Nanopore平台的微生物检测体系,自主开发的数据库涵盖现已正式发表的所有微生物基因组,大型测序仪单机一次运行可以产生7.2T数据,小型便携式测序系统可用于临床检测和野外作业。
贝纳课堂-Nanopore交流QQ群:992789813(本群已满)
贝纳课堂-Nanopore交流QQ群2:923119248
生物信息交流QQ群:198746977
客服QQ:3277498363