2024年11月5日,Nature Genetics在线发表了由中国农业科学院油料作物研究所刘胜毅课题组和华中农业大学杨庆勇课题组合作的研究论文,题为“Structural variation reshapes population gene expression and trait variation in 2,105 Brassica napus accessions”。该研究通过构建油菜泛基因组结构变异(SV)参考库,分析了2,105个油菜核心品系中SV的广泛影响及其如何通过基因表达调控推动性状变化。研究团队整合了多组学数据,包括SV-eQTL、SV-GWAS和TWAS分析,揭示了726个SV-基因表达-性状变异关联,涉及180个SV和311个基因。此研究还详细探讨了葡糖苷酸生物合成路径的案例,阐述了SV如何通过调控关键基因表达来改变植物性状。
背景
结构变异(SV)是基因组多样性的一个重要来源,通过扰动调控区域和改变染色体结构,SV可以大幅影响基因表达及其调控机制。尽管已有研究揭示了SV如何通过顺式和反式调控机制影响基因表达,并在进化过程中对物种适应性起到推动作用,但这些研究大多集中在个别SV或有限样本的分析上,对整个物种层面的SV作用了解仍较为局限。尤其是在多倍体植物中,如油菜(Brassica napus),SV在基因组复制后会频繁发生,导致基因组分化和新性状的产生。油菜因其在农业和工业中的重要地位,成为研究多倍体背景下SV对基因表达和性状变异影响的理想对象。本研究通过构建包含2,105个油菜品系的泛基因组SV图谱,结合多组学数据,探索SV如何在物种尺度上影响基因表达及其对重要农业性状的调控作用,为基因组学和作物育种提供新的理论和方法。
结果
1.物种规模SV的识别和表征
为了研究物种范围内的油菜(B. napus)结构变异(SV)及其对基因表达的影响,研究团队构建了一个高置信度的泛SV参考库,包含16个基因组,其中包括本研究中新组装的6个基因组和10个已发表的基因组。这16个基因组代表了全球油菜的多样性,包括不同亚种(春油菜、冬油菜和半冬油菜)及人工合成品系,样本来源于2,105个不同国家的油菜品系(图1a, b)。
新组装的6个基因组(如ZY821, Laurentian等)使用了Oxford Nanopore长读长(79倍覆盖)和Illumina短读长(67倍覆盖)技术进行组合组装,平均contig N50为5.18 Mb,总长度为937.19 Mb。通过与ZS11参考基因组比对,共鉴定出334,461个高置信度非冗余SV(>50 bp)(图1c),并通过Hi-C和PCR验证了一个26.67 Mb的大倒位。
研究还对2,105个油菜样本进行了Illumina HiSeq重测序(平均覆盖率为8.6倍),并将短读长数据映射到SV库中,构建了种群SV图谱。SV的精确率和召回率分别达到0.84和0.91,与人类基因组相当。共识别出258,865个SV,包括插入、缺失、倒位和重复,这些SV在An和Cn亚基因组间的分布和特征存在显著差异(图1d),反映了新多倍体油菜的进化特征。
为评估SV对基因组多样性的贡献,研究构建并比较了基于SV和SNP的系统发育树,发现两者在2,105个样本中的分布存在差异(图1b),说明SV和SNP在基因组多样性中具有独立贡献。
2.群体eQTLs的鉴定与表征
为揭示SV对油菜(B. napus)群体基因表达的影响,研究在两个亚群体中进行了SV-eQTL分析。经过筛选,共生成93,505个高质量SV用于分析。RNA测序数据来自5种组织,包括顶端分生组织、叶片、果荚和不同发育阶段的种子(图2a)。通过这些数据,对81,424个基因的转录进行映射,并发现285,976个SV-eQTL。
研究定义了47,897个lead eSV(显著相关的SV),这些SV调控了73,580个目标基因(图2b),占总表达基因的90%。这些eQTL被分类为顺式(cis-eQTL,≤1 Mb)和反式(trans-eQTL,>1 Mb或位于不同染色体上),其中cis-eQTL占23%,而trans-eQTL占77%。17%的lead eSV仅为顺式,36%仅为反式,47%同时具有两种效应。
在这些eQTL中,许多lead eSV可调控多个基因,且许多eGenes受多个lead eSV调控(图2c, d)。此外,54%的trans-lead eSV在染色体间调控基因表达,其中44%为亚基因组内调控,56%(An中66%,Cn中34%)为亚基因组间调控(图2e, f),显示An亚基因组中存在显著的不对称调控。
研究还识别出495个调控59,914个基因表达的trans-eQTL热点(图2g),其富集和通路分析表明,这些热点调控了功能相关的基因网络,揭示了SV如何与其生物学功能相关联。
3.eSV介导的基因表达调控机制
研究根据eSV的注释、序列特征及其与eGenes的位置关系,将eSV介导的基因表达调控机制分为八个类别(图2h)。这些机制包括:SV介导的调控序列变化,涉及基因上下游2 kb处的eSV;通过调控转录因子(TF)影响目标基因的表达;远端调控元件(增强子)的活性变化;基因体的破坏;可移动元件(TE)介导的SV效应;以及通过表观遗传机制对基因表达的调控。
研究还发现,6,384个eSV不属于这些类别,也没有可识别的调控成分。整体来看,顺式调控的eSV在基因表达变异中的解释能力显著高于反式调控,且调控序列变化和TE介导的类别效果尤为显著(图2i)。这些发现揭示了SV在基因表达调控中广泛的作用,并提供了对SV如何通过顺式和反式调控影响基因和性状的复杂机制的新见解。
4.SV-基因表达-性状关联的鉴定
研究通过联合分析SV-eQTL、SV-GWAS、TWAS和eQTL-GWAS共定位的方法,测试了识别SV对基因表达和性状变异关联的能力(图2a)。这为揭示SV对油菜种群性状变异的广度和规模提供了基础。
首先,研究使用54组表型数据(包括种子质量、形态和产量组成)进行SV-GWAS分析,共鉴定出817个SV位于188个显著与性状相关的基因组位点(图2a)。其中,686个SV为eQTLs的主要eSV,与5,084个eGenes相关联;84个位点在eQTL热点和GWAS QTL之间重叠,表明这些eQTL热点的eSV可能影响性状变异。
接下来,使用上述表型和转录组数据进行TWAS,鉴定出3,487个与至少一种性状显著相关的非冗余基因。其中,311个基因为eGenes,并与其SV-eQTLs和GWAS位点重叠,在TWAS中也检测到这些eGenes与表型性状的显著关联。
最后,研究识别出726个SV-基因表达-性状变异关联,涉及180个eSV调控311个eGenes,这些基因进一步影响性状变异。对于这些关联中的278个,97个eSV和119个eGenes通过eQTL和GWAS位点的高度共定位后验概率支持,证明它们是性状变异的因果SV(图3)。图3总结了部分因果SV-基因表达-性状变异关联网络,并在后续章节中以葡糖苷酸含量为例详细展示了这些关联的识别方法和潜在机制,揭示了SV如何重塑性状变异的整体图景。
5.案例研究:SV对葡糖苷酸含量的影响
研究通过对葡糖苷酸含量相关的分子机制进行案例研究,展示了SV与基因表达关联如何影响复杂性状变异。葡糖苷酸是芸苔科植物中特有的重要化合物,具有抗病虫害及抗癌等人类健康效益。研究分析了在两个人群中测量的叶片和种子中的葡糖苷酸,并识别了119个显著的SV-GWAS位点,其中许多是新的发现(图4a, b)。
在A03染色体上,研究发现一个1,454-bp的插入与葡糖苷酸侧链延长酶BnaA03.MAMf的表达密切相关。此SV调控了葡糖苷酸4C:(4C + 5C)和5C:(4C + 5C)的比例(图4c)。eQTL和GWAS共定位分析显示该插入是BnaA03.MAMf表达和5C:(4C + 5C)比例的因果变异(图4d, e)。验证实验表明,插入的存在导致基因表达降低,改变了葡糖苷酸侧链组成(图4f-h, i-k),并在蚜虫生物测定中表现出更高的吸引力。
在A09染色体上,一个41.6-kb的插入被鉴定为显著调控叶片和种子葡糖苷酸总含量的SV位点。此插入携带BnaA09.MYB28基因,RNA测序显示,只有插入存在时该基因在高葡糖苷酸品系中表达,而在低葡糖苷酸品系中不表达(图5b, c)。此插入还通过反式调控多个下游基因,增加葡糖苷酸含量(图5f-h)。
研究在BnaC02.GTR2上游20.3 kb处发现了一个7,365-bp插入,此插入携带增强子元件并调控BnaC02.GTR2的表达(图6b, c)。ATAC-seq和ChIP-seq数据显示,插入的存在增加了染色质的可及性和H3K27ac标记(图6j, k),导致周围基因表达增加,进而提升种子葡糖苷酸含量。
研究还总结了更多关于葡糖苷酸含量的SV案例,例如三个不同的插入和缺失对其他BnaMYB28基因表达的调控作用、一个插入导致BnaA02.MYB34表达减少并改变吲哚类葡糖苷酸含量,以及一个缺失上调第二个BnaGTR2基因的表达,增加葡糖苷酸含量。此外,还研究了其他性状的SV影响,如一个3.7-kb的CACTA类TE插入在BnaA09.CYP78A9上游,增强该基因的表达并通过反式调控影响7个生长素响应基因,延长角果长度。
6.SVs重塑基因组多样性以加速育种进程
为揭示eSV与eGene关联在性状改良中的作用,研究以葡糖苷酸生物合成和运输(GBT)路径为例,展示了SV如何影响调控基因,尤其是多倍体重复基因(图3–7)。SV-GWAS分析鉴定了549个SV位于119个与31种叶片和种子葡糖苷酸及其统计指标显著相关的位点,其中均含有参与GBT路径的拟南芥同源基因。共识别出141个eQTL-GWAS共定位位点对基因表达和葡糖苷酸含量有共同影响,且61个共定位的eSV被确认为改变80个eGenes表达和葡糖苷酸含量的因果变异。
进一步分析显示了7个关键位点,涉及9种单倍型组合,这些组合主导了B. napus中不同葡糖苷酸的遗传变异(图7a-c)。相关基因在不同品系中表现出显著的表达差异(图7b-e)。高葡糖苷酸的单倍型(如Hap7-Hap9)在高葡糖苷酸品系中最常见,而低葡糖苷酸的单倍型(如Hap1和Hap2)则在低含量品系中更为普遍。Hap7-Hap9的BnaA09.MYB28等位基因使叶片和种子总葡糖苷酸含量分别提高1.4至2.6倍(图7c)。
尽管油菜育种在20世纪中期已开始为满足健康需求和动物饲料要求而进行低种子葡糖苷酸和低芥酸的选择,但研究显示没有现有品种同时具有高叶片葡糖苷酸和低种子葡糖苷酸。数据表明,现代低种子葡糖苷酸育种破坏了绿色组织中的葡糖苷酸生物合成,导致叶片和种子葡糖苷酸含量的高度正相关。此外,研究发现所有显著影响种子葡糖苷酸含量的位点均包含BnaMYB28、BnaMYB34和BnaGTR2基因,这些基因位于油菜染色体的同源区块中,受到强选择清扫。低葡糖苷酸单倍型通常含有非功能性BnaMYB28和/或BnaMYB34,并与功能性BnaGTR2基因紧密连锁。为了实现真正的零葡糖苷酸油菜,需在每个狭窄位点创建非功能性BnaGTR2。使用CRISPR-cas9对BnaA09.GTR2进行基因编辑后,结果表明该基因在降低种子葡糖苷酸含量的同时保持甚至增加叶片葡糖苷酸含量(图7f)。
讨论
在本研究中,作者组装了16个代表性油菜基因组,包括6个新组装的高质量基因组,建立了油菜物种范围内的泛SV参考库,具备良好的准确性和覆盖性。基于这一参考库,研究人员在2,105个油菜品系中识别了258,865个结构变异,并结合多组学数据揭示了SV对基因表达及性状变异的广泛影响,尤其在葡糖苷酸生物合成和运输路径上提供了新见解。研究通过SV-eQTL、SV-GWAS和TWAS分析,确定了多个SV与基因表达和农业性状间的关联,为基因组辅助选择提供了新的分子靶标。本研究为油菜育种和基因改良提供了重要的基因组资源,并促进了SV在多倍体作物研究中的应用。
评论人:马新
编辑人:赵智鹏