近日,广东省农业科学院蔬菜研究所的游倩老师以第一作者在预印网站Research Square上发表了一篇名为“Pangenome analysis uncovers large hidden structural variants underlying fruit color and bacterial wilt resistance in eggplant”的文章。此文章通过构建包含14个茄子个体的泛基因组,发现到一个关联茄皮颜色的倒位和多个与青枯病抗性关联的变异,为茄科作物大型结构变异(structure variations, SVs)的进化和生物学提供了新的见解,并为茄子的遗传分析和育种提供了基本的基因组学资源。
作为产量仅次于土豆和番茄的茄科作物,茄子在世界各地,不同大洲都有广泛的种植。前人基于短读长数据的泛基因组研究无法识别到大片段的SV。同时,前人关于重要农艺性状与变异关联的研究,主要是集中于SNPs和InDels,而已有人证明SV-GWAS能够检测到SNP-GWAS检测不到的一些位点。利用这种方法,人们能够获知SV对于茄子驯化和重要农艺性状的影响和意义。
1
201份茄子品系的遗传多样性和群体结构
为了探究茄子种质的遗传多态性和群体结构,作者收集了世界范围内的201份栽培品种茄子,涵盖196份圆茄(S. melongena),4份非洲茄(S. aethiopicum)以及1份野生茄子(S. violaceum)(图1a-b)。作者将这201份茄子重测序数据比对到新的从头组装的基因组上(S076),总共识别到3,698,811个高质量SNPs,和349,227个 InDels(1–50 bp)。
基于这201份茄子重测序数据SNP结果的PCA分布情况,作者将其分为三个组别:(1)C1:主要来自东南亚和南美洲的茄子品系;(2)C2:主要来自华南地区的茄子品系;(3)C3:主要来自中国东部和北部的茄子品系。不同品系茄子群体结构的差异也与其地理分布范围相关(图1e)。核苷酸多态性(Π)的结果表明,C1组别中的茄子个体具有更高的核苷酸多态性水平。同时,C1与其他组别的FST值也高于C2和C3间的FST。这些结果说明C1组的茄子可能包含更多重要的基因变异。
2
基于茄子基因家族的泛基因组分析
基于201份重测序和3份已发表的茄子数据,作者构建了茄子的系统发育树(图2a),并选取其中代表的9个簇中的茄子个体进行基因组测序。这从头组装的9个茄子基因组ContigN50长度在38.73 ~ 59.67 Mb之间,总的基因组大小在1.15-1.2Gb之间。相比较之前发表的5个茄子基因组,新组装的基因组的连续性和质量更好(图2b)。之后,作者构建了基于基因的泛基因组,并根据基因在不同个体间的分布情况将其分为核心、软核心、可变、特有的基因(图2c-e)。其中,相较于其他类型的基因,核心基因具有更高的表达量和更低的Ka/Ks(图2f-g)。于此同时,可变类型的基因的GO富集结果表明,这一类型基因主要富集在与防御反应相关的通路中(图2h)。
3
茄子结构变异的群体特性、适应性及功能效应
为探究所构建的茄子泛基因组中的SV,作者将S076作为参考基因组,总共识别到123,321个SVs。每个个体鉴定到的SV的数量与其个体的多态性正相关。通过将不同个体不同类型的SVs进行整合,获得65,965非冗余SV数据集,只有其中的极少数存在于所有的基因组中(图3a-b)。于此同时,正如其他的植物基因组中的情况,最常见的SV是由于LTR转座子插入引起的(图3c)。之后,作者将群体重测序数据比对到构建好的泛基因组上。衍生等位基因频谱(dAFS)显示,衍生SVs的分离频率显著低于同义或非同义SNPs。这表明,平均而言,SVs对适应性的负面影响比SNPs更大(图3d)。
作者还研究了SVs对基因表达的影响,发现基因区域中SVs的数量显著减少,且只有极少数直接与编码序列重叠(图3f),这些重叠可能会损害基因功能。在各种类型的SVs中,长末端重复转座子(LTR-TE)插入相比其他类型的SVs,表现出更远离基因的位置,这可能是由于其有害影响或插入偏向所导致的(图3e)。为了探究SVs对于基因表达模式的影响,作者比较了不同组织有无SVs的基因的表达,发现没有与SV重叠的基因的表达显著低于有SV重叠的基因(P<2.2e-16,图3g)。之后,作者通过对20个茄子品种果实的RNA测序数据分析,鉴定出60个受SVs影响的,在果实中显著改变的表达水平的基因。例如,位于evm.model.Chr02.3134(图3h)上游的一个418 bp缺失,该基因编码与WAT1相关的蛋白。同时,一个位于evm.model.Chr02.4128(图3i)上游的10,296 bp缺失,该基因编码包含BTB/POZ和MATH结构域的蛋白。这些缺失导致含有这些结构变异的品种中基因表达水平显著降低。总之,作为一种资源,SVs有助于加深人们对茄子基因组多样性、适应性及结构变异功能性影响的理解。
4
与果实颜色相关的一个较大倒位变异
作者根据果皮颜色将201份茄子重测序材料分为紫色(n=148)和非紫色(n=53)两种类别。基于SNPs、InDels、SVs的GWAS结果,作者定位到染色体10号上的大片段区域(图4a)。除此之外,作者也鉴定到一些与花青素相关的基因。这些结果表明茄子果皮的颜色与大量的位点有关,其中10号染色体的特定区域发挥着重要作用。作者发现,这一区域与一个大片段倒位重叠,包含多个与花青素合成相关的基因,构建茄子泛基因组的个体的果皮颜色也与这一到位的存在相关(图4b-c)。之后,作者以S126作为参考基因组,利用216份重测序数据,对这一倒位进行分型(图4d)。其中的108份材料包含这一倒位,绝大部分(n=105)的果皮颜色为紫色。而在剩余的无此倒位片段的材料中,43份材料呈现为非紫色,50份材料呈现为紫色(图4d)。这一现象表明,此倒位与茄子果皮颜色具有强相关关系,但并非果皮颜色的决定性因素。
之后,作者分析该区域附近基因的表达来探究这一倒位对果皮颜色的影响。在其周围的1,177个基因中,作者发现存在两个基因在不同的倒位存在状态表现出显著的表达差异(p≤ 0.05,fold change ≥ 2,TPM≥10)(图4e)。其中一个基因,SmMYB1,已被发现其功能与花青素的合成相关。
在作者之前的研究中,发现一个6bp的缺失存在于SmMYB1基因的编码区中,且其余果实的颜色强相关(图4f)。作者也将这一变异在193份重测序材料中进行分型,发现存在这一变异的24份材料都表现为绿色或白色的果皮颜色,而缺乏这一缺失的重测序材料绝大部分(85.7%)其果皮颜色都表现为紫色(图4g)。这些结果表明SmMYB1基因上的变异可以促进茄子不同果皮的形成。
鉴于SmMYB1基因的重要性,作者对此倒位不同存在状态的57份材料进行实时PCR实验,从而验证SmMYB1基因的表达。作者发现,相较于不存在这一倒位的材料,存在此倒位的材料中的SmMYB1基因的表达显著升高(图4h)。于此同时,在不存在这一倒位的材料中,不存在6bp缺失材料的SmMYB1基因的表达显著升高。
5
12.4 Mb倒位在茄子栽培和育种历史中的人工选择信号
根据重测序材料的分析结果,作者发现这一12.4Mb的倒位主要发生在中国的茄子品系中,即C2与C3类别,只有少部分(n=15)来自于C1类别(图5a)。这一现象表明,这个倒位的频率的增加与中国的选择性育种有关。为了探讨这一倒位的种群特征及其对基因组多样性的潜在影响,我们将201个茄子重测序材料分为两组:一组为具有倒位的样本(G1,108份材料),另一组为呈现祖先状态的样本(G0,93份材料)。作者发现,不存在这一倒位的材料,这一区域的遗传多态性显著高于存在这一倒位的材料(图5b)。同时,作者两组类别间的FST,发现倒位区域存在FST值的升高(图5c)。
之后,作者重点研究了G0和G1材料倒位区域的连锁不平衡(LD),发现相较于G0组(衰减到r² = 0.2的距离可达2 Mb)和G0+G1组(衰减到r² = 0.2的距离可达2 Mb),G1组的LD衰减显著较快(在0.3 Mb时衰减到r² = 0.2)(图5e)。这一结果表明,在该倒位区域存在长距离的连锁不平衡。为了验证这一结论,作者计算了倒位及其前后10Mb的LD,发现两侧LD的衰减模式存在差异,其中右侧的衰减速度更快(图5f)。倒位的LD图揭示,在G0群体中,染色体10上的65 Mb到75 Mb之间存在一个大的LD区块(根据代表祖先状态的‘S126’的坐标),而该LD块在G1群体中由于倒位的存在而被破坏,因此不再存在(图5j)。这些结果表明,倒位通过不同的途径和方式影响其周围基因的表达。
6
与青枯病(BW)抗性相关的主要位点、候选基因和标记
为了探究基因组区域与其的相关性,作者分四批种植了197份茄子材料。在感染腐生性茄孢菌(Ralstonia solanacearum)后,在4-5片真叶的幼苗阶段,作者连续5周对这些样本的每个幼苗进行抗性或易感性评分(死亡或萎蔫)。每份材料的发病率是通过将死亡或萎蔫的幼苗数量除以总幼苗数量(每个样本至少20个幼苗)来计算的。发病率范围为0%到100%(图6a-b)。之后,作者对四个批次表型数据进行SNP-GWAS、InDel-GWAS和SV-GWAS。作者在2、3、4、5号染色体上鉴定到强相关信号(图6c)。其中,4号染色体上的最相关SNP位点位于evm.model.Chr04.2518中,该基因与CYP82D47和CYP82A3同源,后两者分别赋予黄瓜对白粉病的抗性以及大豆对生物/非生物胁迫的抗性。同时,作者还鉴定一个SNP位于此基因的第一个外显子中,产生了新的终止子,导致这一基因的蛋白质序列长度小于正常的一半,从而致使这一蛋白产物缺少保守的P450蛋白家族结构域(图6d)。并且,具有TGG基因型的样本的BW发病率显著低于具有TGA(终止密码子)基因型的样本。
之后,作者在5号染色体上鉴定到的大部分关联位点位于evm.model.Chr05.2786和evm.model.Chr05.2787这两个基因,这二者的同源基因分别为EPS1与Roq1-like基因,编码潜在的抗病蛋白。为了探究这两个基因的功能,作者使用包括根、茎、叶、花和果实在内的五种器官类型的转录组数据,并通过GSAman手动整理和修正了九个基因组中这些区域的基因注释结果。作者发现在新组装的9个基因组中这两个基因的拷贝数差异明显,并且共线性区域的长度也存在明显差异。为了评估它们与BW抗性的潜在相关性,作者在这些区域识别并使用了两个SVs标记,其中SVe(4,955 bp插入缺失)能够区分具有更多的EPS1同源基因的样本与仅具有一个或零个EPS1同源基因的样本,而SVr(166 bp插入缺失)则能够区分具有更多Roq1-like同源基因的样本与具有较少Roq1-like同源基因的样本。两个SV标记与BW抗性显著且高度相关(图6f)。
之后,作者为了评估SmEPS1和SmCYP82D47同源基因的功能,作者进行了病毒诱导的基因沉默(VIGS)实验,使用基因型为TGA_E+_R-(较多的EPS1同源基因,较少的Roq1-like同源基因)的样本S092靶向EPS1同源基因的保守片段,使用基因型为TGG_E-_R-(较少的EPS1同源基因,较少的Roq1-like同源基因)的样本S065靶向SmCYP82D47同源基因。结果显示,SmEPS1沉默和SmCYP82D47沉默的植物在感染腐生性茄孢菌后10天表现出典型的萎蔫症状,而对照植物则表现出较少或没有萎蔫症状(图6g-h)。
作者通过构建14个茄子的泛基因组,结合201分重测序材料,探究了茄子位于10号染色体中长达12.4Mb的倒位及其对其周围基因表达的影响,并分析了其在茄子驯化过程中的影响和作用。同时,作者利用GWAS方法分析了与青枯病抗性相关基因的功能和变异位点,为未来茄子的生物学研究和分子育种提供理论基础和数据支撑。
评论人:张钰麟
编辑:弓奕