依据文章格式和排版,符合Nature Portfolio系列期刊的投稿要求,且文末明确说明投稿到Nature Portfolio系列期刊。本文的分析部分十分扎实,富有创新,从图片就可看出本文成果斐然,至少是Nature Gnetics起步,最终能在Nature正刊发表也毫不意外。此外,本文通讯作者为Zachary B. Lippman,8月份曾在Science杂志发表了皮刺趋同演化的封面文章。Lippman团队十分擅长将基因组分析技术与基因编辑技术结合使用,成功创建了一条从基因型到表型的分析验证流程。
本文为预印本文章,上传至bioRxiv时间为2024年9月14日,未经同行评议,请谨慎看待文章的结果与结论。
泛基因组学和基因组编辑技术正在彻底改变全球主要作物育种策略。一个变革性机遇在于将主要作物与数百种地方栽培的本土作物之间的基因型与表型农业知识进行互换,从而增强我们食品系统的多样性和韧性。然而,特定物种的遗传变异及其与自然或工程突变的相互作用,给表型效应预测带来了障碍,即使在近缘的作物或基因型之间也是如此。在此,我们通过建立茄属(Solanum)泛基因组,并整合功能基因组学与遗传学,展示了基因重复(gene duplication)及其后续的旁系同源基因分化是影响基因型与表型可预测性的主要障碍。尽管在22个物种(包括13种本土作物)中,染色体水平参考基因组之间的基因宏共线性保持了广泛的保守性,但数百个全局性和谱系特异性基因重复在旁系同源基因序列、表达和功能方面展现了动态的进化轨迹,尤其是在关键驯化基因家族的成员之间。我们通过扩展泛基因组,纳入10个非洲茄子的栽培品种,利用数量遗传学和基因组编辑技术,揭示了该本土作物内旁系同源基因的起源与进化的复杂历史。古老的冗余旁系同源基因CLAVATA3(CLV3)丢失后,通过谱系特异性串联重复得以补偿。随后,衍生拷贝的假基因化以及栽培品种特异性结构变异导致了CLV3的单一融合功能拷贝,该拷贝改变了果室数量(locule number),并与新鉴定的控制相同性状的基因相互作用。我们的研究结果表明,短期进化过程中旁系同源基因的多样化是可进化性及独立作物驯化历史中的关键所在,是目前尚未充分探讨的意外事件。揭示这些意外事件对于在近缘物种间实现从基因型到表型的转化至关重要。
背景介绍
全球食品生产目前依赖于不到10种来自三个植物科的高产商品作物:禾本科(玉米、水稻、甘蔗、小麦)、豆科(大豆)和茄科(马铃薯、番茄)。相比之下,本土作物构成了一个庞大且异质的群体,包含数百个物种,能够为农业生物多样性和韧性做出贡献。许多本土作物与主要作物属于同一个科,但由于栽培范围较窄和生产规模有限而有所区别。例如,禾本科中的穇子(cǎn zǐ)(Eleusine coracana)和苔麸(Eragrostis tef),以及豆科中的豇豆(Vigna unguiculata)和木豆(Cajanus cajan)都是适应当地,并对特定地区的饮食至关重要的作物。在茄科(Solanaceae)中,仅茄属(Solanum)就包含数十种作物和野生物种,这些物种在非洲和南美的特定地区被栽培,主要食用其叶子或果实,包括非洲茄(S. aethiopicum)、刺茄(S. quitoense)、木龙葵(S. scabrum)和香瓜茄(S. muricatum)。
本土作物的研究角度多样——农业、民族植物学和科学研究——每个角度都有其独特的偏见和目标。连接和协调这些观点为更好地服务地方和社区以及促进更广泛的工业化应用提供了机遇。与全球商品作物相比,本土作物的育种工作相对有限。普遍认为,数十年的主要作物研究以及基因组测序和基因组编辑技术的进步,可以用来解决限制适应当地作物生产力所遗留不良祖先性状。工程化改造有益突变可能帮助快速扩展食品物种的多样性,跨过当前农业作物基因组狭窄的瓶颈。尽管基因组工程技术取得了巨大进展,背景依赖——特定物种的遗传修饰因子导致即使在近缘物种或品种之间也会出现不可预测的表型结果——仍然是要解决的障碍。事实上,植物育种家长期以来一直感叹,转移到不同背景时,有益等位基因和数量性状基因座(QTL)往往表现不佳,这主要是由于变异之间的相互作用,这一挑战在基因组编辑中依然存在。
我们近期开展的番茄泛基因组及其相关功能基因组学研究表明,基因重复可以成为强大的背景修饰因子。最初,重复往往会导致遗传冗余,使得编码序列和顺式调控序列中的突变能够通过遗传漂变累积。因此,旁系同源基因冗余可能会退化,导致在漫长的进化时间中产生三种典型结果:基因丢失(假基因化)、祖先功能的分割(亚功能化)或新功能的获得(新功能化)。然而,旁系同源基因在较短时间内如何在序列、表达模式和功能上分化的动态过程尚不清楚。对旁系同源基因的基因组和功能分析主要局限于单一物种或广泛分化谱系之间,因此未能捕捉到更为中间的演化轨迹和多样的功能意义。深入理解旁系同源基因的演化历史及其潜在的相互依赖关系,可以提高在近缘物种间,利用遗传知识开展对表型结果的预测。在此,我们构建了一份茄属泛基因组,并利用这一资源结合泛基因组学、正向与反向遗传学,全面分析旁系同源基因的进化动态,表明解决这些尚未充分探讨的意外事件,对改善本土作物以适应地方及气候变化至关重要。
结果
染色体水平的茄属泛基因组
茄属(Solanum)是物种丰富、生态多样且经济价值高的植物属之一。该属包括主要作物如茄子(S. melongena)、马铃薯(S. tuberosum)和番茄(S. lycopersicum),以及至少24种本土作物,如非洲茄(S. aethiopicum)、刺茄(S. quitoense)和香瓜茄(S. muricatum)。在约1600万至4400万年的进化历程中,茄属的多样性以及针对特定物种的基因组和遗传工具,使其成为研究旁系同源基因进化的重要模型。我们选择了22种涵盖广泛生态(图1a)、表型(图1b,扩展数据图1a)和分类(图1c,补充表1)多样性的物种,包括具有地区重要性的本土作物和观赏植物以及它们的野生祖先。这些物种被分为四个主要类别,反映了植物利用和驯化的范围:野生(W)、地方重要的消费类(C)、观赏类(O)和驯化的粮食作物(D)(图1a,b)。通过PacBio HiFi测序及其他长距离scaffolding数据,我们为所有22种物种组装了染色体水平的基因组,包括克隆繁殖的高度杂合甜瓜茄(pepino)的单倍型基因组,共计23份基因组,所有基因组均达到参考质量(平均QV > 53,平均N50 = 65.8 Mbp)(扩展数据图1b,c,补充表2)。最终基因组大小从约713 Mbp(S. etuberosum)到约2.5 Gbp(S. robustum),Lasiocarpa亚群的四个成员位列五个最大基因组。基于RNA-seq和基因组重定位的整合基因预测策略使我们能够识别出泛基因组中共计825,493个高置信度基因(扩展数据图1d,补充表3和方法)。其中,495,429个(约60%)在所有样本中共享,反映了这些物种相对较近的进化关系。
图1 茄属泛基因组
与之前的研究一致,基于同源基因的系统发育树将22个物种分为两个主要谱系。根据现有命名法,第一类包括主要作物番茄和马铃薯,而第二类则包含所有带刺的物种,包括三种栽培的茄子物种:S. melongena(茄子)、S. aethiopicum(非洲茄)和S. macrocarpon(Gboma茄)(图1c)。尽管基因成分在物种之间大体一致,但TE的成分和分布差异显著(补充表4)。与其他植物的泛基因组一致,物种特异性的重复内容增加,主要由反转录转座子家族的快速扩张驱动,与基因组大小扩展强烈相关(图1d)。泛基因组的k-mer内容——展示物种相对于泛基因组其余部分的基因组多样性——在谱系间存在差异,其中11个物种包含超过25%的物种特异性序列(图1d)。最后,基于同源基因的分析显示,泛基因组内基因宏共线性保持广泛的保守性,染色体1、2、6和9号的保守性最高(图1e)。该分析还揭示了该属内及第二类亚群内存在大规模的结构重排,包括例如涉及染色体3、5、10和12号的Mb片段水平的倒位和易位(图1e)。这些高质量的基因组为捕捉茄属从谱系到物种层面的遗传多样性提供了基础,为分析旁系同源基因的进化动态及其对基因型与表型关系的影响奠定了基础。
泛基因组分析揭示了茄属基因重复的复杂格局
为了全面了解茄属的基因进化动态,我们重建了基于番茄(S. lycopersicum)的全属orthogroup(s)扩张和收缩事件的历史(图2a)。在茄属泛基因组中识别出的44,962个orthogroup(s)中,我们发现有多个基因群参与了扩张(26,284个)或收缩(37,267个)事件,其中大多数进化事件发生在内部节点,涉及orthogroup(s)的收缩。功能富集分析表明,扩张和收缩的orthogroup(s)主要与环境响应和次生代谢相关,并具有物种和谱系特异性特征(扩展数据图2a,补充表5,补充表6)。我们根据在泛基因组中的表现对orthogroup(s)进行了表征,并将这些orthogroup(s)分为核心(出现在100%的物种中)、近核心(出现在>70%的基因组中)、非核心(出现在5-70%的物种中)和特有(仅出现在一个物种中)(图2b)。大多数orthogroup(s)为核心(60.6%)或近核心(20.2%),而非核心(14.3%)或特有(0.8%)的比例较小。最后,75%的同源基因对(指定为旁系同源基因群)为非核心或特有,这表明衍生的旁系同源基因在遗传上比直系同源基因更具灵活性(扩展数据图2b)。
图2 重复基因多样性与Orthogroups保守性的泛基因组学分析
在所有orthogroup(s)中,基因重复现象十分普遍,70%(575,464个重复基因)的基因具有旁系同源基因(图2c)。我们根据基因组背景将这些重复分为全基因组复制(WGD)产生的重复基因,或单基因重复,包括串联重复(tandem duplication)、近端重复(proximal duplication)、转位重复(transposed duplication)和散在重复(dispersed duplication)。旁系同源基因常来源于数百万年前的全基因组复制事件;然而,单基因重复通常是较为近期且为谱系特异的,共同主导了茄属的重复基因格局(扩展数据图2c)。尽管大多数来自全基因组复制的重复基因属于核心orthogroup(s),但单基因重复则更倾向于近核心和非核心orthogroup(s)(图2c)。利用GO富集分析对不同重复类型的功能进行分析表明,来源于全基因组复制的旁系同源基因对与剂量敏感的过程,如DNA转录和DNA复制,以及激素介导的信号转导和响应具有最强的关联(图2d),这与之前的报道一致。相反,正如在许多体系中已显示的,串联和近端重复则主要与防御和特定代谢物合成相关,以及承担与环境响应相关的多种功能角色(图2d)。
旁系同源基因通过编码序列和顺式调控序列的变化实现功能上的分化;然而,这些变化的相对贡献是否与特定的重复类型相关尚不明确。为此,我们首先使用了之前开发的算法——Conservatory,该算法可以同时量化顺式调控元件的保守性,并基于蛋白质和顺式调控的保守性提高旁系同源基因对的识别准确性(扩展数据图2d及方法部分)。接着,我们结合Ka/Ks比值,作为编码序列选择的度量,与蛋白质和顺式调控元件的保守性一起,确定不同重复类型之间编码和调控序列进化的关系。正如预期的一样,对于五种重复类型,蛋白质相似性随着Ka/Ks值的增加而降低(图2e,扩展数据图2e)。然而,两种顺式调控保守性模式区分了不同的重复类型:串联和近端重复在所有选择水平上维持较高的顺式调控保守性,而全基因组复制、散在重复和转位重复则在Ka/Ks值增加时显示出较高的顺式调控序列相似性。这一观察表明,在经历功能分化的非局部旁系同源基因之间存在更高程度的表达模式保守性。
多组织转录组学分析揭示了旁系同源基因的进化命运
酵母和其他系统的研究表明,重复基因可能因表达剂量增加,而产生有害的适应性效应,从而导致大分子复合物中的化学计量失衡(stoichiometric imbalances)。因此,旁系同源基因的顺式调控序列的早期多样化可能旨在恢复祖先单拷贝基因的剂量水平,这一过程被称为补偿漂变(compensatory drift)。为了探讨旁系同源基因对总的表达剂量的约束,我们将旁系同源基因对分为两大类:剂量约束和剂量非约束(图3a)。我们将剂量约束的orthogroup(s)定义为在给定组织中跨物种展现出相似的总表达水平的旁系同源基因对,而剂量非约束的orthogroup(s)则未维持相同的总表达水平(扩展数据图3a)。为将旁系同源基因对指定到这些类别中,我们建立了一个涵盖22种物种的泛茄属基因表达资源,共包含271个样本,其中15个物种的数据来自两个或多个不同组织(扩展数据图3b)。对5,146个单基因的TPM标准化表达进行主成分分析(PCA),大多数样本按组织类型聚类(图3b)。与酵母的结果一致,我们的数据表明,旁系同源基因对通常在组织和物种间演化时受到总剂量的约束(图3c)。这些基因对的非同义突变率也显著低于剂量非约束的基因对,且不太可能在组织上特异于剂量非约束的基因对。
图3 多组织基因表达分析揭示了茄属植物广泛的旁系同源基因多样化
旁系同源基因对之间的剂量关系可能受到不同进化轨迹的影响,导致表达模式的分化。在特定物种中保留的旁系同源基因对中,我们考虑了四种常见的表达关系模式(图3d,扩展数据图3c):第一组,剂量平衡:总剂量的选择保持高水平,且对在不同组织中的表达模式和水平相似;第二组,旁系同源基因优势:表达水平在各组织之间存在显著的分化;第三组,特化:表达模式不再纯粹呈现全局性转变,而是表现出组织特异性的变化;第四组,分化:旁系同源基因对在表达模式和水平上完全分化。将这些定义应用于我们的旁系同源基因表达数据集,显示出58,130个(约8%)的旁系同源基因对归入上述组别,而超过92%尚未确定,因为它们尚未展现出明显的轨迹(图3e,f,扩展数据图3d)。
虽然这些分组是根据特定物种内各组织的表达模式定义的,但数据还允许我们评估这些组别是否与特定的遗传特征相关。我们比较了各组之间的蛋白质序列相似性,以及基因家族的功能、大小、表达状态、表达组织数量和转录水平(图3g,扩展数据图3e)。我们观察到,第一组的基因对表现出更高的序列相似性、更小的基因家族规模、更广泛的跨组织表达以及更高的转录水平,相较于经历旁系同源基因优势、特化和分化的基因对(第二至第四组)(图3g)。功能富集分析显示,第一组和第二组在剂量敏感的过程中主要富集在转录和翻译过程,而第三组和第四组则富集在防御反应基因中(扩展数据图3e)。此外,与其保守的表达模式一致,第一组和第二组的旁系同源基因对保持了比第三组和第四组更高的顺式调控序列保守性(图3h,扩展数据图3f)。我们进一步推测,重复基因的类型可能会影响它们的表达关系。我们发现,最保守的表达组——第一和第二组的旁系同源基因对,同时捕捉到更多古老的重复——更可能源自全基因组复制,而第三组和第四组的基因对则富集于小规模重复(SSD)(图3i)。尽管我们定义的四组都有可能对作物改良造成复杂影响,但与表达模式相关的60%基因对可能面临更大挑战,因为它们之间存在相互依赖的冗余、补偿或部分亚功能化关系,这可能反映出这些关系在谱系或特定物种间的连续变化。
针对谱系特异性旁系同源基因多样化和补偿关系的遗传解析
茄属泛基因组为研究旁系同源基因的多样化在多大程度上塑造了影响基因型-表型关系的关键基因提供了机会。根据之前对影响16个驯化和育种性状的QTL和发育基因的表征和克隆,我们从三种模式茄属作物(茄子、马铃薯、番茄)中汇编了一组148个基因座及其相关的旁系同源基因(如适用)(补充表7)。我们的泛基因组揭示了这些基因在各谱系间和谱系内的广泛变异,许多情况下出现了基因存在缺失变异(PAV)、拷贝数变异(CNV)和基因截短/假基因化。在这些基因中,有17个orthogroup(s)包含的基因具有影响作物驯化综合征的三个主要组成部分的变异(开花时间与植物形态;花序结构与花朵数;果实大小)(图4a)。例如,在番茄和许多其他物种中,剂量敏感的花粉素-抗花粉素家族成员(SP、SP5G、FTL1a、FTL1b、SP6D、SP6A、SFT)的变异使得选择提前开花和矮小(决定性)植物成为可能,这些是适宜机械收获的关键性状。我们在泛基因组中识别出许多影响旁系同源基因的CNV(拷贝数变异)和功能缺失突变,这些变异可能在调节茄属植物的开花和生长习性方面发挥作用。在花序结构的遗传学研究中,MADS-box转录因子编码基因J2的突变使得番茄的机械收获成为可能,因为这些突变消除了果实茎部的脱落区。然而,J2的祖先同源基因EJ2中共存的突变会导致不理想的花序分枝。我们在泛基因组中发现了一个CNV和至少三个J2的祖先缺失,且大多数缺失发生在东半球的刺茄(Spiny eggplant)类群中。这些物种因此可能对自然或工程化的EJ2突变引起的花序分枝变化更加敏感。
图4 泛遗传学分析揭示了谱系特异性旁系同源基因在果实腔室数目调节中的补偿作用
番茄驯化过程中,果实大小的增加在很大程度上是由干细胞信号肽基因CLAVATA3(CLV3)中的一个启动子结构变异所驱动。部分冗余的祖先同源基因CLE9属于II组(旁系同源基因主导),并部分补偿了CLV3驯化等位基因的作用。我们之前的研究已表明,CLE9在若干茄属物种中假基因化或完全丧失,这消除了CLV3的部分冗余。值得注意的是,除了番茄和S. americanum,泛基因组中的所有物种都含有假基因化的CLE9或完全缺失。同时,东半球刺茄类群的一个子集拥有CLV3完整的基因和假基因化拷贝。我们的染色体水平的参考基因组揭示了涉及这些重复的复杂单倍型,其中包含了物种特异的转座元件入侵和间隔的抗病基因。例如,S. prinophyllum拥有两个完整的CLV3拷贝,而S. aethiopicum(非洲茄,1个假基因化拷贝)、其祖先S. anguivi(1个假基因化拷贝)和S. linnaeanum(3个假基因化拷贝)则各自存在一个完整和一个至三个假基因化拷贝,伴随有极大的转座元件和抗病基因的内容与结构差异。比较这些物种的单倍型并观察假基因结构中相同的断点,暗示在东半球刺茄类群中至少发生了两次独立的CLV3重复事件,其中一次祖先重复在S. insanum、S. linnaeanum、S. anguivi和S. aethiopicum的最后共同祖先中,而另一种较新的CLV3重复则出现在S. prinophyllum的谱系中。然而,我们不能排除存在三次独立重复的可能性,因为S. violaceum仅携带一个CLV3拷贝。
在S. prinophyllum中,CLV3的独立重复导致两个完整拷贝的出现,表明该物种重新建立了冗余关系,而在那些一个CLV3同源基因发生假基因化的物种中,冗余关系再次丧失。我们通过使用CRISPR/Cas9在三种刺茄物种中失活CLV3进行了验证:S. cleistogamum(沙漠葡萄干,单拷贝的ScleCLV3)、S. aethiopicum(非洲茄,拥有一个功能性(SaetCLV3a)拷贝和一个假基因化(SaetCLV3b)拷贝),以及S. prinophyllum(具有完整的SpriCLV3a和SpriCLV3b拷贝)。正如预期的一样,S. cleistogamum和S. aethiopicum中CLV3的一个完整拷贝突变导致了极端的扁平化表型,与番茄的clv3 cle9双突变体相匹配。同样,在S. prinophyllum中失活两个CLV3拷贝(SpriCLV3a和SpriCLV3b)也重现了这一极端表型。
S. prinophyllum中的SpriCLV3a和SpriCLV3b在编码序列和顺式调控序列中完全相同,除了祖先拷贝的3’非翻译区(UTR)中的一个单核苷酸变异。如此高的序列一致性表明,消除一个拷贝,可以被保留的另一个功能拷贝所补偿,这类似于在茄科植物Physalis grisea(地樱桃)中PgriCLV3与PgriCLE9之间几乎完全的补偿机制。我们之前的S. prinophyllum的分生组织转录组数据表明,这两个旁系同源基因的表达水平相似,支持了这一预测。令人惊讶的是,我们发现对任一SpriCLV3旁系同源基因的工程突变会导致果实形态发生细微变化,从野生型的三室果(5%)变为单突变体中的三室果(30%),这表明一个旁系同源基因无法完全补偿另一个,这很可能是由于基因表达剂量效应造成的。
综上所述,这些数据表明,在祖先CLE9同源基因丧失后,三种刺茄谱系中随后的串联重复事件可能重新建立了CLV3的补偿。然而,在至少一个谱系中,由于衍生的CLV3假基因,这种补偿又再次丧失。最后,尽管在S. prinophyllum中保留了两个几乎相同的CLV3拷贝,但完全的补偿并未得到维持。与CLV3类似,动态的重复历史及其产生的旁系同源基因关系,影响着分生组织生长及其他在驯化和性状改良中关键的基因家族,这些可能揭示了影响基因组改造的物种特异性意外事件。
非洲茄泛基因组揭示了广泛的渐渗和旁系同源基因多样化
非洲茄(S. aethiopicum)是一个重要的农作物,原产于撒哈拉以南的非洲地区,广泛种植于整个大陆,栽培面积达数十万英亩。它由被奴役的非洲人带到巴西,但在这些地区之外仍然鲜为人知。非洲茄的多样化栽培品种,人们主要食用果实或叶子,同时也因特定果实类型的观赏价值而受到欢迎。这些不同用途反映了该物种在植物形态和果实特征上的广泛种内多样性,包括果实的形状、颜色和大小。非洲茄的育种主要集中在改善对非生物胁迫的适应性方面,而在提高产量或生产力方面取得的进展较少。重新改造或模拟来自番茄和其他茄科模式作物的已知有益突变的效果,可以推动这些目标的实现,但基因组和遗传资源匮乏限制了这一工作。
图5 非洲茄泛基因组揭示了广泛的结构变异、野生物种的基因渗入和CLV3旁系同源基因的多样化历史
为了解决这一问题,我们首先对八个代表性的种质(补充表9)进行了表型分析,涵盖了Gilo(食果)、Aculeatum(观赏)和Shum(食叶)三个栽培组,同时还包括一个S. anguivi的种质(野生祖先)。基于观察到的表型变异,我们将选择扩展到来自这三个栽培组的10份种质(补充表9),并组装了一份基于长读长测序数据的非洲茄泛基因组,包含其野生祖先S. anguivi。作为参考基因组的非洲茄种质(PI 424860)属于Gilo组,并被用作更广泛的茄属泛基因组中的代表基因型。为了评估遗传关系,我们构建了一个基于直系同源基因的系统发育树,显示出两个主要分支,一个分支由三个Gilo种质组成,另一个分支则包含五个Aculeatum种质。有趣的是,两个Shum种质并未形成单系群,表明为因食叶而栽培的种质可能具有不同的遗传来源。蛋白编码基因主要集中在非洲茄泛基因组的染色体末端,这一模式与其他茄科和开花植物物种相似。转座元件的分布与这一模式相互补充,更多的转座元件聚集在基因稀疏的着丝粒周围区域。
将非洲茄基因组与参考基因组进行比较显示,在序列水平上,大部分基因组高度保守。在所有非洲茄样本中发现了超过250,000个结构变异(SV:定义为至少50 bp的变异),主要集中在染色体末端。这与我们构建的番茄泛基因组情况类似,超过68%的SV位于基因上下游5 kbp的范围内,还有7,234个SVs与外显子重叠,因此可能干扰基因功能。虽然各个种质的平均SV长度相似,但绝对数量在不同组之间有所差异,其中Gilo组的SVs最少,这一模式符合作为参考的非洲茄属于Gilo组的预期。值得注意的是,SVs的分布显示出与野生祖先S. anguivi共享的特定分支的SV和SV簇,暗示了一个渐渗杂交的历史。通过基于窗口的Jaccard相似性分析,我们发现Aculeatum种质中存在多次来自S. anguivi的基因渐渗,很明显地体现在3、4、11和12号染色体上。这种广泛的渐渗杂交表明,在非洲茄育种过程中,来自野生物种的基因流可能是近期发生的,这也可能解释了Aculeatum(观赏型)的起源。
与番茄类似,非洲茄的栽培组在果实大小上表现出极大的变异,这在很大程度上基于腔室数量的变化。我们推测,除了在整个泛基因组中观察到的种间同源基因动态外,关键调节因子如SaetCLV3的近期多样化可能促进了种内表型的多样性。SaetCLV3位点位于10号染色体上,嵌套在密集的SV簇中。有趣的是,一个Aculeatum种质(804750136)仅拥有一个完整的SaetCLV3拷贝,表明其祖先的假基因化拷贝已被消除。基因组微共线性分析揭示了非洲茄和S. anguivi之间以及种内在CLV3位点上的广泛重排和多样性。值得注意的是,我们在两个S. aethiopicum种质(804750136和PI 247828)中检测到了SaetCLV3位点内的两个缺失,包括在SaetCLV3a的第二个外显子与SaetCLV3b的第一个外显子之间约300 kbp的缺失。显著的是,这一大缺失导致了完整的和假基因化的SaetCLV3拷贝之间的融合,形成了一个功能性拷贝,称为SaetCLV3DEL。
旁系同源基因意外事件导致非洲茄果实腔室数目逐步变化
我们接下来探讨了SaetCLV3单倍型和旁系同源基因动态是否影响腔室数量的变异。利用非洲茄基因组,我们进行了QTL-seq以定位控制腔室数量的基因座(补充表10、11、12)。我们生成了F2作图群体,杂交亲本包括属于Gilo组的高腔室数量参考种质(PI 424860)以及分别来自Shum(804750187)和Aculeatum(804750136)组的低和高腔室数量亲本(图6a,扩展数据图6a)。与番茄不同,Gilo组与Shum组之间腔室数量的主要跃变映射到了2号染色体上一个3.9 Mbp的QTL区域,未包含CLV3或其他已知的CLV通路成分(图6b)。相反,我们确定了一个编码丝氨酸羧肽酶的候选基因(SaetSCPL25-like,依据其在拟南芥中的最佳BLAST比对结果命名),在Gilo亲本中发现了一个5 bp的外显子移码缺失。丝氨酸羧肽酶在C末端肽段加工中发挥功能,拟南芥中的研究表明,这种CLE肽段加工的控制可以通过Zn2+羧肽酶编码基因SOL1(抑制子LLP1)突变而抑制,进而引发根尖分生组织相关缺陷。非洲茄中SaetSCPL25-like的突变与腔室数量增加相关(图6c)。我们通过在番茄和S. prinophyllum中使用CRISPR/Cas9技术,突变该基因的旁系同源基因进行了验证,腔室数量的增加与非洲茄中的天然突变相似(图6d)。
图6 非洲茄果室数变异的泛遗传学解析
我们还从Aculeatum组中识别出两个次效QTL,分别映射到5号染色体的1.8 Mbp区域和10号染色体的4.9 Mbp区域。后者包含了含有重复的功能性SaetCLV3的SaetCLV3DEL单倍型拷贝(图5e和图6c)。我们发现这两个次效QTL存在相互作用,纯合的SaetCLV3DEL基因型掩盖了来自Aculeatum亲本的5号染色体单倍型所带来的腔室数量增加(扩展数据图6b)。尽管5号染色体上的 QTL具体的基因和变异尚待表征,这些结果表明存在多个相互作用的位点,其中两个影响CLV3信号通路,导致了非洲茄腔室数量的增加。
接下来,我们分析了这些QTL如何影响非洲茄的驯化历史,我们在非洲茄泛基因组的系统发育背景下检查三个识别的位点中的等位基因(图6c)。Gilo种质包含SaetSCPL25-like突变等位基因,而所有调查的Aculeatum种质和一个Shum种质均携带5号染色体次效QTL的单倍型。同时,一个Aculeatum种质(804750136)含有所有三个可识别的等位基因,包括次效的SaetCLV3DEL结构变异(图6c)。SaetCLV3的SV可能是继SaetSCPL25-like和5号染色体上的 QTL变异之后发生的。SaetCLV3DEL导致腔室数量的轻微减少,可能是为了减轻SaetSCPL25-like与5号染色体上的 QTL的协同效应所带来的腔室数量增加(扩展数据图6b)。这与番茄形成了对比,以前的研究发现SaetCLV3结构变异SlycCLV3fas作为一个广泛且主效的QTL变异,导致果实腔室数量增加,并受到其他次效QTL的修饰,包括旁系同源基因SlCLE9。因此,虽然影响CLV信号的QTL在番茄和非洲茄中都是增加腔室数量的共享驱动因素,但具体的基因、等位基因和相互作用,以及这些个体和组合效应的大小和方向是不同的(图6e)。SaetCLV3处QTL在两个独立驯化历史中的重复出现,强调了结构变异对同源基因进化动态的重大贡献,是影响作物驯化和改良轨迹的关键偶然因素。
讨论
植物泛基因组资源正在迅速涌现。一个普遍的假设是,基因组编辑技术是将基因型与表型知识用于改良相关作物及其野生近缘种的灵丹妙药。然而,几十年来植物育种家的研究表明,背景遗传修饰的加性和表观效应是理想结果预测的一大障碍。对作物大规模测序以获取高质量的参考基因组(包括潜在的端粒到端粒基因组),结合正向遗传学可以方便地揭示背景变异,但识别直系同源基因和旁系同源基因及其演化轨迹仍然是一个有待解决的挑战,特别是考虑到开花植物中古老的全基因组复制和更近期的小规模复制的复杂历史。在跨越更广泛分类学尺度的泛基因组中,这一问题尤其突出,因为会发现更极端的序列变异。
我们通过综合方法解决了识别直系同源基因和旁系同源基因及其多样化历史的挑战。我们利用现有的番茄和茄子的注释、多组织RNA测序注释以及人工整理,揭示并比较了我们泛基因组中的古老旁系同源基因和近期串联重复事件。我们汇总了泛基因组中的核心和非核心基因,并从识别出的数万个旁系同源基因对中,通过表达分析揭示了冗余关系的连续性,这一关系由表达模式的漂移、假基因化或基因丢失所驱动。最引人注目的是,我们展示了果实大小基因CLV3的旁系同源基因,并捕捉到了所有三种可能的情形,这些情形反映在独立的串联重复事件、极端单倍型重排和假基因化中,从而解释了这一驯化性状在物种内外的变异。我们的方法展示了如何利用主要作物的知识来揭示本土作物和野生物种中与性状变异相关的未知因素,开启了互惠知识获取和改良所有作物的新途径。
同样复杂的旁系同源基因进化历史无疑会影响茄属作物、禾本科、豆科及其他植物的其他性状。将广泛且深度采样的物种和基因型组装成超级泛基因组,提供了一个关键的机遇,以更好地理解物种内外基因组脆弱性的起源和频率,并启发机器学习,以便在大规模开展全新的遗传和基因组预测。随着更精确的机器学习模型的开发,微观层面的分析(如reads级别的碱基检测或变异检测)以及表观基因组和调控活性的预测都将得到显著改善和加速。对来自顺式调控变异的基因表达变化的预测努力也在成熟,尽管建模框架及其训练机制的局限性仍然是实现高预测准确性的障碍。推进这些工作,以从编码和顺式调控变异中预测性状变异无疑将更加具有挑战性。我们的研究表明,这类模型必须明确考虑旁系同源基因及其在短期和长期演化过程中的多样化动态。尽管如此,预测基因型与表型关系的能力——这是遗传学和生物学的终极目标——无疑将通过建立一个基于不断增加的分子、细胞和生物数据的基础模型得到增强,以帮助改善植物育种和理解自然界的多样性。
我们也意识到,泛基因组和泛遗传资源、工具和技术在现实世界中的实施需要对当地知识和文化在植物学和农业中所发挥的重要作用有更深刻的理解和敏感性。在这个项目中,当地育种者的民族植物学知识为我们选择谱系、物种和品种提供了重要的专业知识,使我们的泛基因组能够在农业中产生即时的影响。这包括挽救在驯化过程中可能丧失的农艺性状的潜力,如抗逆性和特殊代谢能力。非洲茄就是一个很好的例子,它是热带撒哈拉以南非洲地区,经济和文化上都很重要的作物之一。我们的整合基因组、转化和基因组编辑流程补充了非洲茄种质中丰富的遗传和表型多样性,提供了新的、更可预测的育种途径。例如,通过剖析番茄和非洲茄在增加腔室数量方面的平行但不同的遗传和表观路径,我们有更多的能力在这一重要的本土作物中地增加腔室数量、果实大小和产量。
我们期待未来更深入地研究开花调节因子的旁系同源基因历史和关系,这些调节因子在农业革命中至关重要。然而,重要的是,虽然育种强调产量,但以此为生的农民的需求可能有所不同。在非洲茄的案例中,修改开花时间和花序结构的重要性可能与增加果实大小同样重要。因食果而种植的品种中,早开花和更多分枝基因型将同时矮化植物并加速果实生产和总产量,而在为食叶而栽培的品种中,晚开花将延长营养生长和营养体产量。我们建议,以成花素-抗成花素的开花激素系统及其MADS-box基因靶标为主要目标,以实现这些目标。特别要说明的是,我们的研究揭示了非洲茄中成花素和抗成花素旁系同源基因相对于番茄的显著多样化,番茄中已经有了对这些基因及其功能关系的深入了解。这些旁系同源基因的知识、其等位基因多样性以及表观关系和连续性将为加速非洲茄中这些性状的育种项目提供机会,现在可以通过泛基因组进行数量遗传学分析来表征这些基因的天然等位基因,并提升基因组工程的可预测性。展望未来,改善地方作物的最有前景的策略只能通过地方人士、科学家、育种家和种植者之间的有效沟通、理解和合作来实现。
扩展数据图
扩展数据图1
扩展数据图2
扩展数据图3
扩展数据图4
扩展数据图5
扩展数据图6
Citation
https://doi.org/10.1101/2024.09.10.612244