2024年11月28日,中国农业科学院作物科学研究所、中国农业大学、澳大利亚莫道克大学和天津极智生物科技有限公司合作在Nature期刊在线发表了题为“Pan-genome bridges wheat structural variations with habitat and breeding”的研究长文。研究团队从头组装了中国近70年育种史上17个代表性品种染色体水平的高质量基因组,囊括了我国小麦品种中的主要结构变异(SVs)。通过基因组水平的全面分析,研究揭示了中国小麦的遗传多样性和育种历程。这项研究为未来小麦的基因组学辅助改良育种提供了宝贵的基因资源信息,为培育更优质的小麦品种奠定了坚实的基础。
研究背景
普通小麦(AABBDD, Triticum aestivum L.)是世界上最早栽培的农作物之一,大约7000-8000年前在新月沃地通过栽培二粒小麦(AABB, T. dicoccum L.)和节节麦(DD, Ae. tauschii)之间的自然杂交形成的部分同源六倍体。小麦约在3500至4000年前引入中国,逐步替代了传统的黍类作物,极大地改变了中国的农业格局,尤其在北方地区得到了广泛种植。自1950年以来,中国已育成了超过3500个小麦品种,其中个别品种作为骨干亲本在国家育种系统中发挥了重要作用。中国丰富多样的农业生态系统和独特的饮食文化是推动小麦遗传多样性形成的关键因素。通过深入研究小麦品种如何适应多变的环境和满足人类需求,能够更深刻地理解小麦的进化历程,为小麦育种和遗传改良提供新思路。高质量的基因组组装对于挖掘和解析有育种价值的基因至关重要。2018年小麦中国春(Chinese spring)高质量参考基因组的完成,极大地推进了对小麦基因组多样性和进化历史的研究进展。然而,单一的线性参考基因组无法描述物种中的所有结构变异(SVs),泛基因组可以帮助我们捕捉到隐藏许多结构变异。该研究通过对17个中国代表性的小麦品种进行高质量基因组组装和泛基因组分析,揭示了引入的欧、美种质如何融入现代中国小麦育种系统,以及小麦基因组对气候变暖的快速适应。这些研究成果为未来育种提供了宝贵的遗传资源。
研究结果
1、17个小麦品种的基因组组装和注释
为了探究中国70年育种历史中代表性小麦品种的基因组多样性,选择了17个代表性品种进行从头组装(图1a),涵盖了1950-1960年代、1980-1990年代和2000年后不同育种阶段的重要品种(图1b)。这些品种扩展了东亚小麦基因组的遗传多样性,弥补了现有基因组研究中的缺失信息。这17个品种均采用PacBio HiFi测序,平均测序深度为30.37×,并利用Hifiasm软件进行从头组装。随后进行Hi-C测序并挂载至染色体水平,平均测序深度为63.82×。最终获得的组装大小从14.6 Gb(NC4)至15.1 Gb(HD6172)不等,平均为14.86 Gb。17个基因组的ContigN50和Gap数分别平均为27.36Mb和2,288个,平均97.38%的Contigs被锚定在染色体上。为进一步评估基因组组装质量,使用BUSCO分析显示其完整性超过98.90%。此外,LTR组装指数(LAI)也显示,所有组装均达到“参考基因组”水平(LAI > 10)。基于同源性、从头预测和转录组数据预测的结合方法,该研究为每个品种注释到平均约153,077个蛋白编码基因。
图1 17个代表性小麦品种的农艺性状及在全球小麦种质中的多样性
2、小麦泛基因组与NLR基因家族的进化
通过整合17个新组装的基因组和4个先前发表的基因组(CS、Fielder、Kariega和Attraktion)进行泛基因组分析,并通过直系同源基因鉴定,将21个基因组中的基因归类为170,517个潜在基因家族。其中111,955个家族(65.66%)包含了所有21个种质的基因,因此被定义为核心基因家族。另有12,486个家族(7.32%)由19-20个种质组成,被定义为次核心基因家族。其余46,076个家族(27.02%)仅出现在少于19个种质中,被定义为可变基因家族(图2a、b)。饱和曲线表明,当n=10时,基因家族数量趋于稳定,这表明当前的小麦泛基因组具有充分的代表性。此外,KEGG富集分析显示核心基因主要参与基础代谢,而非核心基因则更多与植物抗性调控等途径相关。
在抗性蛋白中,核苷酸结合域和富含亮氨酸重复序列(NLR)蛋白是一个主要的蛋白家族。该研究整理了不同时期(50-60年代、80-90年代和2000年以后)基因组中NLR基因的拷贝数变化。发现80-90年代育成审定的小麦品种,如XY6和YM158,具有最多的NLR基因拷贝数。随着时间推移,CC-NBARC-LRR基因的拷贝数略有下降,而其他NLR基因(如NBARC-LRR)的变化不显著。此外,在亚基因组层面,A、B和D亚基因组的基因家族达到了饱和,而NLR基因集仍未达到饱和,表明NLR基因快速进化具有高度动态的存在/缺失变异。这突显了泛基因组中NLR基因未饱和性,暗示未来的小麦育种工作中可能发现新的抗病基因。
图2 21个小麦品种的泛基因组结构变异
3、小麦基因组结构变异(SVs)图谱
为了鉴定结构变异(包括存在/缺失、易位和倒位),该研究将17个新组装的基因组与CS参考基因组进行了比对。共鉴定出249,976个SVs,其中包括119,331个存在变异、116,046个缺失变异、13,550个易位变异和1,049个倒位变异,其中49.03%(122,567个)SVs的长度超过5 Kb,当前组装中从起始密码子到终止密码子的平均基因长度为2.99Kb。在不同年代的小麦品种中,SVs的数量呈现出随时间推移而逐渐增加的趋势,特别是在1980年代以来审定的品种中,这种积累尤为显著(图1c)。在不同种质间还观察到若干个大的染色体间易位(图1d)。发现B亚基因组中的PAVs积累最高,其次是A亚基因组,而D亚基因组的积累最低(图1e)。此外,PAVs在启动子区域存在富集现象,并且随着PAV长度增加,检测到的PAV数量逐渐减少(图3)。在追踪过去70年中SVs的变化时,发现不同时期的小麦品种中存在大量显著差异的SVs,其中32.95%的SVs在1980年代由于育种正向选择而趋于固定(图2d、e)。MDS的降维分析发现1950年代和1980年代审定的小麦品种存在明显的趣异,而2000年以后发布的品种则沿着第一个维度展开,并与前两个年代的品种群体相融合。这一现象揭示了在现代中国小麦育种过程中,欧美小麦发挥了重要作用,而隐藏在我国老品种中的遗传多样性得到了重新利用和整合(图1f、g)。
图3 小麦泛基因组结构变异图谱
4、跨着丝粒区域的结构变异抑制重组交换
由于组装的17个品种很好地代表了自1940年代以来在中国审定的小麦品种遗传多样性,该研究利用145个重测序品种(DOI: https://doi.org/10.1016/j.molp.2020.09.001)群体数据计算重组数(CRN),并示了PAVs对近着丝粒区域重组的影响。分析显示,几乎所有染色体的核心跨着丝粒区域都检测到大量PAVs。着丝粒附近的区域显示出SVs的高密度聚集,这可能与小麦着丝粒区域重组频率的降低以及广泛单倍型区块的形成有着显著的相关性(图4a、b)。
为了进一步研究与祖源单倍型(centAHG)区块相关的SVs的影响,该研究依据先前表征的centAHG对组装的基因组进行了分组,并分析了SVs频率(图4e、f)。结果显示,异AHG配对的着丝粒近端区域的SVs频率显著高于同AHG配对(图4c),而染色体边界区域则未观察到显著差异(图4d)。因此,这一基因组组装集合揭示的结构变异很好地解释了具有不同祖先单倍型、源自不同野生二粒小麦谱系的着丝粒-近端区域的低重组率。研究发现,育种中的CRN也受到跨着丝粒区域centAHG差异的显著影响。例如,A亚基因组中的染色体3A和5A,由于分化较小,具有较高的CRN;而3B和6B染色体着丝粒近端区域的CRN则极低。D亚基因组的所有7条染色体在其近着丝粒区域仍在持续分化,尤其是7D染色体上的快速分化尤为明显。最显著的例外出现在染色体4A上,低PAVs与育种历史中的极低CRN相关。其最可能的原因是在育种过程中从二粒小麦(T. dicoccoides)导入了一个跨越着丝粒的300 Mb片段,显著抑制了染色体重组,导致育成品种的显著分化。
图4 小麦染色体上跨着丝粒区域的大结构变异抑制了交换重组
5、VRN-A1拷贝数变异对小麦春冬性的影响
该研究进一步聚焦于育种过程中受选择的SVs的鉴定工作。从1950年代到1980年代被选择的SVs比例为13.52%,从1980年代到2000年代则为13.16%。通过结合SNPs和SVs筛选小麦育种过程中受选择的全基因组位点,在极端FST值基因组区段中鉴定到了春化基因VRN-A1和两个调节小麦硬度的PIN基因(Pina和Pinb)。以生态型为性状的GWAS分析在含有VRN-A1的区域也显示出明显的信号(图5a)。基于组装的普通小麦、四倍体小麦和大麦基因组中VRN-A1编码区的两个SNP位点,VRN-A1基因单倍型被分为三个亚类,包括一个春性类型和两个冬性类型(图5b)。进一步分析VRN-A1等位基因在育种过程中的变化,观察到春性等位基因出现在野生四倍体、栽培四倍体小麦和春麦品种(如CS、Abo和NC4)中,而冬性等位基因则在普通小麦地方品种和现代品种(如JM22和HD6172)中比较普遍。
此外,全基因组比较发现VRN-A1区域发生了拷贝数变异,且VRN-A1的拷贝数与生态型相关,其中JM22等强冬性品种的VRN-A1基因拷贝数高于弱冬性小麦品种(如YM158)和春麦品种(如NC4)(图3c)。全基因组重测序数据也支持YM158中存在两个VRN-A1的拷贝(图5d)。随着小麦从中东传播到中国,VRN-A1的拷贝数增加,北方地区的地方品种相比西南地区品种携带更多拷贝数;与地方品种相比,现代品种的拷贝数有降低的趋势,可能与气候变暖有一定关系。
经过三周的冷处理(5-8°C)后,春性品种的VRN-A1表达水平通常较高(图3g)。然而,在田间经过4个月的完全春化后,冬性品种的VRN-A1基因总转录水平明显高于春性品种(图3g)。这解释了冬性品种在黄淮麦区比春性品种如中国春更早抽穗的现象。长期低温后,携带Hap-II和Hap-III的品种(如JM47和ZM16)的VRN-A1转录水平较高,而携带Hap-I的品种(如CS、Abo和NC4)则较低。有趣的是,大多数冬性和强冬性品种偏好Hap-II+III(图3g)。当然影响VRN1表达水平的因素较多,除了拷贝数,表观遗传修饰及重复后的空间结构对其转录表达也有影响。
图5 VRN-A1基因的拷贝数与小麦冬春性进化相关
6、小麦Pin基因结构变异对籽粒硬度的影响
在对籽粒硬度性状的GWAS分析中,发现包含Pina和Pinb基因的区域显示出显著关联(图6a)。在现有的基因组中鉴定到Pina的两个等位基因(Pina-D1a为野生型等位基因,Pina-D1b为基因缺失的等位基因)和Pinb的三个等位基因(Pinb-D1a为野生型等位基因,Pinb-D1b携带非同义突变,Pinb-D1u则携带提前终止密码子)(图6b、c)。发现携带野生型等位基因的品种籽粒较软,而携带突变等位基因的品种籽粒硬度显著提高(图6d、e)。
在比较10+泛基因组和17个中国品种的Pina和Pinb单倍型时,发现中国品种的等位基因多样性更加丰富(图6)。对于Pina基因,野生型等位基因Pina-D1a主要向西传播,基因缺失的等位基因Pina-D1b主要向东部传播;而对于Pinb基因,Pinb-D1b等位基因在欧洲品种中较为常见,而Pinb-D1u等位基因则主要出现在东方,这表明西方和东方国家在选择和利用PIN基因等位基因上存在显著差异(图6d、e)。除了气候因素外,饮食和烹饪方式也可能对这些区域的PIN基因地理分布产生影响。野生型单倍型(Pina-D1a和Pinb-D1a;图6d、e)在中国南部的传播表明人们选择软籽粒(Pina-D1a)来烹制蒸煮类食物(馒头、面条)。相反,在中国北方、特别是西北地区,由于少数民族移民的影响,与欧洲和中东的饮食习惯相似更偏向烘焙风格,因而选择了硬质籽粒的突变单倍型(如Pina-D1b)。
一些西方国家的小麦品种携带了一个Pina缺失的等位基因,而在中国品种中仅在一个品种NC4中发现了该等位基因(图6c)。NC4于20世纪80年代在宁夏培育并推广,至今仍是西北地区的当家品种,这些地区在食物制作风格上与西方文化有许多相似之处,偏爱烘焙小麦制品,更偏爱完全缺失Pina基因的硬质小麦品种;大部分汉族更偏好蒸、煮类面食,如馒头和面条,因此在中国东南部地区分布了较多的软质小麦品种。这一现象表明,饮食文化显著影响了小麦品种的选择,反映了区域性饮食偏好对品种演化的间接影响。
图6 PIN基因结构变异及其等位基因在全球品种中的分布,表明在中国南北方的饮食文化中对籽粒硬度的侧重点有所不同
7、小麦1RS易位系品种中PAVs的演化
由于1RS/1BL易位与高产及对白粉病和条锈病的优良抗性相关,因此该易位在中国小麦育种中得到了广泛的利用。目前,约45%的生产品种携带1RS/1BL易位。为了评估1RS序列在小麦遗传背景中的多样性和进化,对新组装的小麦基因组中的1RS序列进行了分析。与中国春参考基因组中的1BS序列相比,在1RS的近着丝粒附近区域发现了一个共线性丢失区域(198.6-213.3Mb)和四个高深度覆盖区域,分别位于214.5-215.2Mb、234.8-235.5Mb、234.8-236.5Mb和237.0-239.4Mb。此外,在1BL上检测到与1RS/1BL相关的一个倒位(图7a)。基于PAV变异信息,重测序的材料中1RS/1BL易位被分为四个单倍型(图7b)。
对新组装的1RS序列进行比较分析后,将这些序列分为三个亚组:亚组1,包括ZM22和S4185,具有最长的1RS序列;亚组2,包括KF11、HD6172和AMN,具有中等大小的1RS序列;亚组3,包括ZM16、KN9204和AK58,具有最小的1RS序列。以NOR为标记,将黑麦亚端粒重复序列pSc200作为探针,结合FISH中的pSc119.2,在ZM22、ZM16和AMN检测的强信号可以清楚地显示1RS末端区域的PAVs变异(图7c)。重复序列注释表明,新增的20Mb片段主要包含1RS特异性亚端粒重复序列和51-97个不等的基因序列,这些片段在两个组装的黑麦基因组中均未检测到同源片段。1RS的显著异质性可能是1RS/1BL在小麦育种中的广泛且持久应用的另一个重要原因。
图7 来自黑麦的染色体片段(1RS/1BL)在小麦基因组中快速调整和进化
全文总结
该研究通过组装和解析17个中国小麦品种的基因组,在基因组水平全面地展示了20世纪50年代以来中国小麦育种结构变异的主要来源及选择规律。研究发现,自20世纪80年代以来,欧洲和美洲品种的广泛引入导致了结构性变异(SVs)的显著积累,这些变异抑制了近着丝粒区域的重组,并对小麦适应环境、形成不同生态类型起到了关键作用。此外,研究探讨了饮食偏好、人口迁移和文化融合对中国北方、特别是西北地区小麦品种选择的影响,以及外源片段在小麦改良中的快速进化,为未来育种提供了宝贵资源、信息和方向参考。
中国农科院作科所和南京农业大学联合培养的博士生焦成智、中国农业大学博士生谢小明、中国农科院作科所郝晨阳研究员和天津极智生物科技有限公司陈力杨为论文共同第一作者,中国农科院作科所张学勇研究员、中国农业大学郭伟龙教授和澳大利亚莫多克大学Rajeev K. Varshney教授为论文的共同通讯作者。作科所谢玉心博士、博士生赵李、中国农大王梓豪博士、澳大利亚Vanika Garg博士、Rudi Apples教授、南京农大王秀娥教授做出了重要贡献。作物科学所刘旭院士、贾继增、付俊杰、毛龙、李甜、侯健、刘红霞等参与了研究和论文起草讨论工作,洛阳农科院高海涛研究员帮助完成了17个品种的冬春性鉴定。该研究得到国家重点研发计划、中国农科院创新工程、国家自然科学基金等项目的资助。
https://www.nature.com/articles/s41586-024-08277-0
17 个小麦基因组资源已上线小麦多组学网站,详见次条。