一作解读 | Nature : 76个大麦的泛基因组和结构变异

学术   2024-11-25 14:22   海南  

泛基因组是同一物种多个个体全部基因的集合,其所揭示的结构变异是作物遗传分析和育种应用中的重要资源。近日,由德国莱布尼茨植物遗传与作物研究所 (Leibniz-Institute for Plant Genetics and Crop Plant Research, IPK) 牵头,包括30家国际研究机构在内的大麦泛基因组联盟在Nature杂志在线发表了题为” Structural variation in the pangenome of wild and domesticated barley” 的研究论文。

本研究报道了76个具有代表性的野生和驯化大麦材料的高质量参考基因组和1,315 个大麦材料的全基因组短序列测序数据。研究揭示了大麦基因组中丰富的结构变异位点并通过四个生物学实例展示了泛基因组在研究基因和结构变异与生物学性状关系中的重要作用。

1.结构变异图谱

为了量化基因存在/缺失变异的程度,基于注释的泛基因组,作者构建了一个以基因为中心的同源框架。从76个基因组中,共检测到95,237个hierarchical orthologous groups (HOGs,直系同源基因群),Core,shell 和cloud三大类基因占比分别为64.71%,  33.62% 和 1.67%。Gene Ontology Enrichment Analysis显示,来自23个野生大麦特有的863 HOGs主要属于‘nutrient reservoir activity’,而来自53个驯化大麦特有的397 HOG主要属于‘defense response’.

另外,通过全基因组比对,变异分析扩展到所有结构变异,包括PAV (presence/absence variants,存在/缺失),indels (insertions and deletions,插入缺失)和染色体易位倒位(translocations and inversions)。比如,在伊朗农家品种HOR 14273和土耳其的野生大麦HID055中检测到染色体间相互易位 2HS vs. 4HL (Fig.1b) 。在双亲本群体中,如果一个亲本含有该染色体易位,易位染色体之间就会出现显著连锁 (Fig.1c) 。与驯化大麦基因组比较, 野生大麦基因组中含有更多的单拷贝序列 (Fig.1d) 。

图1:H.vulgare的全物种泛基因组分析

2.复杂基因座清单

对全基因组进行扫描,共检测到169个包含基因的复杂位点,  大小从20kb到2.2Mb不等。许多复杂的位点与抗性基因的进化紧密相关。一个典型的例子是大麦白粉病抗性位点a(Mla) ,该位点包含三个同源抗性基因家族,每个家族在该位点上都有多个成员。RGT Planet品种中的一个40kb区域包含两个基因家族,且这些成员头尾相接重复了四次,但在我们泛基因组的62个样本中,这个区域却没有一个完整的拷贝。那些经过功能验证能提供有效白粉病抗性的Mla基因虽属同一亚族但位于此重复区域之外 (Fig.2a) 。迄今为止,已定义的29个严格意义上的Mla等位基因,从泛基因组中可识别出其中7个等位基因 (Fig.2a) 。

分子钟定年分析显示,循环发生的重复/收缩导致了Morex中高阶和低阶串联重复的复杂模式。事实上,许多基因拷贝可能是在过去300万年内形成的,即大麦(H.vulgare) 谱系从其最亲近的亲缘种球茎大麦(Hordeum bulbosum) 分化之后。此外,62个位点(36.7%) 在过去10, 000年内 (驯化之后) 经历了至少一次重复。其中43个位点的扩增如此之近,以至于它们包含的基因是彼此相同的重复拷贝。尽管重复片段的相似性较高, 但转座元件(TE) 插入(或切除) 、随机缺失和突变也随着时间的推移促成了个别基因拷贝的多样化或假基因化(Fig.3a) 。

图2:大麦泛基因组中的结构复杂基因座

3.α-淀粉酶基因的扩增

大麦α-淀粉酶主要分为四个家族,其中最为复杂的是amy1_1。早期的基因组分析仅显示了amy1_1位点存在结构变异,而基于长序列测序的泛基因组分析才进一步揭示了该位点的具体基因拷贝数及其排列方式。amy1_1的拷贝数在野生和栽培品种中都有变异 (Fig.3a, b) 。我们将CNV分析进一步扩展到1,315个遗传种质材料,发现了更为丰富的结构变异。另外amy1_1位点的haplotype clustering analysis显示,Morex,Barke 和RGT Planet是群体中三个主要amy1_1单倍型。amy1_1位点的结构多样性同时也伴随着基因序列的差异。76个基因组中,共检测到94个不同amy1_1 ORFs。在Barke、RGT Planet和Morex的AMY1_1蛋白中,九个氨基酸变异主要位于与AMY1_1底物结合口袋的附近(Fig.3c,d) 。Barke中一个amy1_1拷贝(ORF no.2) 与Barke、Morex和RGT Planet中的其他拷贝有显著不同。经蛋白模型预测,R327K和V394I这两个氨基酸变异可能对酿造过程有利。

我们更详细地查看了啤酒大麦Morex、Barke和RGT Planet(Fig.3) 。在作为基因组参考栽培品种之前,Morex是北美地区的一个成功栽培品种。它有六个相似度超过99% amy1_1拷贝,其中一个拷贝因被TE插入而破坏(Fig.3a) 。德国品种Barke, 有六个不同的完整拷贝。RGT Planet,目前在全球多个大麦种植区表现良好的品种,拥有五个拷贝,其中一个拷贝由于启动子结合位点32bp的缺失(pyr-box CTTT(A/T) 核心) 而失活。最终麦芽样本中的α-淀粉酶活性是由amy1_1拷贝数、转录和蛋白活性共同决定。因此,我们构建了分别带有amy1_1-Barke 和amy1_1-Morex位点的RGT Planet 近等基因系,并且进行了micro-malting 实验。结果表明,在三个环境下,amy1_1-Barke的α-淀粉酶活性最高 (Fig.3e) 。通过大麦泛基因组揭示的amy1_1序列变异为在育种中有针对性地部署甚至设计amy1_1单倍型铺平了道路。

图3:amy1_1基因座的结构多样性及其在麦芽中的重要性

4.一种控制着毛状体发育的结构变异(SV)

利用来自由栽培品种Morex (短毛,srh1,Short rachilla hair 1) 和Barke (长毛,Srh1) 的2,398个重组自交系群体,我们将目标基因定位在5HL的113 kb区间内(Fig.4a) 。该区间本身没有注释的基因,但在离该区间11 kb区域内,发现了一个拟南芥(Arabidopsis thaliana) 的SIAMESE-RELATED(SMR) 基因同源物。这个细胞周期蛋白依赖性激酶抑制剂家族的成员,控制该物种中毛状体的内复制。我们分别利用FIND-IT和Cas9介导的靶向突变获得了多个突变体(Fig.4c) 。来自长毛基因型的突变体中,基因敲除或在该基因Pro磷酸化基序(Thr62-Pro63) 中的非同义变化,都表现为短而多细胞的穗轴毛,由此验证了该基因HORVU.MOREX.r3.5HG0492730即为HvSRH1。在泛基因组中HvSRH1与表型之间并没有明显的关系。因此,我们接着检查了调控变异。在泛基因组中,所有14个短毛基因型都缺少一个4, 273 bp的序列片段(Fig.4a) ,该片段不包含编码序列,但在长毛类型中保守性很高, 与Barke的总体相似度为95%。在这个序列中,我们发现了一个基序CATCGGATCCTT, 它与拟南芥中SMR表达调控因子识别的序列C[ATC]T[ATC]GGATNC[CT][ATC]相匹配。这个序列在Barke中重复了五次。长毛类型中的最接近的假定识别序列与基因间的距离不超过13.6 kb,而短毛类型中基因与其最近假定增强子基序之间的最小距离为22.3 kb(Fig.4a) 。

图4:增强子基序中的一处缺失与Srh1依赖的毛状体分枝相关

全文链接:

https://www.nature.com/articles/s41586-024-08187-1

扫描二维码关注我们
小麦族多组学网站:http://wheatomics.sdau.edu.cn
投稿、合作等邮箱:shengweima@icloud.com
微信群: 加群点击小麦研究联盟交流群

小麦研究联盟
本公众号意在分享小麦组学研究和生物信息学领域相关的知识,包括相关软件,方法,文章,编程相关的知识。bioinformatics
 最新文章