泛基因组(Pan-genome)是指一个物种中所有个体的基因组信息的集合,包含核心基因组和可变基因组。核心基因组是所有构建泛基因组的物种个体共有的基因,而可变基因组则包含特定个体或亚种中存在的独特基因或序列变异。
通过泛基因组可以获得更加全面的遗传信息,有效降低参考基因组偏差对遗传变异检测的影响,解决单个参考基因组给群体研究带来的许多限制,使得研究者能够更全面地了解物种的遗传特性。
近日,德国IPK莱布尼茨研究所领导的国际研究团队在国际顶级学术期刊《Nature》在线发表了题为《Structural variation in the pangenome of wild and domesticated barley》的研究论文。本研究构建了一个大麦泛基因组,包括76个野生和栽培基因组的长读长序列组装以及1,315个基因型的短读长序列数据。该作物中序列变异的扩展目录包括富含基因拷贝数变异且控制某些性状的结构复杂位点。为了证明泛基因组的实用性,研究者重点关注参与抗病性、植物结构、营养物质释放和毛状体发育的四个基因座。在白粉病抗性位点发现新的等位基因变异和营养分支调节因子中的群体特异性拷贝数增加;优质麦芽大麦中淀粉裂解酶家族的扩展与微麦芽试验中酶活性的变化有关;增强子基序的缺失可能会改变大麦粒上毛状附属物的发育轨迹。研究表明,结构复杂位点的等位基因多样性可能有助于作物适应农业生态系统中新的选择性制度。
76个大麦的基因组注释序列及结构变异图谱
研究者使用PacBio HiFi和Hi-C测序技术对76个大麦进行了染色体水平的基因组组装。全长长末端重复逆转录转座元件的注释显示,这76个基因组在它们的转座元件组成和插入时间上没有显著差异。基因模型借助转录证据和同源性进行了注释,为泛基因组中的19个驯化成员和一个野生成员生成了五种不同组织(胚胎、根、茎、花序和颖果)的Illumina RNA测序(RNA-seq)和PacBio异构体测序数据。为了量化基因存在/缺失变异的程度,研究者构建了一个基于注释的泛基因组的基因中心的同源框架,共识别出95,237个分层同源基因组(HOGs),其中16,672个属于“核心基因组”,即它们至少包含来自所有76个基因型的一个同源基因。
为了扩展存在/缺失变异、插入和缺失以及多态性倒位的目录,研究者对基因组序列进行了比对,并检测了结构变异(SVs)。研究发现两个互惠的染色体间易位,第一个发生在伊朗的地方品种HOR 14273中,第二个发生在来自土耳其的野生大麦HID055中(图1b)。后一事件将2H染色体的短臂与4H染色体的长臂连接起来(反之亦然),并在HID055和Barke20之间的双亲群体中表现为染色体间连锁(图1c)。这表明无意中选择含有SVs的种质资源可能会为植物遗传资源(PGRs)的使用带来障碍。
图1 H. vulgare 的全物种泛基因组
大麦泛基因组中的结构复杂位点
许多复杂位点与抗性基因的进化密切相关。研究者使用了一种基因无关的方法来扫描Morex的基因组序列,寻找含有基因的结构复杂的位点,重点关注那些显然通过长串联重复序列的扩展或收缩导致基因拷贝数变异的实例。研究发现共有169个位点符合标准,大小从20千碱基对(kb)到2.2兆碱基对(Mb)不等(中位数:125 kb)(图2c),它们在泛基因组中的拷贝数是可变的。除了拷贝数的可变性之外,全基因组还揭示了六个迄今为止未知的HvTB1蛋白变体。在玉米中,分蘖减少被归因于TB1的过度表达。大麦全基因组将帮助发育遗传学家揭示拷贝数增加是否在”six-rowed“形式中产生了类似的效果。
图2 大麦泛基因组中结构复杂的基因座
淀粉酶基因位点amy1_1的结构多样性
在大麦泛基因组的复杂位点中,位于第6H染色体上的α-淀粉酶的amy1_1位点具有重大经济作用。这些酶可以将多糖淀粉切割成短链形式,然后进一步分解成糖类。在野生和栽培形式中,这一过程的速度和效率决定了能量供应,从而决定了幼苗在争夺阳光和养分时的活力和生存能力。研究者在76个完整基因组中发现了2到8个amy1_1拷贝,野生和栽培形式中都有显著变异(图3a,b)。使用PGGB构建的局部泛基因组图证实了这个复杂结构位点,并揭示了根据图的结构特征进行聚类与amy1_1拷贝数相关性良好。
图3 淀粉酶1_1位点的结构多样性及其在麦芽制作中的重要性
SVs控制毛状体发育
研究者对大麦泛基因组进行了突变分析,并使用FIND-IT52和Cas9介导的靶向突变获得了几个突变体(图4c)。研究者发现,大麦的小穗轴上毛发的长度由基因HvSRH1控制。长毛发品种的大麦 HvSRH1 基因包含一个增强子区域,而短毛发品种的HvSRH1基因则缺失了这个增强子区域。这个增强子区域的缺失导致HvSRH1的表达水平降低,从而导致短毛发品种的小穗轴上毛发更短、更分支。
图4 增强子基序的缺失与SRH1依赖的毛状体分枝相关
本研究构建了1391个大麦的泛基因组,对大麦全基因组的研究为作物进化和育种提供了新的见解。研究人员首次研究结构复杂位点的进化,并检测出173个具有几乎相同串联重复序列和基因的位点。为了展示泛基因组的实用性,研究人员专注于几个位点——Mla、HvTB1、amy1_1、HvSRH1——以及它们控制的性状:抗病性、植株架构、淀粉动员和谷粒上的原始附属物的毛茸茸特性。该研究为大麦和其他作物的基因组解析和性状改良提供了重要的参考,并为理解作物驯化过程中的遗传多样性变化提供了新的见解。
菲沙基因是三代测序与三维基因组研究领跑者,是一家专注于三代测序技术服务、表观遗传学技术服务、单细胞测序技术服务、基因组医学服务等生物信息上下游于一体的高新技术企业。菲沙基因先后助力玉米、野生稻、鱼腥草等多种植物高质量参考基因组及泛基因组的构建及成果发表,累计影响因子达到了700+!选择菲沙,我们将助您永攀科研高峰!
撰稿 | 王昕
审核 | 郭孟齐