英文标题:Grapevine pangenome facilitates trait genetics and genomic breeding
发表时间:2024.11.1
发表期刊:Nature Genetics
影响因子:31.7
2024年11月4号中国农业科学院深圳农业基因组研究所周永锋团队在《Nature Genetics》杂志在线发表了题为Grapevine pangenome facilitates trait genetics and genomic breeding的研究成果。本研究对九个二倍体葡萄样本(包括野生种和栽培品种)进行了精细组装,获得了18个端粒到端粒(T2T)水平的单倍型基因组,进而构建了首个驯化葡萄Grapepan v1.0图泛参考基因组,并研究构建了包含单核苷酸变异(SNP)、插入缺失变异(InDel)和结构变异(SV)的葡萄基因型图谱与重要育种性状的表型图谱。通过系统的群体遗传学与数量遗传学挖掘,解析了葡萄复杂农艺性状的遗传基础,定位了29个农艺性状相关的数量性状基因位点(QTLs)。通过整合机器学习算法、基因型图谱、表型图谱和数量遗传学分析,提出了葡萄多性状的全基因组选择育种模型,并成功构建了葡萄全基因组选择育种体系。该体系将有效缩短育种年限、降低育种成本、提高育种效率,形成葡萄育种的新质生产力,为我国快速突破葡萄种业瓶颈奠定了基础。贝纳基因参与该项目ONT Ultra-long超长测序等工作。
研究背景
葡萄是一种具有重要经济价值的多年生水果作物,可作为水果食用或作为酿造葡萄酒的原材料,已有逾万年的驯化历史,并且在驯化过程中积累了大量的有害突变。由于育种周期长,育种性状的遗传学研究不深入,遗传转化体系不成熟,尚未广泛应用多组学与人工智能等革命性技术,葡萄的生物育种体系明显滞后于一年生粮食作物。以往的研究由于技术限制,结构变异尚未得到充分研究,而他们对性状的影响至关重要。此外,以往的单参考基因组分析方法也会引入参考基因组偏差。随着三代基因组测序技术的出现,完整基因组以及泛参考基因组的构建已经使得进一步解析葡萄重要农艺性状成为可能。在当前的育种4.0时代,引入机器学习的全基因组选择算法提高基因组预测准确率,使得实现快速、高效、低成本的葡萄育种成为可能。
主要研究结果
1. 构建首个驯化葡萄图形泛参考基因组(Grapepan v1.0)
长期以来,由于单参考基因组无法全面代表物种的遗传多样性,导致对变异识别不充分、映射偏差,难以准确分析且无法包含所有变异类型。然而,图形泛基因组的出现极大地改善了这一局限,能够更全面地代表物种的遗传多样性,消除参考基因组偏差,并整合所有基因组变异,实现对基因组变异的彻底和准确识别。在这项最新的研究中,科学家们对九个二倍体葡萄样本(包括野生种和栽培品种)进行了精细组装,获得了18个端粒到端粒(T2T)水平的单倍型基因组。研究团队进一步整合新组装和已发表的基因组,成功构建了葡萄图形泛参考基因组(Grapepan v1.0),其总长度达到1.43 Gb,是现有单参考基因组的2.88倍。通过泛基因组,共检测到236,449个可靠的结构变异。这项研究通过构建图形泛基因组,能够更广泛地覆盖并整合葡萄中的遗传变异,为更深层次研究葡萄的遗传基础及育种提供了宝贵资源。
图 1 葡萄T2T基因组组装及泛参考基因组构建
2. 数量遗传学解析葡萄复杂农艺性状的遗传基础
构建葡萄育种的基因组变异图谱与重要性状图谱:该研究基于图形泛参考基因组和466份重测序数据,绘制了葡萄群体基因组变异图谱,共鉴定到8,591,919个点SNPs、513,969个短的插入(Indels)和236,449个SVs。同时,为构建葡萄重要性状图谱,研究人员对上述的324份栽培葡萄的29 个关键农艺性状进行了连续两年(2016和2017年)的观测收集,这些性状涉及果穗大小、浆果内含物、浆果性状、浆果大小和浆果果皮等五大类。结果表明,不同性状之间存在一定的关联性。例如,在浆果内含物方面,果糖 (Fru)、葡萄糖(Glu)和可溶性固形物 (SSC)之间呈显著正相关(P < 0.001)。这些性状之间的相关性表明它们可能共同受到某些基因座的调控,这为基于全基因组选择的多性状优良葡萄育种提供了重要的理论依据(图2)。
图 2 葡萄不同群体间29个农艺性状及相关性
3. 复杂农艺性状的遗传基础
该研究运用数量遗传学分析,共鉴定出148个与农艺性状显著关联的位点,其中136个基于SNPs数据,12个则基于SVs数据,这些位点覆盖了约5.58%的基因组(图3)。其中26个位点在之前研究中已有报道,如在18号染色体上检测到与无籽性状相关的位点,而剩余的122个位点则为本研究首次发现的全新位点。研究还发现部分性状的QTL候选位点存在一定的关联,如可溶性固形物含量和浆果宽度相关位点邻近,该区域也存在选择性清除现象。此外,基于 XP-EHH 的分析,研究发现不同葡萄群体(酿酒、鲜食、美洲鲜食杂种)之间存在显著分化的区域,这些区域中存在与浆果颜色、果皮涩味、浆果形状、果穗重量、果肉硬度、果实大小和代谢物等相关的多个QTL位点,表明对农艺性状歧化选择促进了酿酒与鲜食葡萄的分化。
图 3 与农艺性状相关的候选基因座及其人工选择印记
4. 结构变异贡献缺失的遗传力
在过去的研究中,由于技术等因素的限制,SVs常常被忽视,然而它们对性状的影响同样重要。本研究基于泛参考基因组和重测序数据,获得了准确、全面的葡萄SVs数据。分析结果显示,SVs与SNPs 之间的连锁不平衡(LD)衰减很快,这表明葡萄数量性状的部分缺失的遗传力可能隐藏在SVs中。本研究进一步表明,SVs 对大多数农艺性状的遗传力具有重要贡献,甚至在部分性状上的影响远高于 SNPs。例如,全基因组 SVs 可解释浆果宽度74.6%的遗传方差,而SNPs仅解释0.5%;在可溶性固形物含量方面,SVs贡献了35.8%的遗传力,而SNPs仅贡献0.6%(图4)。因此,基于以往仅依赖SNPs的农艺性状预测方法效果非常有限,而本研究结合SVs和SNPs数据的全基因组选择模型显著提升了预测的准确性。
图 4 连锁不平衡衰减和丢失的遗传力
5. 基于机器学习的葡萄全基因组选择育种体系酸生物合成途径基因的表达分析
为建立遗传变异和表型之间的联系,研究人员利用机器学习方法进行计算多基因评分(PGS)。在植物育种过程中,PGS的应用可以在早期筛选优良基因型,育种者借此能够快速筛选大量育种材料,预测遗传潜力。在本研究中,研究人员利用全基因组选择(GS)方法进行表现预测分析。通过将包含了表型和基因型的数据划分为三个子集:训练集、验证集和测试集(图5)。利用机器学习算法解析基因型与表型数据间的复杂网络关系,运用训练数据集构建GS模型,进一步通过验证集调整模型参数,进行模型优化,最后测试数据集评估最终模型的性能。最终结果表明,结合了结构变异信息以及机器学习模型的PGS评分预测准确率平均超过50%。相较于之前的研究有显著提高,尤其是在浆果长度和可溶性固形物含量等性状。因此利用基因组选择技术进行葡萄遗传改良具有现实可行性,并且具有较大的应用潜力(图6)。通过对比传统杂交育种和基因组选择育种可知,基因组选择育种能够提升4倍的育种效率,极大加速葡萄的育种效率,革新葡萄的育种策略(图7)。基因组选择育种在育种周期,育种规模及育种成本等方面具有较大的优势,能够定向培育高品质葡萄新品种。因此,本研究构建的葡萄全基因组选择育种体系将有效推动葡萄关键农艺性状的高效筛选,加速葡萄新种质的创制,大幅缩短葡萄育种周期,降低育种成本。同时,本研究体系的构建将为我国葡萄育种提供强有力的技术支撑,为实现葡萄分子设计育种提供理论基础,为其它多年生作物的遗传育种提供参考依据。
图 5 基因组选择育种策略
图 6 主要农艺性状的预测准确率
图 7 葡萄基因型选择育种于杂交育种的比较
图 8 葡萄全基因组选择育种的优势
总结
该研究构建的葡萄图形泛基因组(Grapepan v1.0)和变异图谱为葡萄基因组学研究和育种提供了宝贵资源。通过深入分析SVs在葡萄基因组中的分布、与其他遗传元件的关系以及对农艺性状遗传力的贡献,揭示了SVs在葡萄遗传变异和育种中的重要作用。研究发现的葡萄农艺性状遗传基础和遗传相关性,为多性状基因组选择育种提供了理论依据和实践指导,有助于加速葡萄品种创新,适应种植需求、市场变化和气候变化。未来,基于这些成果有望培育出更优质、多抗、高产的葡萄新品种,推动葡萄产业的可持续发展。同时,该研究方法和成果也为其他作物的生物育种提供了借鉴和参考。
参考文献:
Liu, Z., Wang, N., Su, Y. et al. Grapevine pangenome facilitates trait genetics and genomic breeding. Nat Genet (2024). https://doi.org/10.1038/s41588-024-01967-5
原文链接:
https://www.nature.com/articles/s41588-024-01967-5
点击文末阅读原文,获取文献链接
往期精彩:
NAR解读|Direct RNA测序揭示U6 snRNA m6A 修饰在mRNA准确剪接中的关键作用
NC文献解读| Direct RNA测序能够消除传统抗体方法检测m6A修饰的假阳性问题
文献解读|小鼠肝脏对反复毒性损伤的耐受性与脂肪变性和炎症有关
Plant Cell文献解读 | 稻瘟病菌侵染植物的转录组景观揭示了时间共调控和结构保守的效应因子家族
文献解读 | The Plant Cell期刊发表十字花科植物基因间区长链非编码RNA的鉴定与功能注释成果
项目文章 | 纳米孔长读长RNA测序揭示人类血管平滑肌细胞中功能性的可变剪接变体
m7GHub V2.0:一个用于解析表观转录组m7G甲基化修饰的数据库
项目文章|贝纳基因Direct RNA测序助力牛脂肪细胞成脂机制研究
贝纳基因使用Nanopore平台完成全球第一个大型复杂植物基因组(菊花基因组)的组装和后续分析工作。提出并推动千种本草基因组计划,并构建药用植物基因组数据库,推动药材研究的发展。
贝纳基因使用Nanopore平台完成数千份细菌基因组、宏基因组测序和数据分析;完成数千份全长转录组和Direct转录组测序及分析。提出并推动基于Nanopore测序的万种微生物基因组完成图计划和十万人的Nanopore宏基因组研究计划。
贝纳基因开发了基于Nanopore平台的微生物检测体系,自主开发的数据库涵盖现已正式发表的所有微生物基因组,大型测序仪单机一次运行可以产生7.2T数据,小型便携式测序系统可用于临床检测和野外作业。
贝纳课堂-Nanopore交流QQ群:992789813(本群已满)
贝纳课堂-Nanopore交流QQ群2:923119248
生物信息交流QQ群:198746977
客服QQ:3277498363