玉米作为一种全球广泛种植的作物,其在全球谷物产量中占比高达37.2%。自上个世纪初单交玉米杂交种开始应用以来,玉米产量实现了超过七倍的增长。迄今为止,通过密集的育种工作,玉米杂交种的密度耐受性、产量潜力、抗病性、耐逆性和适应性等方面都得到了显著提升。近期,中国农业科学院作物科学研究所在《SCIENCE CHINA Life Sciences》发表了题为“enomic analysis of modern maize inbred lines reveals diversity and selective breeding effects” 的Letter论文。在该项研究中,作者对一个包含2,430个现代自交系的大型玉米种质面板进行了全基因组选择分析和机器学习可行性测试,这些自交系源自不同地理区域,具备多样的理想性状。作者构建了深度神经网络基因组预测模型,以预测植物结构和产量相关性状,这些性状涉及不同种质中的稀有和有利位点。
作者构建了一个包含2,933个玉米自交系的多样性面板,其中包括2,430个现代自交系,这些自交系源自商业杂交种,以及503个多样化自交系(Chen et al., 2022,https://doi.org/10.1038/s41588-022-01184-y),它们在育种中得到了广泛应用。这些自交系被用来探索不同种质中的稀有和有利等位变异,目的是了解当前玉米育种群体中缺失的遗传变异,并进一步设计玉米育种中的突破性品种。通过对整个面板进行重测序(没提到相关数据信息),作者选择了437,081个高质量SNP标记用于后续分析。SNP分布图显示,染色体1和染色体6分别拥有最高和最少的SNP数量。这些SNP几乎遍布整个基因组,覆盖了从Chr 10的150.94 Mb到Chr 1的306.96 Mb的物理距离。
作者还评估了玉米多样性面板中的遗传变异,通过注释SNP的遗传位置和对基因功能的潜在影响。在2,933个自交系和参考基因组之间共鉴定出2,648,748个潜在的基因组变异。这些变异中,错义和移码突变分别占5.14%和0.08%。其余变异要么位于内含子/基因间区域,要么导致同义突变。基因下游区域拥有最多的SNPs,其次是内含子、上游、外显子、基因间、3′非翻译区和转录变异区域。
通过无监督的ADMIXTURE分析,作者发现群体遗传结构呈现低多样性聚类。随后,半监督的ADMIXTURE分析产生了11个聚类,这些聚类中的自交系数量差异显著。被称为Lvda Red Cob的亚群包含了180个自交系,包括一些精英系。其他主要源自孟山都和先锋杂交种的亚群,包含的传统自交系很少。第二大群体由676个主要源自XY335杂交种的自交系组成。其他亚群包含了Mo17和Zi330的雄性亲本,以及B73和B37的雌性亲本。还有一个由P138和Qi319抗病自交系组成的亚群,这些自交系主要源自P78599杂交种。
主成分分析显示,前10个主成分占基因组变异的约25%,其中前三个主成分分别解释了5.73%、4.00%和2.45%。散点图显示亚群之间的分化微弱,但K2和K3明显与其他亚群不同。基于距离的系统发育分析显示,聚类模式与PCA结果一致。
本研究的发现表明,通过引入新种质,可以形成新的杂种优势群。为了评估它们的遗传关系,作者计算了成对亲缘系数和遗传距离。任何两个系之间的平均相对亲缘关系为0.0065,表明这些系之间的遗传相似性较弱。自交系之间的平均遗传距离为0.03,表明它们之间存在相对较大的遗传距离。与PCA结果一致,11个亚群之间的全基因组配对遗传固定指数很高,表明亚群内遗传多样性相对丰富。
作者还对11个亚群进行了全基因组连锁不平衡检测,发现随着物理距离的增加,LD迅速下降。K9和K10的LD衰减最慢,表明它们可能具有更高的遗传多样性。进一步的分析显示,Ho的平均值为0.01,低于He(0.23),表明可能存在方向性选择。亚群K9和K10的平均PIC高于整个面板,这表明遗传多样性更高。此外,整个面板和所有亚群的Tajima's D值均为正,表明存在平衡选择。
本研究的结果揭示了现代玉米育种系中更好地利用了大部分遗传变异。作者计算了FST、XP-EHH和Pi比值,并在多样化的玉米自交系面板中鉴定出21,854个在整个种质中存在较大等位基因频率差异的位点。这些位点被称为富集位点,其中827个位点被所有三种方法检测到。从这三种分析中鉴定出54,177个非冗余位点,占所有SNPs的12.40%。富集位点的置信区间涵盖了27,113个基因,占所有玉米基因的69.5%。在这些涵盖的基因中,有3,926个位于827个富集位点的置信区间内。此外,14,470个基因被FST和Pi比值同时鉴定。在富集位点的置信区间中发现了605个具有已知功能的基因。GO分析表明这些基因富集于各种生物过程,包括开花时间、根发育、抗逆性、产量和株型构建。
为了验证机器学习模型是否能够促进植物育种计划中的基因组选择,作者使用DNNGP算法和54,177个非冗余富集位点为2,430个现代玉米自交系构建了八个植物结构和产量相关性状的基因组选择模型。这八个性状的皮尔逊相关系数范围从0.442到0.636。开花时间显示出最高的预测准确性,而穗长则准确性最低。植物结构性状的准确性显著高于产量相关性状。作者对产量相关性状进行了模拟,以确定在不同选择比例下所需的育种群体大小。结果表明,随着选择比例的增加,所需的个体倍数显著减少。这表明,与达到50%选择准确性相比,无论选择比例如何,都需要更大的育种群体来实现100%的选择准确性。因此,选择比例是基因组选择基础育种策略中确保产量相关性状遗传增益提高的关键因素之一。
关于使用富集位点作为特征的基因组选择方法:
本研究构建了一个大型且多样化的玉米种质面板,代表了先进的商业种质。从这个面板中鉴定出两个新亚群,它们可能补充广泛使用的玉米育种计划中的杂种优势群。利用深度神经网络预测模型破译并验证了大部分稀有和有利位点,这些位点可以在基因组设计育种中累积,以开发新的玉米品种。
一点小疑问:为什么越来越多文章不愿意公开原始测序/变异数据了?而且很多期刊放任这种行为不管,比如我们已经在PBJ上看到好几篇这样的文章,发邮件提醒编辑也无济于事。这样其实很不利于行业的发展,学术和产业结合是好事,但不能既要又要,而且如何能说明重复结果呢?