José Crossa综述:机器学习算法将大数据转化为对育种精度的预测

文摘   2024-11-18 08:50   美国  

分享近期CIMMYT的大牛José Crossa在Trends in Plant Science上发表的综述文章:Machine learning algorithms translate big data into predictive breeding accuracy

有意思的是,文章几张图片一眼看出就是AI生成~~~


统计机器学习ML)可从大量基因组、表型和环境数据中提取模式。ML算法可自动识别相关特征,并使用交叉验证来确保模型的稳健性,提高新品系的预测可靠性。此外,通过 ML 分析基因型与环境(G×E)的相互作用,可以深入了解影响特定环境中表现的遗传因素。通过利用历史育种数据,ML 可简化策略并自动进行分析,从而揭示基因组模式。在这篇综述中,我们探讨了大数据(包括多性状基因组学、表型组学和环境协变量)对植物育种中基因组预测的变革性影响。我们讨论了大数据和 ML 如何通过提高预测准确性、加深对 G×E 相互作用的理解以及通过分析广泛而多样的数据集优化育种策略来彻底改变这一领域。


1、数据驱动策略和ML技术的影响

在植物育种中,评估和筛选抗病、耐旱、耐热、高产等理想性状极为重要。多环境试验可测试栽培品种性能和稳定性,准确和早期预测作用重大,能帮助育种人员做出明智决策、加快育种周期及提高效率。但多环境试验数据因结构模式、非结构噪音及基因型与环境关系(G×E)而复杂,模式反应系统可解释,噪音反应不可预测。基因组标记能在 DNA 层面精确选择理想性状,改变植物育种,如加快育种进程、提高准确性等。


自 Bernardo 等人和 Meuwissen 等人发表文章后,基因组预测(GP)改变动植物育种实践。用于基因组选育(GS)可提高选育精度、降低成本或缩短决策时间,在奶牛育种中已成为惯例且被迅速应用于多种作物。植物育种组织广泛采用 GS,“群体改良”与“产品开发”分开可理解为育种计划结构调整以利用基因工程技术。GP 需要训练数据,包括训练群体的基因型和表型信息,标准方法是基因组最佳线性无偏预测法(GBLUP),线性模型方法不断扩展,非线性方法如随机森林、支持向量机和人工神经网络模型也被用于 GP。预测性能受多种因素影响,统计机器学习模型试图捕捉基因组标记与个体表型关联,性状辅助基因组学、高通量表型和纳入环境协变量等可提高准确性。“表型组(HTP)预测”利用非目标性状预测相关特征。GP 基于遗传信息预测后代遗传潜力,表型预测关注当前表型状态。随着“大数据”出现,复杂统计模型如神经网络重要性增加,深度学习架构可用于分析基因组序列等,帮助识别功能变异,ML 模型在预测基因表达水平方面也有重要作用。本文回顾植物育种 GP 的 ML 最新发展,介绍关键方法、挑战和未来方向。



图1 现代植物育种的组成部分不仅包括从田间栽培品种试验中收集的表型数据,还包括基因组(分子标记)、表型(无人机、飞机、卫星拍摄的图像)和环境(温度、太阳辐射、降水、土壤湿度)数据。


图2 基因组学、表型组学和环境组学相互关联的现代植物育种研究总结。

注:机器学习(ML)统计模型和方法以及深度学习模型为这三个组成部分的有效相互关系提供了科学的解决方案,可以提高对未观察到的栽培品种的预测准确性。表型组学可能包括来自无人机、飞机和卫星的图像。卫星图像可以来自光学传感器或雷达传感器。雷达传感器使用无线电波生成图像,即雷达或合成孔径雷达 (SAR) 图像。雷达可以穿透云层,可在白天或晚上使用。


2、现代植物育种的基础

随着更便宜、更准确的基因分型和表型技术的出现,以及收集多组数据和大规模环境信息能力的提高,尖端技术的整合催生了 “现代植物育种三角 ”的概念。这代表了基因组学、表型组学和环境组学(图 2)在数据分析和预测育种方面的协同组合。基因组数据可以探索遗传变异,它与表型组数据(HTP)无缝结合,可以大规模捕捉复杂的性状信息。此外,包含各种气候和农艺因素的环境数据也能提供重要的背景信息。


2.1 基因组选择在作物育种中的应用

机器学习(ML)在作物育种中发挥关键作用,特别是在自花授粉或异花授粉作物的早期几代如杂交(F1)、分离群体(F2、F3、F4)及选出最佳栽培品种时。以国际玉米小麦改良中心(CIMMYT)的面包小麦育种计划为例(图3),该计划利用ML方法进行尖端多组学选择。在育种周期开始时,采用基因组方法选择最佳亲本和杂交种,通过贝叶斯决策理论结合GS指数和遗传多样性信息进行亲本选择,并使用模拟算法预测最佳杂交品种。ML技术在F2和F3代的表型筛选中确定有希望被选中的个体,并在F4代利用血统和高通量表型(HTP)进行家系选择,快速推进育种周期。基因分型在F5代进行,基因组选择用于预测未观察到的新品系的表现,GEBV用于剔除最差的品系。这种方法平衡了高级数据分析的成本和收益,缩短了育种周期。


图3展示了缩短育种周期的策略,包括:(i) 快速推进品系从F1到F2,并衍生出F3、F4或F5。(ii) 在TPE地点进行早期稀疏测试,包括基因组预测未观察到的栽培品种。(iii) 根据GEBVs再循环选出的亲本。小麦育种中的GS有望预测基因型值,考虑加性和非加性效应。尽管模拟实验显示快速循环GS在亲本选择中高效,但实际应用仍有限。


图3 自花授粉作物(小麦)快速循环基因组选择育种计划中潜在事件的顺序。

注:在F4代选择的优良品种可以转育进行杂交和测交或提前到F5代。在F5代,对品种进行基因分型,最好的表现者要么直接移到杂交中,要么提前到田间试验中。缩写:CoP,亲子关系系数;HTP,高通量表型分析。


2.2 连接基因组学和表型组学

现代植物育种中的互联意味着分析多环境试验植物育种成果的统计和定量遗传模型的现代化。随着基因组学、表型组学和环境信息可用性增加,遗传增益可通过连接海量基因组和表型组数据集实现,但需机器学习处理大量相关预测因子。多性状多环境数据利用不同环境中不同性状的相关性训练精确基因组选择模型,减少田间表型工作。将基因组和表型数据(如高通量表型 HTP)联系起来,能结合遗传信息与表型性状,确定与特定表型特征相关的遗传标记及背后生物学原理。利用基因组数据可预测复杂性状,早期整合图像数据可加强基因组亲本预测。基因组学与表型学是整合广义基因组标记和 HTP 数据,以提高预测准确性并全面理解基因型与表型关系。


高通量表型在植物育种中有重要作用。与传统人工方法相比,HTP 能快速准确测量各种植物性状,包括与谷物产量、抗病性等相关的性状,生成全面表型数据集,为了解性状遗传基础和确定理想性状提供信息,还能预测更复杂表型。HTP 可同时评估许多基因型,确定遗传标记与表型性状的关联,为育种策略提供信息,促进理想基因型选择。结合基因组学预测遗传值可加快遗传增益速度。HTP 为育种者提供有效评估工具,鉴定理想表型个体,结合基因组数据可根据基因图谱和表型表现选择基因型,提高选择强度和育种效率,缩短育种周期。


目前有结合函数回归和基因组信息的新颖统计机器学习方法,提高植物复杂性状预测准确性。MegaLMM 方法可划分表型相关性为遗传和环境部分,捕捉 HTP 数据和产量的共享遗传信息。航空 HTP 利用遥感技术和图像分析算法提取定量数据确定关键性状,加快育种进程。Montesinos-Lopez 等人利用多性状多环境模型评估协同过滤方法的 GP 值。广义泊松回归可整合多种信息提高预测性能。结合表型信息可提高基因组选择预测准确性,但结合基因组数据的 HTP 在遗传值预测准确性上不如单独基因组数据,且难解释,不过能更全面了解植物性状与环境相互作用。强调基因组标记在植物育种战略中的重要性,同时承认 HTP 的补充作用。通过优化整合基因组学、表型组学等信息来源,可改进 HTP 的收集处理和完善建模过程。


2.3 连接基因组学和环境组学

环境信号驱动基因调控、蛋白质翻译后修饰及激素代谢物产生,与温度、光照和水分共同影响植物田间反应和可塑性。为准确获得GP,须考虑这些因素,尤其在多种生长条件下研究基因型表现时。确定环境对表型变异的影响,可通过“反应规范”方法,收集、处理和使用环境数据的过程称为“环境类型学”,高通量使用环境数据则称为“环境组学”。自2014年提出将基因组学与环境分析数据结合以来,新方法不断涌现。从本质上讲,这些方法可分为三类,具体如下


第一组,GBLUP环境扩展由Jarquin等人提出,并由不同学者加以扩展。这些模型是传统GBLUP的扩展,可以容纳血统的多个遗传核、非加和效应,甚至未知的方差-协方差结构。Costa-Neto等人对该模型进行了扩展,以适应不同发育阶段或特征所导致的多重环境内核。多重环境相似性已被用于预测未来环境,从而帮助植物育种者利用GP预测近期的气候变化及其影响。这些方法的一个常见问题是环境协变量之间缺乏可加性。Costa-Neto等人建议用“环境类型”取代定量协变量,并通过所谓的T矩阵来确保相加性。一些研究人员引入了非线性核与遗传和环境联合效应的分层贝叶斯分布的使用,在热带玉米中,这种方法在模型准确性和分辨率方面优于传统的线性方法。该研究表明,将环境类型数据纳入线性模型后,使用非线性核的效果更佳。


第二组,作物综合建模包括专门从事作物模拟模型(又称作物生长模型,CGMs)等领域的研究人员,这些模型沟通了农艺学、灌溉和养分管理以及政策制定等不同领域。这种方法的优点之一是能够探索作为 “元表型 ”的特定栽培品种 CGM 参数,这些参数由表型和环境类型数据训练而成,然后在 GP 中用作响应变量(性状)。Technow 等人开发了所谓的 CGP-WGP(作物生长模型-全 GP)方法,Cooper 等人和 Messina 等人随后对该方法进行了扩展。


第三组,环境指数起源于 20 世纪 60 年代,通过线性回归把表型与环境梯度指数相连,作为表型可塑性的替代物。在现代基因组预测(GP)中,环境指数来自 CGM 结果,能提取如干旱或热胁迫等更具生态生理学意义的指数。Ly 等人用监督方法学习环境梯度等关联,Millet 等人用基因组版本因子回归预测玉米产量并学习 G×E 的环境驱动因素。第 2、3 组方法描述特定基因型对环境条件的敏感性以探索表型可塑性遗传结构,第 1 组方法让育种者重视环境多样性,图 4 展示结合环境组学等数据用于监督和非监督学习工具预测表型。


图4 包含机器学习 (ML) 方法的开源软件包,用于准确的基因组预测 (GP) 管道。

注:(A) 基因组数据整理和估算,用于调用 SNPs 和计算环境关系矩阵,为预测模型提供数据。(B) 基于现场元数据(地理坐标、管理和现场传感器)的环境组学数据整理,利用 (C) 全球范围的环境特征预测,作为多环境 GP 的预测因子或为 (D) 有监督或无监督学习设计训练集。缩写:E,环境;G,基因型;nE,环境数量;nG,基因型数量;SNP,单核苷酸多态性。


3、G×E 相互作用

在植物育种中,环境影响和基因型与环境的相互作用至关重要。育种者追求在任何条件下都能获得稳定高产的品种,但这种目标可能阻碍针对特定环境的选育收益。因此,确定目标环境群体或区域是关键。为了考虑G×E相互作用,标准线性混合效应模型扩展到多环境预测,使用标记和环境协变量定义协方差结构,以模拟相互作用的协方差。这些模型帮助育种者根据候选品种的特定强度进行选择。


根据 Crossa 等人的研究,我们从不同环境下的表型评估(yij)的基线模型出发,该模型由以下公式给出:

式中:μ 为总体均值;Ei(i= 1,...,I)为第 i个环境的随机效应;Lj 为第 j 个线的随机效应(j= 1,...,J);ELij 为第 i 个环境与第 j 个线之间的交互效应;Lj 为第 j 个线的随机效应(j= 1,...,J)和第 j 行,eij 是随机误差项。假设如下 Ei iid~ N (0,σ2E) , Lj iid~ N (0,σ2L), ELij iid~N (0,σ), 和εij  N (0,σ2e) , 其中 N(.,.) 表示正态分布,id 表示独立且同分布。


在这一设置中,环境通常被视为随机效应,即假定环境呈正态分布,但也可将其作为固定效应建模。到目前为止,基线模型没有使用基因组标记或环境协变量的信息。


在植物育种中,为了考虑基因型与环境(G×E)的相互作用,线性混合效应模型通过引入协方差结构来纳入基因组标记或血统关系矩阵。品系的加性遗传值用gj表示,而包含基因组值的向量为g ~ N(0, Gσ),其中σ是基因组方差分量,G是基因组关系矩阵。类似地,环境效应向量e ~ N(0, σ E)替代了传统的独立同分布假设,从而在协方差结构中包含了环境协变量。


在植物育种中,G×E交互协方差矩阵通过两个协方差结构的哈达玛或克罗内克乘积来描述品系和环境之间的关系。基因型效应是对环境协变量的反应,使用环境协变量时称为“反应规范”。Jarquín等人使用的哈达玛乘积与Kronecker乘积等价,但概念上不同,前者用于一组变量内部的相互作用,后者用于两组不同变量之间的相互作用。Kronecker乘积将维度从J×J和I×I增加到(J+I)×(J+I),而Hadamard乘积用于模拟基因型基因组内的交互作用。非线性高斯核通常优于线性核GBLUP对G×E的建模。纳入G×E可以提高年份或地点-年份组合中未观察到的栽培品种的预测准确性,进一步的非线性核通常会增加G×E对GP准确性的贡献。


4、多种性状和环境的基因组预测

在基因组预测(GP)中,提高环境中栽培品种的预测准确性具有挑战性,因为可用信息稀少且不同环境中性状之间的相关性通常较低。Montesinos等人研究了基于项目的协同过滤器(IBCF)和矩阵因式分解(MF),这两种技术在网络营销推荐产品方面非常流行。IBCF基于项目相似性进行工作,使用加权求和或线性回归生成预测列表。作者获得的经验证据表明,IBCF和MF在中等高相关性时表现最佳。贝叶斯多输出回归子堆叠模型(BMORS)由两个阶段组成:第一阶段对每个性状实施单变量基因组最佳线性无偏预测(GBLUP)模型,第二阶段通过脊回归模型将所有性状的预测结果作为协变量。研究表明,BMORS模型与单变量GBLUP模型和BMTME模型的预测结果相似。此外,Cuevas等人利用基因组学方法研究了四种基于基因组的预测模型:ST反应规范模型(M1)、考虑环境间协方差的ST模型(M2)、扩展的ST M2模型(M3)以及具有G×E的MT模型(M4)。预测许多性状的最佳模型方法是MT,因为它允许性状与环境之间的信息交换。


4.1 预测什么以及如何预测?

在预测新环境(年份或地点-年份组合)时,机器学习(ML)很难做出合理预测。多环境植物育种试验中,环境信息增强了G×E所包含的信息。主成分回归法将环境与G×E矩阵的主成分得分联系起来,这也是偏最小二乘法(PLS)的最初构想。考虑到栽培品种对环境变量的敏感性不同,有人提出用PLS回归法描述G×E。与单性状GBLUP相比,单一单位性状PLS在预测未来季节或新环境方面更有效。改进的BMTME模型捕捉品系、性状和环境间的相关性。Montesinos等人探讨了MTPLS的GP能力,发现其表现优于BMTME。MT模型计算要求更高,涉及大量复杂数据集,面临收敛和实施挑战。最近研究显示,MT模型优于ST模型。多性状PLS是建立高维生物数据模型的有效方法,处理多个响应并解决多重共线性问题,提高统计能力和预测准确性。Ortiz等人利用马铃薯性状的ST和MT模型研究PLS方法的预测性能,结果良好。PLS还用于发现环境特征和回收历史数据集中的G×E信息,提高预测尚未出现的年份(即没有表型和环境数据的年份)的能力。


4.2 为什么机器学习模型对于不同的数据集效果不一样?

在预测新环境(年份或地点-年份组合)时,机器学习(ML)很难做出合理预测。多环境植物育种试验中,环境信息增强了G×E所包含的信息。主成分回归法将环境与G×E矩阵的主成分得分联系起来,这也是偏最小二乘法(PLS)的最初构想。考虑到栽培品种对环境变量的敏感性不同,有人提出用PLS回归法描述G×E。与单性状GBLUP相比,单一单位性状PLS在预测未来季节或新环境方面更有效。改进的BMTME模型捕捉品系、性状和环境间的相关性。Montesinos等人探讨了MTPLS的GP能力,发现其表现优于BMTME。MT模型计算要求更高,涉及大量复杂数据集,面临收敛和实施挑战。最近研究显示,MT模型优于ST模型。多性状PLS是建立高维生物数据模型的有效方法,处理多个响应并解决多重共线性问题,提高统计能力和预测准确性。Ortiz等人利用马铃薯性状的ST和MT模型研究PLS方法的预测性能,结果良好。PLS还用于发现环境特征和回收历史数据集中的G×E信息,提高预测尚未出现的年份的能力。


结束语和未来展望

在农业和生物系统中,使用G×E作为Gand E之间的双线性关系进行基因组预测(GP)通常比线性关系更适合提高预测精度。与线性项相比,用于研究包括G×E在内的GP的乘法算子显示出更高的准确性。在育种中,主要任务是对未来年份和/或环境中未观察到的个体或两者的组合进行GP。在多环境试验(METs)中,G×E的主成分回归得分可提高环境信息的基因组预测能力。这种方法用于加强基因组筛选从未在特定环境中测试过的栽培品种,但存在一些解释问题,可通过使用偏最小二乘法(PLS)回归预测栽培品种在不同环境中的表现来加以改进。环境信息作为现代基因组辅助预测工具应用的核心瓶颈起着至关重要的作用,尤其是在处理多重环境时。将环境数据基本纳入建模过程,对准确预测不同生长条件下的栽培品种大有裨益。基因组学、环境组学和表型组学之间的协同作用对于推进现代植物育种至关重要。利用广泛的数据集(包括基因组和高通量表型(HTP)信息以及环境数据)是获得进一步遗传增益的关键。多性状多环境(MTME)数据与基因组、环境和HTP数据的无缝整合为精确GP提供了令人兴奋的途径,从而有效简化了田间表型工作,并最终提高了育种效率。


来 源

José Crossa. “Machine learning algorithms translate big data into predictive breeding accuracy.” Trends in Plant Science (2024).

植物表型资讯


编辑

小安


生物信息与育种
致力将生信、AI、大数据、云计算等技术应用于现代生物育种
 最新文章