2024年8月10日,由密歇根州立大学Shin-Han Shiu及合作者发表在Nature Communications(IF=16.6)上的题为“Prediction of plant complex traits via integration of multi-omics data”的文章。
该研究内容如下:
1、预测全流程
图1:a. 使用了三种组学数据(基因组G、转录组T和甲基化组M)以及6个表型性状数据。b. 计算了这些性状和组学数据之间的相似性矩阵,包括性状相似性矩阵(pCor)以及基因组相似性矩阵(kinship)、转录组相似性矩阵(eCor)和甲基化相似性矩阵(mCor)。c. 使用机器学习模型(rrBLUP和RF)分别基于G、T和M数据预测这6个性状,并评估模型性能。d. 解释预测模型,分析对关键性状(如开花时间)有重要影响的基因特征,并与已知的基准基因进行比较。e. 进一步整合G、T和M数据,建立综合模型,并利用SHAP方法分析基因特征之间的交互作用。
2、单独使用各组学数据进行预测
该研究使用了6个拟南芥性状数据,包括开花时间、叶片数量、茎长等。研究发现,单独使用基因组(G)、转录组(T)或甲基化组(gbM)数据,与性状之间的相关性都较低,仅能解释很小一部分性状变异。尽管整体相关性较低,但研究者认为这些组学数据中可能包含有预测性信息,因此使用机器学习模型(如rrBLUP和RF)来利用单个组学数据的所有特征进行性状预测。结果显示,不同组学数据构建的预测模型性能相当,都能在大多数性状上取得较好的预测效果。但对于某些性状,组学数据并未提高预测性能。
图2:a. 组学数据之间以及与性状之间的相关性。b. 基于G、T和gbM数据分别构建的预测模型的性能,包括使用不同类型的甲基化数据(CG、CHG和CHH)的模型性能。
3、多组学数据对复杂形状预测的贡献
首先计算用各组学数据单独建模,提取相应的特征重要性,进行比较。发现不同类型的组学数据构建的模型中重要性分数之间的相关性很弱或没有相关性,并且模型之间重要基因几乎没有重叠。
图3:a. 基因组(G)和转录组(T)特征重要性之间的相关性较低。b,基因组(G)和基因体甲基化(gbM)特征重要性之间的相关性略高于其他。c. 转录组(T)和基因体甲基化(gbM)特征重要性之间的相关性较低。
4、开花时间预测模型的重要特征中鉴定到了基准开花时间基因
从 FLOR-ID下载了 426 个基准开花时间基因,发现共有169个基准花期基因被至少一种组学数据的一种重要性度量识别为重要特征,只有2个基因(FLC和MAF2)被所有3种组学数据的模型都识别为重要。
图4:共有169个基准花期基因被至少一种组学数据的一种重要性度量识别为重要特征。其中只有2个基因(FLC和MAF2)被所有3种组学数据的模型都识别为重要(橙色字体)。另有27个基因被2种组学数据的模型识别为重要(蓝色字体)。例如FCA基因被基因组(G)和基因体甲基化(gbM)模型识别为重要。其余140个基因仅被单一组学数据的模型识别为重要(黑色字体)。例如SOC1基因仅被转录组(T)模型识别为重要。
5、鉴定与花期调控有关的其他基因
对21个非基准基因的突变体进行实验验证,发现有6个基因的突变会显著影响花期。此外,对37个被预测为非重要的基因的突变体进行验证,也有43.2%的基因突变会影响花期。这表明特征重要性排名并不能完全准确预测基因对花期的影响。
图5:a. 使用所有特征、只使用426个基准花期基因相关特征、或只使用426个非基准基因相关特征构建的随机森林模型的预测性能。结果显示,仅使用非基准基因的模型性能显著优于仅使用基准基因的模型。这表明除了已知的基准花期基因外,还有其他重要的非基准基因参与调控花期。b-h. 对21个被预测为重要的非基准基因以及37个被预测为不重要的基因进行突变体实验验证。结果发现,6个非基准基因的突变会显著影响花期,而37个被预测为不重要的基因中也有43.2%的基因突变会影响花期。这表明重要性排名并不能完全准确预测基因对花期的影响。
6、基因对花期预测的依赖于品系
一些基因可能只在特定品系中对花期有重要贡献,而不是在所有品系中都重要。为了评估这一点,研究者分析了每个品系中重要特征的贡献。通过分析重要基因在不同品系中的SHAP值,发现它们对花期的贡献存在耦合和解耦的现象。在某些品系中,这三个基因的表达水平和SHAP值呈现正相关,与花期长短一致;而在其他品系中,它们的作用可能相互独立。这种基因对花期贡献的品系依赖性可能部分解释了在原始模型中,基准花期基因并未全部被识别为重要特征的原因。因为这些基准基因主要是在Col-0品系中发现的。总之,不同品系中基因对花期的贡献存在差异,这表明花期调控的遗传机制在不同品系中可能存在复杂的差异。
图6:a-b. 不同品系中,转录组特征对花期预测的贡献存在差异。这可以通过SHAP值的品系依赖性体现出来。c-e. 不同品系中,SOC1、FT和FLC基因的表达水平与花期长短呈现不同程度的相关性。有的品系中呈现负相关,有的品系中呈现正相关。SOC1和FT基因的SHAP值表现出耦合和解耦的现象。在某些品系中它们的SHAP值呈现正相关,而在其他品系中则相互独立。
7、通过多组学数据整合揭示遗传相互作用
整合基因组、转录组和甲基化等多种组学数据可以显著提高对复杂性状的预测准确性,相比单一组学数据建立的模型有更好的性能。不同类型的组学特征之间存在复杂的相互作用,这些相互作用对复杂性状的预测有重要贡献。在花期预测中,SOC1基因与FT、MIR172B、SPL5、FLC和PIF3等基因之间的相互作用最为重要,这与SOC1在花期中的功能相一致。
图7: a. 将不同类型的组学数据整合建立的花期预测模型,其预测准确度要高于单一组学数据建立的模型。b-c. 不同类型的特征之间存在复杂的相互作用,这些相互作用对花期预测有重要贡献。从SHAP交互值的分布可以看出,不同类型特征之间的交互作用数量和强度存在差异.d-f. 在这些交互作用中,SOC1基因与FT、MIR172B、SPL5、FLC和PIF3等基因之间的相互作用最为重要,这与SOC1作为花期整合因子的功能相一致。
文章链接:https://www.nature.com/articles/s41467-024-50701-6