Plant Phenomics|基于成像高光谱技术和GWAS分析的水稻籽粒蛋白质含量表型研究

文摘   2024-10-14 07:31   陕西  

Plant Phenomics|基于成像高光谱技术和GWAS分析的水稻籽粒蛋白质含量表型研究


高效、准确地获取稻米籽粒蛋白质含量(GPC)并识别与其相关的基因,对于了解其遗传基础选择优质水稻品种具有十分重要的意义,高光谱技术的飞速发展为弥合表型组学和基因组学之间的差距提供了一种新的分析技术。

2024年7月,由南京农业大学国家信息农业工程技术中心和江苏省农业科学院种质资源与生物技术研究所合作在“Plant Phenomics”上发表了题为“Grain Protein Content Phenotyping in Rice via Hyperspectral Imaging Technology and a Genome-Wide Association Study”的文章,研究中使用了来自515个粳稻品种的水稻籽粒的高光谱数据和深度卷积生成对抗网络(DCGANs)来生成模拟数据,应用连续小波变换(CWT)提取对GPC敏感的特征,并通过偏最小二乘回归(PLSR)构建GPC估计模型。最后,将GWAS应用于测量和生成的数据集以检测GPC位点。  

研究结果如下:    
1、基于DCGAN高光谱数据分析的水稻GPC估算
从预处理过程中得到的原始光谱和归一化平均吸光度光谱曲线(图1)可以看出,由于在SWIR区域对干物质的强吸收,可以识别出许多吸收特征,特别是在归一化后,峰值接近1200、1450、1800和1800和1950nm。

图1 原始的和归一化的平均吸光度光谱曲线

2、模拟数据与测量数据的相似性分析

该研究通过增加迭代次数之后由DCGAN生成的测量数据和模拟数据之间进行比较。结果显示,迭代0次,生成的数据是简单的随机干扰。在迭代500次之后生成的样本已经具有测量样本的整体原型,光谱曲线的峰值和谷值通常与被测样品的谷值一致。随着迭代数的进一步增加,模拟光谱曲线的整体形状保持不变,但曲线趋于更平滑。当迭代数增加到8000以上时,真实数据和模拟数据之间的相似性开始降低。因此,为了生成1000个样本用于数据增强和模型构建,我们将迭代数设置为8000。   


图2 不同时期后测量样本和模拟样本的比较。

图3 增加迭代次数后生成的测量和模拟GPC数据的箱线图(A)和8000次迭代后测量和模拟的GPC的频率直方图(B)

3、回归模型选择
为了确定最合适的回归算法,研究比较了使用全组WFs和最优特征子集构建的4个不同GPC估计模型的准确性。结果表明,当使用敏感特征时(R2=0.51,RMSE=0.42%,RRMSE=7.32%),PLSR模型的验证准确性高于使用全WFs时。由于其余模型的验证精度较低,因此­使用PLSR构建了后续的回归模型。
4、特征提取和GPC估计
对于完整的WF数据集,PLSR模型­使用200个模拟样本实现了验证数据集的最高精度(R2=0.50,RRMSE=7.27%)。对于使用敏感特征的模型,200个模拟样本也产生了最高的准确性(­­R2=0.58,RRMSE=6.70%)。但是,随着模拟样本数量超过200个,模型的准确性迅速下降。­   
图4显示了原始数据和增强后的数据中最高5%相关带的分布,随后对G2C进行递归特征消除。在整个光谱范围内,标度2和标度3的WFs通常­与GPC的相关性比与吸­光度光谱的相关性更高。吸光度光谱与GPC之间的最高相关性仅为0.26,而WFs­的最大相关性为0.638。

         

 

图4 基于原始和测量数据(A)、数据增强后(B)和平均归一化光谱曲线(C)的GPC敏感特征分布。注:红色表示敏感特征的前5%。

5、实测和估算GPC的GWAS
本研究使用原始GPC值、由敏感特征反演的估计GPC值和由模拟数据反演的估计GPC值进行GWAS分析。图5是估计值与测量值的散点图,与估测值1相比,估测值2更集中在1:1线周围,更好地估计了离群点。R2、RMSE和RRMSE的估计值分别为0.58%、0.38%和6.70%。    
从图6可以看出三者都定位到同一位点(SNP12.5076465),并且估测值2与实测GPC和估测值1均有两个lead SNPs重合,分别为SNP12.5076465和SNP7.10830236以及SNP12.5076465和SNP5.10266233。同时发现三个特征中仅有估测值2定位到的SNP4.17571584的±100kb范围内可检测到籽粒储藏蛋白相关基因OsmtSSB1L。
通过对比估测值和实测值检测到的位点的异同,可以得出结论,基于DCGAN的GPC预测值具备良好的代替实测值进行遗传解析的能力。这项工作证明了生成模型可以作为实现大量水稻品种GPC高精度估测的重要研究方法,为基于高光谱技术的水稻表型性状高效遗传研究提供了一种潜在新方法。

图5 基于WFs的GPC测量值和估计值之间的关系

图6 测量的GPC估测值1和估测值2的曼哈顿(A、C和E)和QQ图(B、D和F)

         

 

   


往期文章推荐

CHAT-GPT(无需翻墙,无需购买)全程0元购!!!

             

MATLAB | 十大经典算法以及代码实现

Python 数据可视化——基于 Matplotlib 模块

作物功能表型研究
记录分享作物功能表型领域研究动态~
 最新文章