基于高光谱图像结合机器学习的油菜籽成熟度分类

科学   2024-04-18 10:35   湖北  
大家好,本周跟大家分享一篇发表在《Plant Phenomics》(Q1,IF:6.5)的文章,题目是“Maturity Classification of Rapeseed Using Hyperspectral Image Combined with Machine Learning”,该论文的第一作者是华中农业大学作物表型团队的冯慧副教授,通讯作者是华中农业大学工学院的廖宜涛教授。


●  背景介绍  ●

油菜是全球主要的油料作物,近年来产量有所增加。由于其在食品和非食品领域的巨大价值,对油菜籽的需求一直在稳步增长。最佳的种子成熟度对于成功育种和最大限度地提高产量潜力至关重要。过早或延迟收获可能导致种子质量下降和产量下降。需要注意的是,植物油生产主要是在种子发育的成熟阶段合成的。然而,由于连续总状花序的异步开花和豆荚开裂,同时收获油菜籽并不能确保均匀的成熟度。综上所述,油菜籽成熟度分类对提高菜籽油品质、加快育种研究具有重要意义。高光谱成像(HSI)是一种基于多波段图像的技术,可以同时提供与植物和生物化学相关的空间和光谱信息。与破坏性取样方法相比,它提供了一种省时且具有成本效益的方法。其应用包括检测水稻中的蛋白质含量、预测苹果中的可溶性固体和预测油菜籽中的叶绿素含量。HSI还因其高通量和无损性而被用于评估作物成熟度。例如,以玉米为例,从高光谱图像中提取胚侧、胚乳侧和两侧的平均光谱,并建立了一个结合偏最小二乘判别分析(PLS-DA)算法和特征波长的稳健模型,以准确评估玉米种子成熟度。同样,利用花生样品不同成熟期的高光谱数据,利用支持向量机(SVM)建立基于特征波长的判别模型,从而预测花生簇的成熟度。通过选择特征波长,可以减少非线性的影响,从而提高数据处理效率,提高模型的准确性和鲁棒性。因此,在使用 HSI 预测作物成熟度时,通常的做法是通过选择特征波长来建立成熟度分类模型。在一项关于山茶果实的研究中,利用PLS-DA建立了分类模型,并通过主成分负载、二维相关光谱和无信息变量消除和逐次投影算法(SPA)选择特征波长。另一项研究利用稳定性竞争自适应重加权抽样(CARS)从高光谱苹果数据中提取特征波长,并应用偏最小二乘回归来预测可溶性固体含量和淀粉模式指数,从而实现苹果成熟度的空间分布分析。对于在早期和成熟阶段收集的草莓样品,使用顺序特征选择对高光谱数据进行处理以选择特征波长,并使用卷积神经网络对应于草莓样品特征带的空间特征图像进行分类,在测试集上实现了98.6%的准确率。HSI技术具有高通量功能,可最大限度地减少测量过程中的样品损坏,消除化学污染,并在建立模型后快速有效地测定样品成熟度。因此,可以看出,上述研究结合了HSI技术和常用的分类算法来预测作物的成熟度,为油菜籽成熟度的分类提供了一种更有效的方法。

Fig.1 The overall process of rapeseed maturity classification. (A) Rapeseed at 3 different maturity levels. (B) HSI acquisition system. (C) Calibration and preprocess. (D) Spectral data preprocess. (E) Feature wavelengths selection. (F) Classification model.

Fig.2 Spectral data processing procedures.





● 结果与讨论  ●

频谱特性分析

平均光谱曲线如图3所示,显示了3个成熟度水平的油菜籽在420-530nm之间光谱曲线的相似性。在530-720nm范围内,绿色和黄色成熟阶段的反射率表现出相似性,完全成熟阶段与其他2个阶段之间略有不同。在720-982nm范围内,完全成熟阶段与其他2个阶段之间的差距逐渐增加。图4A显示了不同成熟度的油菜籽的原始反射率曲线。由于在400 -420nm和982-1000nm之间的光谱中观察到大量噪声,因此实验选择在420-982nm之间的波长范围内。

Fig.3 Mean and standard deviation of rapeseed spectral reflectance.

光谱数据预处理结果

不同方法处理的光谱曲线存在显著差异(图4)。将原始光谱应用于SG处理,减少了光谱曲线的波动,使外观更平滑(图4B)。经过SNV处理后,光谱变化增加,而曲线表现出相对一致的趋势(图4C)。导数处理导致油菜在不同成熟度水平上的谱曲线变化不一致,谱后半部分的波动相对较大(图4D和E)。对光谱应用去趋势处理,可以发现不同成熟度水平的油菜之间的光谱趋势不同(图4F和G)。SG+衍生物预处理在光谱上的应用显示,在800-1000nm波长区域内的波动减少。SNV+去趋势预处理的应用放大了曲线的趋势,同时减少了光谱差异的面积(图4I)。

Fig.4 Spectral curves of different preprocessing methods. (A) Raw. (B) SG. (C) SNV. (D) D1st. (E) D2nd. (F) Detrend. (G) SG + D1st. (H) SG + D2nd. (I) SNV + detrend.

基于全波长的建模分析

建模结果,包括整个波长的准确度和精密度(表1),揭示了使用不同预处理光谱数据作为输入时的巨大差异。在5种分类算法中,与使用原始光谱数据相比,使用带有D1st、SG+D1st 和 SG+D2nd 的预处理光谱数据可产生更好的建模结果。除RF模型外,D2nd在所有模型中都优于原始光谱模型,SNV + detrend在除KNN模型外的所有模型中都优于原始光谱模型。精度结果表明,D1st、D2nd、SG + D1st、SG + D2nd和SNV + detrend有助于提高油菜籽光谱数据的信噪比。


在5种建模方法中,ELM和SVM的建模性能最高,总体预测准确率超过92%。SG + D1st 对 ELM 的建模结果最高,预测准确率为 97.33%。D2nd对SVM的建模效果最好,预测准确率为97.87%。在全波长建模中,与其他模型相比,ELM和SVM模型在区分绿色成熟期和黄色成熟期方面表现出更好的能力。

特征波长选择结果

结果表明,应用D1st、D2nd、SG + D1st、SG + D2nd和SNV + detrend提高了油菜籽成熟度模型的准确性(表1)。因此,从原始光谱数据中提取特征波长,并使用这5 种方法对数据进行预处理。

以SPA为例,利用SPA算法得到了不同预处理算法的RMSE曲线(图5)。SPA算法对原始数据(图5A)和D1(图5B)、D2(图5C)、SG+D1(图5D)、SG+D2(图5E)和SNV +下降趋势(图5F)处理的数据的特征波长数分别为41、42、44、44、51和44。从原始光谱数据中选择的特征波长主要集中在450~550nm波段,散射分布在其他波段(图6A)。D1选择的特征波长主要分布在450~550nm和850~1000nm范围内,在其他波段有散射分布,但主要集中在这些波段波长的峰值(图6B)。使用D2没有选择600~800nm范围内的波长,而其他波长呈散射分布,主要位于不同波长波段的转折点(图6C)。与D1方法相比,SG+D1方法在600-900nm范围内选择了更多的特征波长,主要集中在波长的局部峰值和转折点。

Fig.5 RMSE curve obtained using the SPA algorithm on the source data and preprocessed data. (A) Raw. (B) D1st. (C) D2nd. (D) SG + D1st. (E) SG + D2nd. (F) SNV + detrend.

Fig.6 The distribution of feature wavelengths selected from the raw data and preprocessed data using the SPA algorithm. (A) Raw. (B) D1st. (C) D2nd. (D) SG + D1st. (E) SG + D2nd. (F) SNV + detrend.

表2给出了使用各种预处理方法将5种特征波长选择算法应用于光谱数据的结果。这包括获得的波长数量以及特征波长与原始光谱波段的相应比率(表3)

基于特征波长的建模分析
在上述分类结果的基础上,ELM和SVM模型表现出最高的分类精度,因此选择它们来建立使用特征波长的预测模型。根据表4和表5在波长选择算法方面,总体精度从高到低依次为IVISSA-SPA、CARS、IVISSA、CARS-SPA和SPA。与其他3种特征波长选择方法相比,使用CARS和IVISSA-SPA算法提取的特征波长表现出优异的预测精度。D2nd-IVISSA-SPA-SVM 在所有模型中实现了最高的准确率。


● 总结  ●

本研究初步验证了利用全波长范围对油菜籽成熟度进行分类的可行性。随后,应用一系列特征选择算法从全波长中提取特征波长,目的是在保持分类精度的同时减少数据冗余。通过分析每种特征波长选择算法提取的特征波长分布,在5种特征波长提取算法中,CARS和IVISSA-SPA提取的波长在建模中效果最强。D2nd处理的光谱可以更好地强调与成熟度相关信息(如含水量)相关的光谱差异。IVISSA在选择特征波长方面表现出良好的性能,但它倾向于选择相对大量的特征波长。使用SPA可以减少所选特征波长的冗余和共线性。它们的组合可以更准确地覆盖所选波长,特别是捕获与油菜籽成熟度相关的关键信息。油菜籽成熟度的预测可能涉及复杂的非线性关系。D2nd-IVISSA-SPA预处理和特征选择的结合可以使输入数据更符合SVM模型的分类特征。

该研究证实了HSI技术在无损检测油菜籽成熟度方面的潜力。获得了油菜籽的高光谱图像,并提取了感兴趣区域的反射率值。采用SG、D1st、D2nd、SNV、detrend、SG + D1st、SG + D2nd和SNV + detrend来减少成像过程中产生的噪声的影响。采用SPA、CARS、IVISSA及其组合算法进行特征波长提取,利用ELM、KNN、RF、PLS-DA和SVM建立判别模型。
对各种预处理算法、特征波长提取算法和分类算法进行了比较,以评估其性能。结果表明,该模型结合了预处理、特征波长提取和机器学习算法对油菜籽粒成熟度的预测。各模型中,D2nd-IVISSA-SPA-SVM 模型的建模效果最为良好。重要的是,基于无损高效HSI的成熟度分类模型成为未来油菜籽成熟度分类的有前途的工具。这些发现为该领域创新方法的进步提供了宝贵的见解和灵感。


编辑:郭梦帅

责任编辑:魏芳

文章引用:https://doi.org/10.34133/plantphenomics.0139

文章信息: Hui Feng, Yongqi Chen, Jingyan Song, Bingjie Lu, Caixia Shu, Jiajun Qiao, Yitao Liao, Wanneng Yang. Maturity Classification of Rapeseed Using Hyperspectral Image Combined with Machine Learning. [J]Plant Phenomics. 2024;6:0139.

● 关于我们


中国农业科学院油料作物研究所油料品质化学与营养创新团队脂质分析实验室致力于突破脂质组分析所面临的生物基质复杂、脂质及其代谢产物种类繁多且结构复杂、定性和定量分析困难等共性关键技术瓶颈,建立高效,高通量的脂质组分析平台,并将该平台广泛应用于:(1)不同生物种质资源中脂质组成;(2)应用于食品安全与质量控制;(3)脂质的生物功能与营养学评价;(4)开发新的功能脂质。


脂质剖析平台:



扫码关注更多精彩

油料脂质分析实验室
中国农业科学院油料作物研究所脂质剖析与鉴定课题组致力于突破脂质组分析所面临的生物基质复杂、脂质及其代谢产物种类繁多且结构复杂、定性和定量分析困难等共性关键技术瓶颈,建立高效,高通量的脂质组分析平台。
 最新文章