● 背景介绍 ●
Fig.1 The overall process of rapeseed maturity classification. (A) Rapeseed at 3 different maturity levels. (B) HSI acquisition system. (C) Calibration and preprocess. (D) Spectral data preprocess. (E) Feature wavelengths selection. (F) Classification model.
Fig.2 Spectral data processing procedures.
频谱特性分析
平均光谱曲线如图3所示,显示了3个成熟度水平的油菜籽在420-530nm之间光谱曲线的相似性。在530-720nm范围内,绿色和黄色成熟阶段的反射率表现出相似性,完全成熟阶段与其他2个阶段之间略有不同。在720-982nm范围内,完全成熟阶段与其他2个阶段之间的差距逐渐增加。图4A显示了不同成熟度的油菜籽的原始反射率曲线。由于在400 -420nm和982-1000nm之间的光谱中观察到大量噪声,因此实验选择在420-982nm之间的波长范围内。
Fig.3 Mean and standard deviation of rapeseed spectral reflectance.
光谱数据预处理结果
不同方法处理的光谱曲线存在显著差异(图4)。将原始光谱应用于SG处理,减少了光谱曲线的波动,使外观更平滑(图4B)。经过SNV处理后,光谱变化增加,而曲线表现出相对一致的趋势(图4C)。导数处理导致油菜在不同成熟度水平上的谱曲线变化不一致,谱后半部分的波动相对较大(图4D和E)。对光谱应用去趋势处理,可以发现不同成熟度水平的油菜之间的光谱趋势不同(图4F和G)。SG+衍生物预处理在光谱上的应用显示,在800-1000nm波长区域内的波动减少。SNV+去趋势预处理的应用放大了曲线的趋势,同时减少了光谱差异的面积(图4I)。
Fig.4 Spectral curves of different preprocessing methods. (A) Raw. (B) SG. (C) SNV. (D) D1st. (E) D2nd. (F) Detrend. (G) SG + D1st. (H) SG + D2nd. (I) SNV + detrend.
基于全波长的建模分析
在5种建模方法中,ELM和SVM的建模性能最高,总体预测准确率超过92%。SG + D1st 对 ELM 的建模结果最高,预测准确率为 97.33%。D2nd对SVM的建模效果最好,预测准确率为97.87%。在全波长建模中,与其他模型相比,ELM和SVM模型在区分绿色成熟期和黄色成熟期方面表现出更好的能力。
结果表明,应用D1st、D2nd、SG + D1st、SG + D2nd和SNV + detrend提高了油菜籽成熟度模型的准确性(表1)。因此,从原始光谱数据中提取特征波长,并使用这5 种方法对数据进行预处理。
以SPA为例,利用SPA算法得到了不同预处理算法的RMSE曲线(图5)。SPA算法对原始数据(图5A)和D1(图5B)、D2(图5C)、SG+D1(图5D)、SG+D2(图5E)和SNV +下降趋势(图5F)处理的数据的特征波长数分别为41、42、44、44、51和44。从原始光谱数据中选择的特征波长主要集中在450~550nm波段,散射分布在其他波段(图6A)。D1选择的特征波长主要分布在450~550nm和850~1000nm范围内,在其他波段有散射分布,但主要集中在这些波段波长的峰值(图6B)。使用D2没有选择600~800nm范围内的波长,而其他波长呈散射分布,主要位于不同波长波段的转折点(图6C)。与D1方法相比,SG+D1方法在600-900nm范围内选择了更多的特征波长,主要集中在波长的局部峰值和转折点。
Fig.5 RMSE curve obtained using the SPA algorithm on the source data and preprocessed data. (A) Raw. (B) D1st. (C) D2nd. (D) SG + D1st. (E) SG + D2nd. (F) SNV + detrend.
Fig.6 The distribution of feature wavelengths selected from the raw data and preprocessed data using the SPA algorithm. (A) Raw. (B) D1st. (C) D2nd. (D) SG + D1st. (E) SG + D2nd. (F) SNV + detrend.
表2给出了使用各种预处理方法将5种特征波长选择算法应用于光谱数据的结果。这包括获得的波长数量以及特征波长与原始光谱波段的相应比率(表3)
● 总结 ●
本研究初步验证了利用全波长范围对油菜籽成熟度进行分类的可行性。随后,应用一系列特征选择算法从全波长中提取特征波长,目的是在保持分类精度的同时减少数据冗余。通过分析每种特征波长选择算法提取的特征波长分布,在5种特征波长提取算法中,CARS和IVISSA-SPA提取的波长在建模中效果最强。D2nd处理的光谱可以更好地强调与成熟度相关信息(如含水量)相关的光谱差异。IVISSA在选择特征波长方面表现出良好的性能,但它倾向于选择相对大量的特征波长。使用SPA可以减少所选特征波长的冗余和共线性。它们的组合可以更准确地覆盖所选波长,特别是捕获与油菜籽成熟度相关的关键信息。油菜籽成熟度的预测可能涉及复杂的非线性关系。D2nd-IVISSA-SPA预处理和特征选择的结合可以使输入数据更符合SVM模型的分类特征。
编辑:郭梦帅
责任编辑:魏芳
文章引用:https://doi.org/10.34133/plantphenomics.0139
文章信息: Hui Feng, Yongqi Chen, Jingyan Song, Bingjie Lu, Caixia Shu, Jiajun Qiao, Yitao Liao, Wanneng Yang. Maturity Classification of Rapeseed Using Hyperspectral Image Combined with Machine Learning. [J]Plant Phenomics. 2024;6:0139.
● 关于我们
中国农业科学院油料作物研究所油料品质化学与营养创新团队脂质分析实验室致力于突破脂质组分析所面临的生物基质复杂、脂质及其代谢产物种类繁多且结构复杂、定性和定量分析困难等共性关键技术瓶颈,建立高效,高通量的脂质组分析平台,并将该平台广泛应用于:(1)不同生物种质资源中脂质组成;(2)应用于食品安全与质量控制;(3)脂质的生物功能与营养学评价;(4)开发新的功能脂质。