高光谱成像技术在无损测定水果和蔬菜质量特性方面得到了广泛应用和研究。但这些研究中用于估计或分类样本的模型,大多数评估范围往往局限于它们在训练和验证时所使用的数据集,而没有在更广泛的实际应用场景中进行测试和验证。此外,这些模型在特定的训练和验证数据集之外,无法有效地应用于不同类型的作物,或者无法与其他品牌的传感器配合使用。
近期,雅典农业大学Ioannis Malounas等在侧重于数据存储、共享及引用的学术期刊Data in Brief发表题为SpectroFood dataset: A comprehensive fruit and vegetable hyperspectral meta-dataset for dry matter estimation的数据论文,报道了一个用于干物质估算的综合性水果和蔬菜高光谱元数据集——SpectroFood数据集。该数据集的目标有两个:一是为人工智能模型提供一个基准测试工具,以便对这些模型进行评估和比较;二是作为一种数据资源,用于检验那些能够在更广泛的情况下适用的新型技术。使用4台高光谱相机(Specim IQ,FX10,FX17等型号,表1)对苹果、西兰花、韭菜和蘑菇中的每一种作物样本进行平均光谱测量(图1),总共测量了 1028 个样品,所有测量都采集了 430-900 nm的可见光-近红外光谱范围(表2);光谱测量完成后,立即用烘干法将样品烘干至恒重对样品进行干物质测量。所有拍摄到的高光谱图像都已经过相机制制造商的图像采集软件自动进行了辐射校正和反射率校正,为了获得提取的光谱,使用固定的阈值去除死像素和尖峰,通过手动分割或使用背景去除算法(如OTSU算法)去除背景等修正。将不同校准过的高光谱成像相机和农作物的测量数据汇集在一起编制成数据集,以方便人工智能模型的训练,帮助克服高光谱模型的泛化问题。表1 每种作物使用的相机以及样本与相机之间的距离
表2 每种作物的测量次数及其光谱细节
图1 基于平均值及其标准偏差的作物光谱特征
• 通过校准的高光谱成像系统,在严格控制的条件下对这四种作物(苹果、西兰花、韭菜和蘑菇)进行了测量,获取了它们的光谱信息。这些作物的干物质值存在较大的差异,无论是在同一作物的不同样本之间,还是在四种作物之间。• 当评估新鲜农产品的质量时,干物质含量是一个重要的指标,对于这四种作物来说都是如此。• 该数据集的一个重要用途是用来试验新的数据处理方法,这些方法旨在解决高光谱成像模型普遍存在的一个关键问题,就是模型能否在不同的传感器和作物上都能有效地应用,也就是具有良好的泛化能力。• 农业食品行业和研究人员可以使用这个数据集来构建模型,以预测苹果、西兰花、韭菜和蘑菇的干物质含量,或者将其用作验证其他作物的可靠指标。• 该数据集具有多种用途,科学家可以利用它来进行实验测试,评估他们的解决方案的性能,同时也可以基于该数据集创建新的农业食品元数据集。
尽管所有相机都是由具有科学可信的公司生产的,但由于使用的传感器不同,测量结果可能会有差异。在处理数据时,必须考虑传感器噪声和灵敏度造成的图像质量问题。此外,由于每种作物的样本数量相对较少,有意应用机器学习模型的各方应注意避免数据过度拟合(表3)。表3 每种作物的干物质含量(DMC)
Malounas I, Vierbergen W, Kutluk S, et al. SpectroFood dataset: A comprehensive fruit and vegetable hyperspectral meta-dataset for dry matter estimation[J]. Data in Brief, 2024, 52: 110040. 白露秋分夜,一夜凉一夜。