随着,计算机视觉(CV)和机器学习(ML)技术在食品质量的安全评估与管理方面发挥的作用日益提高,ML和CV技术的发展逐渐成为该领域的主导趋势。因此,中国农业科学院油料作物研究所、油料脂质化学与营养湖北省重点实验室、油料油脂加工技术国家地方联合工程实验室的黄晓琛,中国农业大学信息与电气工程学院、农业农村部农业信息获取技术重点实验室的张凯利、魏芳*等对CV和ML智能技术在食品质量评估领域的原理、优势、局限性、特点进行总结,并探讨它们在食品质量评价中的应用情况,重点讨论不同种类食品质量评估的应用场景,介绍ML和CV技术在不同场景中的算法与方法,探讨它们在食品质量评价中的应用情况。
1 ML系统
ANN的特点主要体现在高效和自学习能力上,它能够对复杂的数据信息进行分类、聚类,并与学习目标结合。图2展示了ANN的一般拓扑结构。作为一种数据处理模型,ANN的构建方式类似于生物神经系统处理大脑信息模式,其主要由大量高度相关的处理单元即神经元组成,通过协同工作解决复杂问题。目前ANN的应用与开发依然是研究的核心领域。近年来,ANN已应用于CV食品质量评价中的分类、预测和分级。
在一些应用中,Abbaspour-Gilandeh等提出了一种非破坏性方法,基于混合ANN-粒子群优化(PSO)算法和混合ANN-人工蜂群(ABC)算法用于评估苹果的组成特性,利用400~1000 nm范围内的光谱数据估计红鲜苹果的一些机械和物理化学特性,包括衡量果汁中糖度和酸度之间平衡的指标(Brix minus acid,BrimA)、硬度、酸度以及淀粉含量,最高决定系数R2分别为:BrimA为0.898、硬度为0.8、酸度为0.825、淀粉含量为0.973。选择最有效的波长预测其性质,其中5 个可测定BrimA、9 个可测定硬度、7 个可测定酸度、5 个可测定淀粉含量。在这种情况下,ANN-ABC算法在1000 次重复中的最佳R2分别为0.828、0.738、0.900和0.923。通过评估结果发现,通过选择合适的光谱范围可以提高基于光谱数据方法估计精度。
目前,SVM是备受ML领域关注的二分类模型之一。SVM模型具有很强的泛化能力和较高的准确性,它是将实例表示为空间中的点,通过映射使得单独类别的实例被尽可能宽且明显的间隔分开,然后将新的实例映射到同一空间,并基于它们落在间隔的哪一侧预测所属类别。从本质上讲,SVM模型通过推导一个使类边界之间的边界最大化的最优分离超平面解决定性分类或定量回归问题。图3展示了SVM的分类原理图。当然随着时代的发展,SVM也逐渐应用在了食品当中,比如在水果当中,利用SVM判断香蕉果实的成熟度,利用SVM对苹果进行准确的品质分级或者对柑橘的品质进行分类;在肉制品中,可以对猪肉的新鲜程度进行判别,还可以鉴别牛肉掺假的问题,并且可以对羊肉的含水量进行预测;在农产品中,可以通过SVM对小麦的新鲜度进行预测,也可以对番茄的番茄红素含量进行预测以及对番茄汁的糖酸度进行预测等。除上述应用以外,SVM在食品质量中的其他方面也有所涉及。
Sun Li等提出了一种基于CNN苹果质量与外观分类的改进方法,考虑到苹果外观数据量不足,因此他们的方法是基于少量样本进行改进的。对收集来的完整的苹果数据,作者将这些数据进行分割,分割完成后,利用深度卷积生成对抗网络和非生成数据增强进行数据扩展,最后将预处理后的数据输入到该研究提出的Imp-ResNet50模型中进行分类。模型完成后作者用360 张苹果图像进行对比实验,对该方法在训练图像质量、运行时间和分类精度等方面的性能进行了验证。结果表明,该方法不仅可以得到高质量的训练样本,同时还有效地缩短了方法的运行时间。当然该方法相较于以往的分类方法,其分类的准确率更高,高达96.5%。在后续的研究中,通过对不同品种苹果的适应,该方法或许能够更好地应用于苹果分类市场中。
除了外观评估外,CNN对食品新鲜程度的评估也具有一定能力。以评估香肠新鲜度为例,Liu Ya等利用CNN分类模型Resnet50结合智能手机对猪肉香肠在贮存过程中的腐败程度进行了评估。他们首先利用脂质氧化产物(醛类)和生物胺的积累原理成功制备了μpad图片,并使用智能手机在4 个不同的拍摄角度拍摄原始图像,总共收集了4096 张μpad图片,对基于CNN的分类模型Resnet50进行了训练和测试,准确率、F1得分和召回率分别为97.10%、97.14%和99.17%。此外,他们还开发了一个具有用户友好界面的定制Android应用程序,用于香肠保质期预测,并获得了准确的结果,验证了该方法的可行性。与传统方法相比,该新方法提供了一种经济、快速、便携的评估香肠新鲜度的检测方法。在操作过程中使用智能手机进行操作,因此无论是专业人员还是非专业人士都能够在短时间内掌握大概的操作流程,大大减少了培训时间,并减少了现场检测香肠新鲜度所需的时间和成本。
1.4 其他算法
除以上算法外,一大类网络以及其他类的算法,还有许多被应用于食品质量的检测与把控中。如视觉几何组(VGG)、朴素贝叶斯、YOLO(you only look once)等。
ML技术在检测食品掺假的问题上有很高的潜力,对于有特殊的饮食要求或有宗教信仰人士,小麦饼干中含有猪油会对他们产生影响,但部分商家为节约成本依然使用含有猪油的小麦饼干对外出售,冒充未含有猪油的小麦饼干进行掺假。Azizan等对小麦饼干中猪油掺假的问题进行了研究,他们首先利用索式提取法将小麦饼干中的油脂提取出来,并进行转换,接着利用主成分分析(PCA)和层次聚类分析(HCA)对猪油、小麦饼干和猪油掺假的小麦饼干的脂肪酸分布进行聚类。最后利用随机森林(RF)进行特征选择,其分类预测精度为1.0,确定了两种脂肪酸作为潜在的生物标志物。其中,C18:3n6因其与猪油添加量呈正比,因此作者提出将C18:3n6作为区分纯小麦饼干和猪油掺假饼干的潜在生物标志物。通过作者的研究,确定了该方法可以用于小麦烘培产品区分其中的猪油生物标志物。这对于有特殊要求的食品或者是有特殊要求的人群都极有意义,能够在一定程度上遏制食品掺假问题,增强对部分食品质量的控制能力。
直接食用未经热处理的即食食品可能存在食源性危害和风险,因此需要一种监测其安全性的方法。Ivorra等开发了一个使用短波红外范围内所有波长的KNN监督模型,以成功地将鲑鱼组织分割为脂肪和瘦肉组织。通过KNN模型分割后,使用区间偏最小二乘方法对7 个最相关的波长进行了还原,基于SVM监督模型预测鲑鱼存放至第0、10、20、40、60天时的样品情况,平均分类误差为12.7%。并且PLSR模型显示,脂肪与鲑鱼的保质期相关性更好。这些结果表明,该方法可以对真空包装冷冻烟熏鲑鱼鱼片保质期进行无损检测。
2 CV技术
CV是一种快速、经济、灵活的方法,类似于人类视觉,但能够同时对多个外观参数进行高精度、高强度的分析。CV技术包含了高光谱CV系统和多光谱CV系统。高光谱CV系统经常被用于捕获高光谱和空间分辨率的图像,用于基础研究。而多光谱CV系统的功能是捕获高光谱CV系统选择的有效波长的单色图像。因为成像系统的可负担性、可及性以及易用性,因此在食品的生产与质量控制上有很大的帮助,又因其非侵入性、非破坏性的特点,对于需要即采即检的水果、蔬菜等产品可以避免破坏样本并提高效率。并且CV技术可以通过图像数据提供关于样本的纹理、颜色等信息,利用这些表型特征可以对分析农产品等食品提供有效帮助。
图像分割的方法一直是机器视觉领域的一个重要问题,它的主要目的是将感兴趣的目标区域中的内容或背景从图像中分离出来,从而影响对目标识别等其余操作的准确性。在过去的很长一段时间里,CV领域涌现出许多图像分割方法。随着人工智能的出现,以DL为代表的ML方法在图像分割领域取得了很大的进展。Luo Tianye等对几种常用的基于ML的图像分割算法进行了理论和实验研究。现有的图像分割方法主要分为以下几类:基于阈值的分割方法、基于区域的分割方法、基于边缘的分割方法,以及基于具体理论的分割方法。在作者的算法对比实验中,结果表明,当训练集中的样本数量为150时,深度神经网络(DNN)算法、聚类分析算法和SVM算法的响应时间分别为13.72、16.88 s和17.29 s。在测试集中,当样本数量为50时,DNN算法的识别率为93.7%;聚类分析算法的识别率为87.9%;SVM算法的识别率为84.3%。这些结果说明,对于研究CV领域的图像分割十分必要。
除图像分割外,图像的识别也是CV领域重要的研究方向之一。在人工智能急速发展的今天,ML也逐渐应用于CV领域的图像识别部分。因此,Li Xiaohong等将深度卷积网络算法应用于图像识别中,研究ML在图像识别领域的优势。图像识别的难点在于难以从自然环境中找到边界形状、纹理、角度点和图像概念等特征,而图像本身极易受到自然环境和透视、维度变化、扭曲变形、干涉、明暗、背景掺杂和类内差异等影响。而作者引入的深度卷积网络结构能有效提高图像识别的准确率,并具有良好的可扩展性。与经典CNN相比,不仅提高了算法的效果,而且减少了训练参数,缩短了训练时间,并在各类识别任务中表现出较强的特征自学习和分类识别能力。当输入为二维图像时,其连续叠加的分层网络结构可以将图像原有的特征信息逐层传播,逐层抽象,从而达到一定程度的平移、旋转、尺度和变形不变性,对于图像识别领域有很大帮助。
3 ML-CV技术在食品质量评价中的应用
ML在农产品的分类与品质指标预测领域中应用广泛,在水果检测分类、谷物分类、蔬菜品种分类中都有很高的应用潜力,这些方法提高了分类效率。
冷害是导致桃子果实生理失调的原因之一,这会降低桃子果实的食用品质和加工品质。Sun Ye等采用高光谱反射成像技术结合化学计量学对桃子的冷害进行了评价。他们采用偏最小二乘判别分析、ANN和SVM建立了2(“非冷冻”和“冷冻”)、3 类(“非冷冻”“半冷冻”和“重度冷冻”)和4 类(“非冷冻”“轻度冷冻”“中度冷冻”和“重度冷冻”)分类的判别模型。结果表明,偏最小二乘判别分析、SVM和ANN分类模型对全波长的“冷冻”和“非冷冻”两类分类均取得了较好的分类效果,其中ANN模型的分类准确率最高,达到100%。而利用连续投影算法与ANN的耦合模型在4、3 类和2 类分类上的平均分类准确率分别为89.25%、94.17%和96.87%。这说明基于6 个最优波长的多光谱成像系统可以通过网络实现,缩短了高光谱图像的获取和数据处理时间。最后,利用PCA算法得到二维分布灰度图像,通过该图像将高光谱图像的每个像素转换为相应的灰度,利用伪彩色可视化冷害分布,进一步方便了解冷害程度。
在酿酒行业中,保证啤酒的高质量一直是一个关键的问题,而这可以通过控制酿造过程和原料的质量实现。但是目前采用的对麦芽目视检测不仅需要专业的知识,而且需要大量的时间以及样品的损耗成本。因此Kozłowski等研究了CNN的9 种不同配置在品种分类中的应用,比较了DL模型和迁移学习模型在学习和分类时间、计算需求和分类精度方面的差异。研究发现CNN的使用对单个核品种的大麦分类准确率超过93%。该结果表明,他们的方法可以实现对单个核品种的识别,并具有令人满意的准确率。并且与最先进的方法相比,他们对深度网络的应用使得分类精度提高了40%以上。作者的实验结果说明,利用CV方法与DNN相结合,可以成功地应用于麦芽行业的大麦品种分类中。这对酿酒行业在品种的选择与分类方面有很大的帮助。
Pace等提出了一种系统,能够无损地识别生菜贮存过程中的质量水平。该系统可以从校准的颜色图像中提取颜色参数,并对CV系统提取的几个颜色参数进行评价,以反映产品的质量水平。研究表明,氨含量对产品(无论是新鲜切的还是完整的)的销售具有很大影响,增加了在销售或收购过程中质量把控的难度。通过多元回归确定了一个函数,可以根据CV系统提供的颜色参数预测冰山生菜中氨的水平(衰老的指标)(R2=0.73),从而实现对化学参数的无损评估。这使得对生菜质量的客观评估变得更加方便。该CV系统为食品加工业提供了一种灵活、简便的无损工具,可以可靠、客观、定量地监测整株生菜和鲜切生菜的质量和保质期。
油菜籽中含有丰富的酚类化合物,这些组分不仅对油菜的生理过程具有重要影响,也在油菜籽制品的营养价值与健康效益中发挥着关键作用,因此对油菜籽中总酚含量的监测是十分必要的。黄晓琛等提出了一种结合图像分析和DL的油菜籽中总酚含量的快速预测方法。共收集了500 种油菜籽样本,在研究初始阶段,作者首先尝试利用油菜籽种皮颜色和总酚含量构建模型,验证该方法是否可行,但效果不理想。随后利用VGG19网络进行油菜籽籽粒特征的提取,并建立了回归模型用于预测油菜籽的总酚含量。该模型通过多个卷积层学习油菜籽图像的特征,并能够对不同样本的总酚含量进行准确预测。最后,将油菜籽样本按照3∶1的比例划分为训练集和测试集,训练集用于训练网络参数,测试集用于评估网络模型,利用均方损失函数(MSELoss)和决定系数R2评估网络预测效果。为了进一步提高模型的稳定性,作者采用了PyTorch的Transform模块对模型输入的图片数据进行了多种数据增强操作。这些数据增强操作包括随机旋转、剪切、水平和垂直翻转,以增加数据的多样性和泛化能力。通过对图像进行旋转和剪切,可以模拟不同角度和状态下的油菜籽图片,使模型能够更好地适应真实场景中的变化。此外,还对图像的亮度、对比度、饱和度和色调等参数进行了调整,以增加数据的变化范围和丰富性。结果发现,在测试集上MSELoss=0.0085、R2=0.9914,表明该预测模型具有一定的准确性和实用性。
Qian Chunyang等通过计算先进的生产方式和对不同因素的合理估值,可以准确地捕捉到甜瓜的如含糖量等特征以及预期产量。作者采集了与甜瓜相关的物候特征、形状特征、颜色特征等32 个特征变量。采用梯度提升决策树(GBDT)网络和网格搜索超参数搜索方法计算甜瓜果实各性状的重要程度,构建甜瓜产量、含糖量和果皮硬度3 个预期收获指标的预测模型,选择约简后的特征变量作为输入。与RF和支持向量回归(SVR)方法相比,使用GBDT模型在预测方面具有显著优势。此外,为了验证只使用约简特征变量作为评估工作输入的可行性,作者还比较了使用所有特征变量和只使用约简特征变量时模型的预测效果。结果表明,以约简特征为输入的GBDT预测模型,在预测甜瓜产量、含糖量和硬度方面,R2值均可达到90%以上,对于糖含量的预测更是高达97.66%。这说明该方法可以有效地帮助种植者在田间对甜瓜进行早期无损检测和生长预测。通过该方法可以对产品的质量进行把控,避免了因设备或者跨地区等问题出现产品质量检测不及时的情况。
粮食产品的营养价值是决定粮食产品质量的重要因素之一。因此Cataltas等提出了一种将一维卷积自编码器与近红外光谱结合的分析玉米籽粒中蛋白质、水分、油脂和淀粉含量的方法。作者针对玉米数据集中的3 种不同光谱,建立了一维卷积自编码器模型,每个光谱得到32 个潜在变量。作者利用得到的卷积自编码器(CAE)模型的潜变量对每个目标建立多元线性回归模型,并使用R2、均方根误差和均方根百分比误差(RMSPE)显示所提出模型的性能。所建立的一维卷积自编码器模型具有较高的重建率,校正集和预测集的平均RMSPE值分别为1.90%和2.27%,并且R2达到90%以上。同时作者通过该方法将700 个特征的光谱数据转换成只有32 个特征的数据,并将这些特征作为输入的多元线性回归模型与PLSR和主成分回归结合各种预处理方法进行比较,结果表明,该方法在MP5和MP6数据集上具有优异的性能。
除了农产品,ML技术在海产品质量控制领域也发挥了重要作用。特别是在海产品的掺假分类方面,ML技术显著提高了它们的分类效率。
对于海产品如鱿鱼等的种类区分至关重要,然而传统的方法往往耗时费力。因此Hu Jun等开发并评估了一种快速、低成本的工业生产鱿鱼分类系统。该系统包括了一个易于使用的手持图像采集系统以及结合自动化、省力和高效的DL模型,通过该系统可以识别北太平洋的3 种鱿鱼。作者采用准确率、交叉度和平均运行时间3 个指标对分类进行评价,测试样本的平均结果分别为85.7%、80.1%和0.144 s。与其他的方法相比,作者所提出的网络提供了更好的鱿鱼分类。该方法是一种鲁棒性强、无创、高通量的鱿鱼分类系统。此外,作者还探讨了基于鱿鱼红色区域比例的新鲜度评价方法,采用RGB图像和DL技术。通过与人工和自动识别结果的对比,验证了所提方法的性能,结果一致性较高(准确率大于0.8),证实了所提模型的可行性。
对于海产品质量检测一直是人们关注的焦点,而利用ML和CV技术对海产品进行预测可以减少部分存活时间短的海产品在检测过程中死亡情况的发生,加快检测进程并减少商户损失。
海产品中磷酸盐或总磷的测定对于食品质量和食品安全都具有重要意义。为此Tian Ye等通过建立相关回归模型解决这一问题。他们首先采用激光诱导击穿光谱(LIBS)快速测定了鳕鱼、扇贝和虾3 种海产品中的磷含量。将鳕鱼、扇贝、虾3 种海产品制备成不同磷浓度的微丸进行定量分析。随后建立单变量和多变量回归模型,并特别注意修正矩阵效应,以提高LIBS的分析性能。结果表明,对于单变量分析,谱归一化可以大大提高校正曲线的R2。然而,3 种海产品之间存在明显的矩阵效应,导致合并校正样本后的单变量曲线R2值下降至0.8789。因此作者采用基于PLS和SVM的多变量分析方法减少矩阵效应,以此提高分析性能。实验结果表明,线性PLS法的R2值提高到0.9736,校正均方根误差(RMSEC)、预测均方根误差(RMSEP)和平均相对误差(ARE)分别降低到2.42 g/kg、2.47 g/kg和6.26%。而采用非线性SVM方法,可将R2进一步提高到0.9904,RMSEC、RMSEP和ARE分别进一步降低到1.68 g/kg、1.42 g/kg和3.70%。SVM预测的平均相对标准偏差为5.18%,远低于PLS的9.40%,与单变量模型的平均相对标准偏差(4.11%)相当。作者的实验结果表明,通过LIBS与ML相结合,能够对海产品的磷进行准确测定,这可以大大加快对海产品现场磷酸盐检测的速度,提高效率。
对于肉制品的质量把控,ML技术同样是该领域重点的研究方向之一,肉制品的分类在肉制品掺假问题上极为重要,通过ML技术可以进一步维护消费者利益,减少掺假的可能。
如何分辨掺假的肉类是现在备受关注的问题之一,Zheng Minchong等提出了一种基于热成像与CNN相结合的新型、可靠的羊肉掺假分类量化方法。首先,采集了35 份纯羊肉样品、35 份纯猪肉样品和175 份掺假羊肉样品(羊肉与猪肉混合的程度不同:10%、20%、30%、40%、50%)在连续加热过程中的视频。其次,提取快速升温阶段的热图像,获取感兴趣区域的热图像信息,构建定性和定量的CNN模型;在建立模型时,通过参数比较选择模型的学习率和最小批量。最后,确定了使用Softmax分类器对纯羊肉样品、掺假羊肉样品和纯猪样品进行分类的最优定性分类模型,并确定了使用回归函数预测掺假羊肉中混合的猪肉沫比例的最优定量预测模型。实验结果发现定性的CNN模型的验证集和测试集准确率分别为99.97%和99.99%;定量CNN模型验证集的决定系数(R2)、均方根误差和相对预测偏差分别为0.9933、0.0251、12.2487,而测试集为0.9933、0.0252、12.2387。这说明作者提出的热成像结合CNN在不同样本的定性分类和掺假比例的定量预测方面取得了不错的效果。该方法经济、方便,并且与早期的热成像数据处理方法相比,具有准确率高、检测速度快的优点,因此在掺假食品的检测和监管中具有很大的应用潜力。
肉制品的新鲜度是影响其品质好坏的重要指标之一,但随着贮藏时间的变化,肉的新鲜度也会产生变化。通过ML方法可以快速、高效地对肉制品的新鲜度进行预测。
牛肉的新鲜度评估对于确保牛肉品质至关重要。Luo Xiuzhi等利用气流三维机器视觉技术和ML模型研究用牛肉黏弹性评估其新鲜度。作者利用三维摄像机连续获取气流作用下的变形图像,并采用感兴趣区域分割和滤波去噪对得到的图像进行预处理。然后分别采用定向边界盒算法和体积算法获得处理后图像的深度和体积。他们建立了回归模型,并进行了比较,确定了最佳的预测模型和方法评估牛肉的新鲜度指标。研究结果显示,利用四元模型获得的恢复阶段黏弹性特性参数对牛肉的总挥发性盐基氮(TVB-N)含量(新鲜度指数)的预测效果优于pH值。其中,采用反向传播神经网络(BPNN)作为最佳预测模型评估牛肉的pH值时,校正集和预测集的相关系数分别为rc=0.7636和rp=0.7669,相对百分比差异为1.5582。而SVR则对牛肉的TVB-N含量的预测性能明显优于其他模型。利用选取的特征建立SVR模型,其校正集相关系数为0.9036,测试集相关系数为0.8388,相对标准偏差为1.8369。表1总结了ML在各种食品领域中的应用。为避免或减少偏倚,表1所示的准确率为相关文献报道的平均准确率或者最优模型的准确率以及某一数据集的准确率,同时也列出了文献中选取的部分特征以及相关模型的应用方向。
结语
作者简介
1
第一作者
黄晓琛
男,1999年生,就读于中国农业科学院油料作物研究所,硕士研究生学历,研究方向为食品加工与安全。
2
通信作者
魏芳 博士
中国农业科学院油料作物研究所,研究员,博士生导师,油料品质化学与加工利用团队执行首席,主要从事油料功能成分挖掘与品质评价。主持国家、省部级竞争性科研项目10余项(其中国家自然科学基金项目3 项),参加完成了国家自然科学基金重大研究计划、国家科技支撑计划等多项重大项目。在国内外重要期刊上发表研究论文100 篇,其中SCI收录80 篇(单篇最高影响因子16)。获国家发明专利授权12 项软件著作权3 项。参编专著5 部(英文专著2 部)。担任Human Nutrition & Metabolism和Oil Crop Science副主编。入选中国农科院“青年英才计划”培育工程院级人选,获湖北省百名优秀女性科技创新人才。
实习编辑:申婧婧 ;责任编辑:张睿梅。点击下方阅读原文即可查看全文。图片来源于文章原文及摄图网。
近期研究热点