油茶籽油(CAO)富含VE、植物甾醇、角鲨烯、多酚等多种天然抗氧化剂和活性物质,有“东方橄榄油”之称。由于CAO的市场价格相对较高,导致市场上不法商贩用低价食用植物油掺伪CAO冒充纯CAO出售。作为一种新兴的无损快速检测技术,低场核磁共振(LF-NMR)分析技术在食用油品质分析领域应用广泛。支持向量机(SVM)是一种基于结构风险最小化和统计学习理论的机器学习模型。SVM不仅具有良好的泛化能力,且有效避免了传统分类算法中过学习、维数灾难、局部极小化等缺点,因而在小样本分类中得到广泛应用。
上海理工大学健康科学与工程学院的林晓浪、傅利斌、王欣*等将LF-NMR检测技术与SVM分析方法相结合,在对CAO、几种正常/氧化植物油及多种二元掺兑油样进行LF-NMR弛豫特性研究及主成分分析(PCA)的基础上,以ReliefF算法进行特征筛选,减少数据冗余;基于LF-NMR弛豫特征和PCA设计SVM分类器,以实现更高效、更智能的CAO掺伪鉴别。研究可为LF-NMR结合化学计量学方法应用于CAO保真检测提供参考。
图2A表明,各品牌CAO的T2衰减曲线几乎重叠,均以最大信号幅度(6 275.95±111.41)开始衰减并在1 300 ms左右衰减完全。图2B中,CAO的单组分图谱(T2W)分布在106.55~112.35 ms,差异较小,图2C的多组分弛豫图谱均呈典型双峰分布,其中,T21峰位于5.13~15.69 ms,T22峰位于31.23~449.57 ms。各品牌的LFNMR特性相符度较高,这是由于食用油的LF-NMR弛豫特性与其脂肪酸碳链长度和主要脂肪酸含量密切相关,这有助于后续与其他植物油及掺伪样品区分。
图3A表明,OxiCOO衰减速率最快,最先衰减完全;SUO的衰减速率最小,衰减完全所需时间最长;其余样品均介于SUO和OxiCOO之间,从上往下依次是SOO、OxiSUO、COO、OxiSOO、CAO。图3B的单组分弛豫图谱也表明,SUO的T2W(143.14 ms)最大,而OxiCOO的T2W(104.26 ms)最小,其他油样的T2W介于SUO和OxiCOO之间。图3C则表明,CAO的多组分图谱与其他6 种油差异明显,CAO只有T21和T22峰,而其余6 个油样均出现3 个弛豫峰,且与正常油样相比,氧化油样的弛豫峰明显左移。以上结果表明不同油样的弛豫特性具有一定差别。对7 种氧化/正常植物油的LF-NMR弛豫特性进行PCA,PC1、PC2贡献率分别为82.16%和12.94%,累计贡献率为95.10%,表明这两个PC已经涵盖了原始数据的绝大部分信息,PCA分布如图4所示。CAO集中分布在图的左下方,其他6 个油样则分布在图的右侧,且具有一定差异,例如OxiCOO分布在图右上侧位置、OxiSUO分布在图的最右侧。PCA结果表明,基于样品的LF-NMR提取的特征值可以有效区分CAO和其他植物油及氧化油脂。
本研究共对6 个二元掺兑体系进行LF-NMR分析,以CAO+SOO的弛豫特性为例对衰减曲线、单/多组分弛豫图谱进行分析(图5)。图5A表明,CAO的衰减曲线(红色)位于最下方,而SOO的T2衰减曲线位于最上方(蓝色),掺兑比例为10%~90%的CAO+SOO样品则介于二者之间。图5B的单组分图谱中,随二元体系中SOO比例的增加,样品的T2W增大,趋近于SOO。多组分弛豫图谱(图5C)中,掺兑比例为0%~20%时,样品仍表现为与CAO类似的双峰结构,当掺兑比例为30%~100%时,则表现为三峰结构,出现新的T23峰。图6为其余5 个掺兑体系的多组分弛豫图谱。可以发现,随着其他油样掺兑比例的增加,样品均会出现T23峰,但这与各体系的掺兑比例密切相关。例如,当SUO比例在10%及以上时,CAO+SUO体系的多组分弛豫图谱表现为三峰结构,而COO掺兑比例在40%及以上时呈现三峰结构;对氧化油样掺兑的样品而言,当OxiCOO掺兑比例在80%及以上时,CAO+OxiCOO体系的多组分弛豫图谱表现为三峰结构,而OxiSOO、OxiSUO掺兑比例分别在50%、40%及以上时样品的多组分弛豫图谱呈三峰结构。此外,随着掺兑比例的增加,3 个二元氧化掺兑体系的多组分弛豫图谱分布均相对左移。
进一步对二元掺兑油样LF-NMR弛豫特性进行PCA,发现PC1、PC2的贡献率分别为76.36%、11.77%,累计贡献率为88.13%,以样品的PC1、PC2得分绘图(图7)。图7A表明,样品分布可分为左右两部分,左侧样本为CAO和仅有T21、T22两个峰的掺兑油样,右侧样本则为存在T23峰的掺兑油样,这表明T23峰的存在可以作为判别CAO掺假的信息之一。进一步分别对左右两侧油样进行PCA,结果如图7B、C所示。图7B中,CAO与掺兑氧化油样(OxiCOO、OxiSOO、OxiSUO)可明显区分,但当掺兑较低比例(10%~20%)的COO、SOO时,PCA分布仍有一定混杂。图7C表明,掺兑SUO的油样主要分布在左上部分,而掺兑OxiSOO、OxiSUO的油样主要分布在右下部分。合理的结构设计能有效降低SVM多分类过程中的“误差累计”,提高模型的分类精度。基于对各油样的LF-NMR弛豫特性的比较及PCA的结果设计CAO掺兑识别的SVM二叉树结构分类器,图8中的SVM二叉树分类器由13 个二分类SVM组成,首先通过核函数K1(x1,x2)构建二分类器可实现CAO和掺兑样品的区分。再基于是否存在T23峰这一显著特征,以核函数K2(x1,x2)构建二分类器,初步实现低比例和高比例掺兑的区分。随后,分别以核函数K3(x1,x2)~K13(x1,x2)构建多个二分类依次实现不同掺兑类型、掺兑比例的区分。最终形成的分类标签如图8的所有叶子节点所示(灰色标记部分),共计14 个分类标签,涵盖CAO、掺兑油类型、掺兑比例信息。利用ReliefF去除不必要的特征有助于提高模型的分类准确率。以ReliefF算法计算训练集中16 个LFNMR弛豫特征信息对最终分类标签的重要性并排序,结果如图9所示。权重可以反映特征与分类标签之间的相关性。图9表明,TS23权重最大(0.43),说明其在油样的分类中发挥重要作用,而TP21权重最小(0.02),说明其对样本区分的贡献最小。此外,权重排序前3的特征信息(TS23、TE23、TP23)均与T23峰相关,且7 个分类标签(图8路径a)中均存在T23峰,说明T23峰弛豫特征的存在有助于CAO掺兑样本的区分。而权重排序的后3 位(TP21、TS21、TE21)均与T21峰相关,说明该弛豫峰在油样分类中的作用相对较小。为了确定SVM模型的最优特征数,依照特征权重从大到小的顺序,逐步增加特征个数并训练SVM多分类模型,分别计算模型训练集和验证集的分类准确率,结果如图10所示。随着特征数的增加,SVM模型在训练集和验证集中的分类准确率有一定差异。在训练集中,随着特征数的增加,分类准确率逐渐提高,当特征数为10时,训练集分类准确率最高(92.56%)。继续增加特征数时,分类准确率的变化不明显。在验证集中,随着特征数的增加,分类准确率亦呈上升趋势,并在特征数为9时达到最大(90.77%)。但继续增加特征数时,分类准确率呈下降趋势,并在特征数为16时降至82.05%。说明特征数从1逐渐增加到9时,涵盖的样本有效信息更为丰富,有助于不同油样的区分,模型的分类准确率增加。但过多的特征数则会引入冗余特征,增加模型复杂度,导致模型的过拟合。综上,特征数为9时,验证集分类准确率最高,模型几乎不存在过拟合。因此,最终保留前9 个LF-NMR弛豫特征进行SVM模型的构建。
以验证集对SVM分类模型的性能进行测试,结果如图11所示。在CAO的检测识别中,仅有2 个CAO样本被错误分类为低掺兑比例的CAO+SOO(10%~20%),180 个掺假样品均被准确识别,整体分类准确率达到了98.97%(193/195)。这是因为在低比例的掺兑下,含量较高的CAO对LF-NMR弛豫特性影响较大,从而造成了分类困难,在Shi Ting等基于核磁共振波谱进行CAO分析时同样也发现当掺兑比例低于20%时CAO+SOO与CAO区分困难。在掺兑类型和比例的识别中,模型分类准确率为90.77%(177/195),存在16 个样本被错误分类,例如3 个CAO+SUO(50%~100%)被错误识别成CAO+COO(40%~100%)。这与孙婷婷等基于脂肪酸和甘油三酯进行掺兑类型的检测时观察到的不同掺兑类型之间的错误分类相似。掺兑类型错误分类的样品的脂肪酸组成较为相似,这使其LF-NMR弛豫特性接近,故难以区分。进一步就SVM模型对CAO及6 种二元掺兑体系的分类精度进行评估。分别将不同类别及掺兑比例油样视为阳性(正类)样本,其他油样视为阴性(负类)样本,计算召回率、精确率、F1分数,结果如表2所示。由表2可知,CAO的召回率为86.67%,精确率为100%,F1分数为0.93,各掺兑类型及掺兑比例样本的平均召回率为90.87%、平均精确率为90.83%、平均F1分数为0.90。但不同掺兑类型及比例的检出精度有一定差异。例如,当COO掺兑比例为10%~30%、OxiCOO掺兑比例为80%~100%、OxiSOO掺兑比例为50%~100%、OxiSUO掺兑比例为40%~100%时,SVM模型的检出精度最高,召回率和精确率均达到100%,F1分数均为1.00。而当OxiSUO掺兑比例在10%~30%时,召回率和F1分数最低,分别为66.67%和0.75,当OxiSOO掺兑比例在10%~40%时,精确率最低,为73.33%。总体而言,模型具有较高的检测精度。相比之下,本研究提出的基于LF-NMR弛豫特征的SVM CAO检测方法,不需要复杂的样品处理、检测速度快、操作简单且检测精度较高,能够满足实时检测需求。
本研究建立了基于LF-NMR弛豫特性的CAO SVM掺伪鉴别模型,并对模型的性能进行了评价。在对正常/氧化的CAO、其他种类的植物油及多种二元掺兑油样的LF-NMR弛豫特性比较及PCA的基础上,设计了CAO掺兑识别的SVM二叉树结构分类器,并采用ReliefF算法进行特征筛选,发现当特征数为9时,SVM多分类模型的性能最佳,准确率为90.77%,对CAO、掺兑类型及比例的平均召回率为90.87%、精确率为90.83%、F1分数为0.90,具有较高的分类性能。本研究可为利用LF-NMR弛豫特性进行CAO的保真鉴定和掺兑检测提供技术依据。
本文《基于低场核磁弛豫特性的油茶籽油支持向量机掺伪鉴别模型的建立与评价》来源于《食品科学》2023年45卷第10期19-27页,作者:林晓浪,傅利斌,王 欣。DOI:10.7506/spkx1002-6630-20240105-053。点击下方阅读原文即可查看文章相关信息。欢迎广大读者们对本文以及食品风味感知创新团队提出您的宝贵意见