通过深度学习辅助多重SERS指纹图谱对农产品进行快速、精确的区分和鉴定

科学   2024-04-28 10:21   湖北  
大家好,本周跟大家分享一篇发表在《Analytical Chemistry》(Q1, IF:7.4)的文章,题目是“Rapid and Precise Differentiation and Authentication of Agricultural Products via Deep Learning-Assisted Multiplex SERS Fingerprinting”,贵州大学杨辉教授与西南交通大学范美坤教授是该文章的通讯作者。

●  背景介绍  ●

现如今的消费者日益关注食物的来源,在农业部门,查明农产品的原产地和评估质量等级已成为至关重要的问题。在产品上贴上原产地和等级的标签,可以提供清晰和透明的信息,确保消费者充分了解情况。然而,掺假对产品信息的真实性构成威胁,并可能对消费者的健康造成危害。农产品质量认证和产品品种和原产地的可追溯性已成为食品安全和产品质量控制的关键问题。目前,气相色谱法、高效液相色谱法和质谱法已用于农产品的识别和认证,上述方法繁琐的样品预处理过程阻碍了这些方法在原产地测定和质量分类中的应用。尽管近红外光谱在农产品的鉴定和认证中也得到了广泛的应用。但它在检测样品中细微的化学成分差异方面面临挑战,并且对某些成分的选择性相对较弱。目前还缺乏将快速分析、高灵敏度和功能丰富的信息相结合的高效鉴定农产品的方法。

多重表面增强拉曼散射(SERS)作为一种指纹光谱技术,具有高灵敏度、分析速度快、丰富的指纹信息,可同时分析多种物质,不受干扰。然而,从复杂样品的大量光谱数据中提取引人注目的特征存在挑战。仅仅依靠人工目视检查是不够的,需要先进的数据处理方法。作为一种重要的深度学习架构,卷积神经网络(CNN)可以自动发现样品浓度模式,无需手动预处理,这解决了人工特征提取效率低下和分类精度低的缺点。CNN中的正则化过程有效地缓解了深度学习中常见的过拟合问题。

本文开发了一种基于多路复用SERS指纹图谱和1D-CNN模型的农产品识别和认证策略(方案1)。选择三种类型的纳米颗粒来调节样品中化学物质的吸附。每个纳米粒(NP)都与特定的分析物相互作用,产生互补的光谱信息。随后,通过将基于不同NP的SERS光谱序列化组合成“SERS超级指纹图谱”,构建了各种农产品的综合光谱图谱。这种协同组合能够捕获更广泛的化学特征,并增强具有细微成分差异的样品的区分。然后,构建一维CNN模型提取超指纹信息,并与支持向量机(SVM)、随机森林(RF)、线性判别分析(LDA)和k最近邻(KNN)方法进行对比。使用具有不同类别、来源和等级的烤烟以及来自不同来源的绿茶和紫米样品来证明该方法的功效。此外,基于模拟掺假农产品,评估了该模型识别农产品掺假的能力。证实了基于一维CNN模型的多重SERS方法在农产品鉴定和认证方面的潜力。

Scheme 1. Identifying and Authenticating Different Cultivars, Origins, and Grades of Flue-Cured Tobacco, Green Tea, and Purple Rice from Multiplex SERS Fingerprinting.






● 结果与讨论  ●

烤烟的品种识别

烤烟含有生物碱、酚类、类黄酮和芳香族化合物,其中尼古丁、绿原酸、东莨菪碱、香豆素的东莨菪碱、芦丁、黄酮和鼠李糖为主要成分。不同类型烤烟中化学成分的含量各不相同。收集每种烤烟的样品,并为每个样品记录50个随机光谱。随后,通过去除基线和平滑处理SERS光谱,基于AgC NPs获得4种不同品种烤烟的SERS光谱数据。
为了增强SERS光谱差异的可视化,应用二维约简算法来降低高维SERS光谱的维数。基于 Python scikit-learn 模块,主成分分析(PCA)和 t 分布随机邻域嵌入(t-SNE)用于光谱分析。在图1B,C中,不同颜色的点描绘了不同品种的烤烟品种的SERS光谱。如图1A中的阴影区域所示,对于烤烟栽培品种,SERS光谱表现出轻微的标准偏差。尽管如此,各种烤烟类型的分布相对分散,并显示出明显的重叠。值得注意的是,t-SNE算法表现出更明显的分化效应(图1C),烤烟的四个品种显得更加集中。但是,有些点仍然表现出重叠现象。因此,PCA和t-SNE算法只能定性分析不同的烤烟品种,实现品种鉴定具有挑战性。
将一维CNN模型用于光谱特征提取和数据分析,以识别烤烟品种。对不同标签的数据进行随机打乱,以提高模型的泛化能力。将训练集、验证集和测试集按7:1:2的数据量比任意除法。得到的精度曲线和损耗曲线如图1E所示。训练和验证精度随着迭代的进行而迅速增加,而预测损失随着迭代次数的增加呈指数级下降。图1G表示测试准确率,由于不同品种烤烟的SERS光谱特征丰富,测试准确率可达99.4%。在图1D中,比较了不同算法对烟草品种的识别精度。对于 SVM、RF、LDA 和 KNN 模型,数据以 7:1:2 的比例类似地分为训练、验证和测试数据集。用于 SVM、RF、LDA 和 KNN 的数据集与用于 1D-CNN 模型的分区数据集相同。1D-CNN模型具有最高的识别精度,表明该模型能够从烤烟中提取更多的SERS光谱特征,具有优异的分析和识别性能。同时,通过进行多次运行来评估 1D-CNN 模型,并且在十次重复中,训练和验证精度和损失的变化始终较小。这一观察结果强烈表明,1D-CNN模型表现出高重复性和可靠性,如图 1F 所示。随后,为验证一维CNN模型识别未知烟草品种的能力,随机抽取20个未知品种的烤烟作为盲测样本,采集10个光谱,对每个样本进行平均。将光谱数据输入模型后,其辨别准确率可以达到100%(图1H),这也表明,通过使用AgC NPs作为SERS底物,用于光谱特征采集的一维CNN模型可以实现对不同品种烤烟的识别。

Figure 1. (A) Spectra of different varieties of flue-cured tobaccos obtained using AgC NPs as SERS substrate. PCA (B) and t-SNE (C) diagrams of 1120 SERS spectra of different flue-cured tobaccos cultivars. (D) The accuracy of different algorithms with ten runs. (E) Loss curves and accuracy curves of 1D-CNN model based on SERS spectra of different varieties of flue-cured tobaccos. (F) Final accuracy and cross-entropy loss of training and validation sets with ten repeating trainings. (G) Confusion matrix results based on the test data of the 1D-CNN model, with the numbers in parentheses represent the number of spectra for each sample. (H) Confusion matrix results of the output from CNN for unknown samples of different varieties of flue-cured tobaccos, with the numbers in parentheses represent the number of parallel samples.

烤烟的地理原产地识别

烤烟的化学成分在不同地区会表现出差异,主要受各种地理特征的影响,如海拔高度、温度波动、日照持续时间和种植地点的降雨量。可以使用 SERS 捕获此信息。本部分以AgC NPs为SERS底物(图2A1)分析了不同地产地同等级的Yunyan87烤烟样品(图2B),并采用1D-CNN模型对数据进行了进一步处理(图2C)。

不同产地的烤烟具有相似的SERS包络分布,即特征峰具有相同的条带位置,但相对强度不同(图2A1)。在图2A1中,使用不同颜色的阴影部分突出显示了SERS光谱之间的主要差异峰,其中相同颜色的阴影部分代表相同的成分。在图2B中,可以发现兴义、水城和盘州在地理上彼此更接近,并且位于与云南省的边界。因此,我们怀疑光谱特征的差异可能归因于这些地区普遍存在的独特地理条件。从AgC NPs获得的光谱数据和相关的混淆矩阵结果表明,某些起源具有相对相似的光谱特征。值得注意的是,镇远、玉清和松岛等地区表现出光谱相似性。因此,仅使用AgC NPs作为SERS底物,区分来自十个不同来源的烤烟的准确率仅达到88.8%(图2C)。因此,精确的地理识别仍然具有挑战性。
为了提高识别烤烟地理来源的准确性,应用了SERS底物的组合来收集更全面的信息。通过比较图2A1–A3中同一样品的光谱信息,可以发现不同的SERS底物可以捕获有关烤烟的不同信息。
此外,用 Ag 获得的来自不同地理来源的烤烟的 SERS 光谱Ag7Au3和 AgA NPs 也不同。结果表明,AgC NPs,Ag7Au3和AgA NPs能够选择性地增强烤烟中的化学物质。

随后,将来自三个SERS衬底的光谱数据交叉组合并水平连接,形成不同的复合光谱。具体的组合方法如图2D所示,旨在从不同来源提取烟草的特定特征。然后使用1D-CNN模型对这些组合的光谱数据进行分析,相应的识别精度可见图2D。很明显,当将三种不同基质的SERS光谱连接成一个“超级指纹”时,1D-CNN模型可以全面捕获烤烟样品的光谱信息,从而产生最佳的识别结果。图2F中的混淆矩阵清楚地表明,多重SERS指纹图谱在测试阶段(98.0%)对来自10个不同来源的烤烟实现了高度准确的识别结果,均优于其他算法。此外,十次重复运行的结果也证明了1D-CNN 模型在识别烤烟来源方面的可靠性(图 2E)。此外,该模型还获得了来自不同来源的未知样品的SERS光谱并进行了区分(图2G)。结果证实,利用3个纳米颗粒作为SERS底物的多重SERS方法能够可靠地识别烤烟的地理来源。

Figure 2. Spectra of flue-cured tobaccos of different geographic origins obtained using AgC NPs (A1), Ag7Au3 NPs (A2), and AgA NPs (A3) as SERS substrates. (B) Schematic representation of the geographic locations of flue-cured tobacco samples. (C) Confusion matrix results of test data obtained with AgC NPs. (D) The accuracy with different combinations of SERS substrates. A, B, and C represent AgC NPs, Ag7Au3 NPs, and AgA NPs, respectively. (E) Final accuracy and cross-entropy loss of training and validation sets with ten repeating trainings. (F) Confusion matrix results of obtaining test data of various geographic locations of flue-cured tobacco samples. (G) Confusion matrix results of the output from CNN for unknown samples of different geographic locations of flue-cured tobaccos, with the numbers in parentheses representing the number of parallel samples.

烤烟的等级认可

传统上,烤烟的等级主要取决于其物理特性,包括长度、宽度、叶片结构、抗损伤性和颜色。在这些因素中,烤烟的成熟度是评估其整体质量的关键指标。该部分开始鉴定品种和产地相同但等级不同的烤烟。

在图 3A1–A3 中,显示了来自不同等级样品的光谱指纹,使用了 AgC NP、Ag7Au3 和 AgA NPs 作为 SERS 底物。根据文献,烤烟中的尼古丁含量随着成熟度的提高而降低,而绿原酸、芦丁、东莨菪碱的含量则呈现相反的趋势。烤烟成分含量的变化反映在SERS光谱中。在这项工作中,G1-G3样品的成熟度逐渐降低。

Figure 3. Spectra of different grades of flue-cured tobaccos obtained using AgC NPs (A1), Ag7Au3 NPs (A2), and AgA NPs (A3) as SERS substrates. (B) Final accuracy and cross-entropy loss of training and validation sets with ten repeating trainings. (C) Confusion matrix results based on the test data with 1D-CNN model. (D) Confusion matrix results of the output from CNN for unknown samples of different grades of flue-cured tobaccos.

通过混淆矩阵(图3C)评估1D-CNN模型的性能,在测试期间始终显示三个等级的高准确率(99.0%)。此外,图3B中的重复性实验,证实了1D-CNN模型的高识别性能。值得注意的是,该模型准确地识别了不同等级的未知样品,如图3D所示。这些发现强调了多重SERS分析在研究烤烟级鉴定中的实用性。

绿茶的地理原产地识别
为了评估1D-CNN模型结合多重SERS指纹识别各种农产品的潜力,本节选择不同产地的绿茶作为研究对象。使用不同的算法训练了三种底物的SERS光谱组合,并评估了它们对6种茶叶品种的识别准确性。结果表明,1D-CNN模型在茶叶识别方面优于其他算法。根据损失曲线和精度变化(图4B)以及混淆矩阵(图4C),茅尖茶和潮清茶的光谱模式彼此更加相似,偶尔会导致训练过程中的误判。尽管如此,整体识别准确率可高达97.7%。在此基础上,未知样品的结果也证明它可以识别大多数茶叶样品的来源(图4D)。

Figure 4.  Spectra of green tea of different origins obtained using AgC NPs (A1), Ag7Au3 NPs (A2), and AgA NPs (A3) as SERS substrates. (B) Final accuracy and cross-entropy loss of training and validation sets with ten repeating trainings. (C) Confusion matrix results of test data of green tea based on the 1D-CNN model. (D) Confusion matrix results of the output from CNN for unknown samples of different geographic origins of green tea. Spectra of purple rice of different origins obtained using AgC NPs (E1), Ag7Au3 NPs (E2), and AgA NPs (E3) as SERS substrates. (F) Final accuracy and cross-entropy loss of training and validation sets with ten repeating trainings. (G) Confusion matrix results of test data for purple rice based on the 1D-CNN model. (H) Confusion matrix results of the output for unknown samples of different geographic origins of purple rice.

紫米的地理原产地识别

为了进一步验证多重SERS策略在农产品鉴定应用中的适用性,本节选择不同产地的紫米作为研究对象。紫米富含花青素,包括花青素、芍药素和槲皮素。不同产地的紫米SERS光谱中特定特征峰的相对强度表现出变化。如图4G中的混淆矩阵结果所示,1D-CNN模型对不同来源的紫米样品的识别准确率为98.7%,优于其他算法。1D-CNN模型具有较高的可靠性(图4F)和识别未知样品的强大能力(图4H),表明该模型在农产品识别方面具有巨大的潜力。

农产品样品鉴定
为了区分和识别混合样品和单个样品,对1D-CNN模型进行了修改,在多个卷积层中保留了单个农产品的SERS光谱指纹信息。使用单一农产品样品(纯标签)和混合样品(掺假标签)的SERS光谱作为测试数据集。在预测过程中,通过应用 thresld (阈值 = 0.1) 对每个类的 softmax 输出矩阵进行二值化。大于阈值的类设置为 1,而小于或等于阈值的类设置为 0。识别混合样品的标准定义如下:当确定输出矩阵中存在两个或多个类别(值等于 1)时,该样品被归类为掺假的混合样品;否则,它被归类为没有掺假的单个样品。
表1显示了模型在检测掺假方面的结果和准确性。当应用于不同的作物时,该模型对单个农产品的识别准确率为100%。然而,在处理混合样品时存在一些误判,观察到不同烟草品种的准确率最高(99.0%)。这可能归因于不同烟草品种之间SERS光谱的差异更显着。误判主要发生在混合样品的比例为9:1时,表明当一个样品的比例较小时,检测掺假的难度增加。尽管如此,该模型对不同农产品的掺假检测准确率最低为94.8%,在农产品鉴别方面具有巨大潜力。

● 总结  ●

本研究成功地展示了一种可以根据农产品的品种、原产地和质量对农产品进行快速、精确的区分和认证。该方法将多重SERS指纹图谱与一维CNN建模相结合,成功区分了不同品种、产地和等级的烤烟,以及来自不同地理区域的茶叶和紫米样品。本研究构建了“SERS超级指纹”,从而可以更全面地获取农产品的特征信息。随后,使用1D-CNN 模型,在产品识别方面取得了卓越的准确率,始终超过97.7%,优于传统的机器学习算法。值得注意的是,1D-CNN模型还能有效检测样品中的掺假,准确率为94.8%。识别过程只需 35 分钟即可完成。SERS指纹识别与1D-CNN建模的集成为识别、认证和追踪农产品提供了强大的解决方案。


编辑:郭梦帅

责任编辑:魏芳

文章引用:https://doi.org/10.1021/acs.analchem.4c00064

文章信息:Xueqing Wang, Fan Li, Lan Wei, Yun Huang, Xiang Wen, Dongmei Wang, Guiguang Cheng, Ruijuan Zhao, Yechun Lin, Hui Yang, and Meikun Fan.Rapid and Precise Differentiation and Authentication of Agricultural Products via Deep Learning-Assisted Multiplex SERS Fingerprinting.[J]Analytical Chemistry 2024 96 (11), 4682-4692.

● 关于我们


中国农业科学院油料作物研究所油料品质化学与营养创新团队脂质分析实验室致力于突破脂质组分析所面临的生物基质复杂、脂质及其代谢产物种类繁多且结构复杂、定性和定量分析困难等共性关键技术瓶颈,建立高效,高通量的脂质组分析平台,并将该平台广泛应用于:(1)不同生物种质资源中脂质组成;(2)应用于食品安全与质量控制;(3)脂质的生物功能与营养学评价;(4)开发新的功能脂质。


脂质剖析平台:



扫码关注更多精彩

油料脂质分析实验室
中国农业科学院油料作物研究所脂质剖析与鉴定课题组致力于突破脂质组分析所面临的生物基质复杂、脂质及其代谢产物种类繁多且结构复杂、定性和定量分析困难等共性关键技术瓶颈,建立高效,高通量的脂质组分析平台。
 最新文章