✦
深度学习辣汤小组文献阅读学习之一百五十四篇
✦
拉曼光谱与机器学习相结合在单细胞水平上快速检测食源性病原体
DeepLearning 深度学习辣汤小组
2024/1/27
2021年,来自上海理工大学的Yan, Shuaishuai等人,将拉曼光谱与机器学习技术相结合,通过决策树算法在血清型水平上对单个细菌细胞进行评估和判别,并在期刊TALANTA(IF=6.1,化学一区TOP)上发表题为“Raman spectroscopy combined with machine learning for rapid detection of food-borne pathogens at the single-cell level”的文章。
DOI:
https://doi.org/10.1016/j.talanta.2021.122195
一、研究背景
食源性病原体通过食物或水引起的食源性疾病是持续引发全球公共卫生问题和食品安全事件的主要原因之一。因此,早期快速检测食源性病原体对食品质量控制至关重要。目前的检测技术(生化检测、免疫学分析、基因组分析)等方法都因为其漫长的预富集和预处理过程,限制其快速获得测试结果。因此,迫切需要一种快速、准确、成本效益高的方案来探索食品供应中的潜在病原体。
拉曼光谱可以根据激光照射到单个细菌细胞时化学键振动和旋转的能量变化产生特定的单细胞拉曼光谱(SCRS)。然而,根据SCRS对不同的细菌种群进行分类不是一件容易的事情。首先,单细胞的拉曼散射效率很低,导致SCRS的峰值容易受到背景噪声的影响;其次,由于每个SCRS通常涉及1000多个拉曼波段,因此分析许多变量非常棘手;第三,由于异质性的存在,同一菌株不同细菌个体的指纹具有多样性;同时,不同物种间SCRS的差异是无法用肉眼检查的,因为它们的成分大致相同。因此,采用合适的化学计量学方法对不同菌株进行SCRS分类是解决上述障碍的有效途径之一。一旦建立了分类数据集,就可以毫不费力地在单细胞水平上查询和验证细菌。基于此,本研究采用核主成分分析-决策树(KPCA-DT)识别各菌株的特征,对未知细菌进行分类,并与模型PCA-SVM进行了比较。
二、数据集
本研究收集来自7个不同细菌属的23株菌株,包括埃希氏菌、李斯特菌、葡萄球菌、克罗诺杆菌、弧菌、志贺氏菌和沙门氏菌,共计15890个光谱。光谱范围为代表细胞代谢状态的SCRS信息丰富的生化指纹区:400-1800cm-1。图1展示了所有被测微生物菌株的平均拉曼光谱(粗实线),灰色区域表示标准偏差,描述了对应于给定波数的测量光谱强度的变化。并将15890个SCRS的全部数据随机分为10个集,其中9个集用于建立分类器(7个集用于训练,2个集用于验证),剩余1个集用于评估分类器(独立测试集)。
三、方法
采用适当的机器学习程序,可以准确解析大量数据。本研究使用核主成分分析(KPCA),从冗余的原始光谱数据中提取特征线性和非线性特征(图2B),并通过决策树(DT)算法对每个菌株的生化特性进行分析(图2),从而达到菌株分类的目的。通过10倍交叉验证,估计KPCA-DT分类模型区分23种不同菌株的能力,重复10次,根据每次使用的测试集不同,得到相应的分类模型个数。通过混淆矩阵对各模型的预测精度进行比较,确定性能最好的分类器。此外,采用受试者工作特征(ROC)曲线对23株菌株的特异性和敏感性进行了估计。ROC曲线下面积(AUC)越大,分类器的表现越好。
四、结果与总结
KPCA-DT分类学习器对独立测试集的每个元素进行预测,并将识别准确率集中在一个混淆矩阵中,以显示单细胞水平的菌株类别识别结果。如图3A所示,对角线区域显示了正确识别各应变的准确度,而非对角线区域显示了错误预测的结果。23株菌株分类任务的平均预测准确率为86.23±0.92%。但某些菌株的误判率较高,特别是沙门氏菌。
为此,引入了四级分类模型。根据生物分类学的范围,每个KPCA-DT模型在层次结构中的识别性能通过10倍交叉验证进行估计(图4)。首先,在顶层,数据集被划分为革兰氏阳性(G+)和革兰氏阴性(G-),KPCA-DT和PCA-SVM的识别结果令人满意,平均准确率分别为92.2±0.5%和97.6±0.2%。在第二级(属水平),KPCA-DT分类模型对G+和G-的识别准确率为88.6±1.0%和95.8±0.4%,同时,根据PCA-SVM分类模型,G+和G-菌的分类准确率分别可达92.6±0.6%和99.2±0.1%。两种算法在属水平上都表现出优异的识别性能,这可能是由于不同属细菌的拉曼光谱特征差异很容易被捕获。随后,在三级分类(种级),KPCA-DT对5种沙门氏菌和4种李斯特菌的鉴别准确率分别为88.3±1.6%和87.1±1.3%。相反,PCA-SVM在该层次分类中的预测错误率较高。最后,在血清水平上,KPCA-DT对4种不同血清型菌株的预测准确率为88.4±1.9%,而PCA-SVM的分类结果较差(70.2±2.3%)。
综上所述,基于KPCA-DT的分类方法不仅可以快速诊断食源性病原体,而且可能是复杂环境中细菌分析的有效策略。而且,这些不需要大型服务器的传统机器学习分类模型可以很容易地集成到自动化、小型化甚至手持式拉曼光谱仪中,从而可以对食品样品中的食源性病原体进行现场实时检测,成为保障食品安全的有效武器。
图1:所有被测微生物菌株的平均拉曼光谱
图2:核主成分分析决策树模型(KPCA-DT)的建立
图3:KPCA-DT分类模型对所有菌株的识别性能
图4:4级KPCA-DT分类模型对独立测试集的预测结果
Pepper soup transformed by: Yang Na
//
深度学习辣汤AI小组由徐州医科大学以及徐州医科大学附属医院一群热爱人工智能的小伙伴们组成,欢迎大家跟我们交流学习!
扫码关注我们
欢迎加入我们!
成员微信号:cy2011mcu
添加好友时请备注:
您的 单位-科室-姓名-研究方向