拉曼光谱与机器学习相结合在单细胞水平上快速检测食源性病原体

文摘健康 2024-07-23 01:00 江苏

✦

深度学习辣汤小组文献阅读学习之一百五十四篇

✦

拉曼光谱与机器学习相结合在单细胞水平上快速检测食源性病原体

DeepLearning 深度学习辣汤小组

2024/1/27

2021年，来自上海理工大学的Yan, Shuaishuai等人，将拉曼光谱与机器学习技术相结合，通过决策树算法在血清型水平上对单个细菌细胞进行评估和判别，并在期刊TALANTA（IF=6.1，化学一区TOP）上发表题为“Raman spectroscopy combined with machine learning for rapid detection of food-borne pathogens at the single-cell level”的文章。

DOI：

https://doi.org/10.1016/j.talanta.2021.122195

一、研究背景

食源性病原体通过食物或水引起的食源性疾病是持续引发全球公共卫生问题和食品安全事件的主要原因之一。因此，早期快速检测食源性病原体对食品质量控制至关重要。目前的检测技术（生化检测、免疫学分析、基因组分析）等方法都因为其漫长的预富集和预处理过程，限制其快速获得测试结果。因此，迫切需要一种快速、准确、成本效益高的方案来探索食品供应中的潜在病原体。

拉曼光谱可以根据激光照射到单个细菌细胞时化学键振动和旋转的能量变化产生特定的单细胞拉曼光谱（SCRS）。然而，根据SCRS对不同的细菌种群进行分类不是一件容易的事情。首先，单细胞的拉曼散射效率很低，导致SCRS的峰值容易受到背景噪声的影响；其次，由于每个SCRS通常涉及1000多个拉曼波段，因此分析许多变量非常棘手；第三，由于异质性的存在，同一菌株不同细菌个体的指纹具有多样性；同时，不同物种间SCRS的差异是无法用肉眼检查的，因为它们的成分大致相同。因此，采用合适的化学计量学方法对不同菌株进行SCRS分类是解决上述障碍的有效途径之一。一旦建立了分类数据集，就可以毫不费力地在单细胞水平上查询和验证细菌。基于此，本研究采用核主成分分析-决策树(KPCA-DT)识别各菌株的特征，对未知细菌进行分类，并与模型PCA-SVM进行了比较。

二、数据集

本研究收集来自7个不同细菌属的23株菌株，包括埃希氏菌、李斯特菌、葡萄球菌、克罗诺杆菌、弧菌、志贺氏菌和沙门氏菌，共计15890个光谱。光谱范围为代表细胞代谢状态的SCRS信息丰富的生化指纹区：400-1800cm-1。图1展示了所有被测微生物菌株的平均拉曼光谱(粗实线)，灰色区域表示标准偏差，描述了对应于给定波数的测量光谱强度的变化。并将15890个SCRS的全部数据随机分为10个集，其中9个集用于建立分类器(7个集用于训练，2个集用于验证)，剩余1个集用于评估分类器(独立测试集)。

三、方法

采用适当的机器学习程序，可以准确解析大量数据。本研究使用核主成分分析(KPCA)，从冗余的原始光谱数据中提取特征线性和非线性特征（图2B），并通过决策树（DT）算法对每个菌株的生化特性进行分析（图2），从而达到菌株分类的目的。通过10倍交叉验证，估计KPCA-DT分类模型区分23种不同菌株的能力，重复10次，根据每次使用的测试集不同，得到相应的分类模型个数。通过混淆矩阵对各模型的预测精度进行比较，确定性能最好的分类器。此外，采用受试者工作特征(ROC)曲线对23株菌株的特异性和敏感性进行了估计。ROC曲线下面积(AUC)越大，分类器的表现越好。

四、结果与总结

KPCA-DT分类学习器对独立测试集的每个元素进行预测，并将识别准确率集中在一个混淆矩阵中，以显示单细胞水平的菌株类别识别结果。如图3A所示，对角线区域显示了正确识别各应变的准确度，而非对角线区域显示了错误预测的结果。23株菌株分类任务的平均预测准确率为86.23±0.92%。但某些菌株的误判率较高，特别是沙门氏菌。

为此，引入了四级分类模型。根据生物分类学的范围，每个KPCA-DT模型在层次结构中的识别性能通过10倍交叉验证进行估计(图4)。首先，在顶层，数据集被划分为革兰氏阳性（G+）和革兰氏阴性(G-)，KPCA-DT和PCA-SVM的识别结果令人满意，平均准确率分别为92.2±0.5%和97.6±0.2%。在第二级（属水平），KPCA-DT分类模型对G+和G-的识别准确率为88.6±1.0%和95.8±0.4%，同时，根据PCA-SVM分类模型，G+和G-菌的分类准确率分别可达92.6±0.6%和99.2±0.1%。两种算法在属水平上都表现出优异的识别性能，这可能是由于不同属细菌的拉曼光谱特征差异很容易被捕获。随后，在三级分类（种级），KPCA-DT对5种沙门氏菌和4种李斯特菌的鉴别准确率分别为88.3±1.6%和87.1±1.3%。相反，PCA-SVM在该层次分类中的预测错误率较高。最后，在血清水平上，KPCA-DT对4种不同血清型菌株的预测准确率为88.4±1.9%，而PCA-SVM的分类结果较差(70.2±2.3%)。

综上所述，基于KPCA-DT的分类方法不仅可以快速诊断食源性病原体，而且可能是复杂环境中细菌分析的有效策略。而且，这些不需要大型服务器的传统机器学习分类模型可以很容易地集成到自动化、小型化甚至手持式拉曼光谱仪中，从而可以对食品样品中的食源性病原体进行现场实时检测，成为保障食品安全的有效武器。

图1：所有被测微生物菌株的平均拉曼光谱

图2：核主成分分析决策树模型(KPCA-DT)的建立

图3：KPCA-DT分类模型对所有菌株的识别性能

图4：4级KPCA-DT分类模型对独立测试集的预测结果

Pepper soup transformed by: Yang Na

深度学习辣汤AI小组由徐州医科大学以及徐州医科大学附属医院一群热爱人工智能的小伙伴们组成，欢迎大家跟我们交流学习!

扫码关注我们

欢迎加入我们！

成员微信号：cy2011mcu

添加好友时请备注：

您的单位-科室-姓名-研究方向

http://mp.weixin.qq.com/s?__biz=Mzg2NzU5MjUxNQ==&mid=2247487106&idx=2&sn=1a93369ff68f4a61eb19b4eac189ee26

深度学习辣汤小组

AI学习日志，阅读相关文献，分享学习感悟，交流学习技巧，记录自我成长！

最新文章

【一百七十篇】急性肾损伤机器学习风险评分的内部和外部验证

利用临床数据和机器学习进行原发性免疫缺陷疾病的早期诊断

肝移植中的人工智能、机器学习和深度学习

通过眼部图像的深度学习筛选和识别肝胆疾病：一项前瞻性、多中心研究

通过机器学习预测心脏手术后急性肾损伤的发展

利用临床数据和机器学习进行原发性免疫缺陷疾病的早期诊断

肝移植中的人工智能、机器学习和深度学习

通过眼部图像的深度学习筛选和识别肝胆疾病：一项前瞻性、多中心研究

通过机器学习预测心脏手术后急性肾损伤的发展

用于儿科重症监护中急性肾损伤早期预测的机器学习模型

深度学习在脓毒症相关急性肾损伤亚型识别中的应用

拉曼光谱与机器学习相结合在单细胞水平上快速检测食源性病原体

由5项临床指标和肝脏硬度测量组成的机器学习模型可以准确识别与MASLD相关的肝纤维化

目标检测：一种新的用于诊断肝细胞气球样变的人工智能技术

人工神经网络算法预测心肌梗死后一年内死亡率和因心力衰竭入院率的开发和验证：一项全国性人群研究

机器学习用于脓毒症患者急性肾损伤的预测

机器学习方法揭示糖尿病前期和2型糖尿病患者慢性肾病的代谢特征

使用表面增强拉曼光谱结合偏最小二乘回归和人工神经网络对大肠杆菌、金黄色葡萄球菌和鼠伤寒沙门氏菌进行同时定量分析

细菌拉曼光谱识别的尺度自适应深度模型

基于机器学习构建系统性红斑狼疮辅助诊断系统：SIE风险概率指数(SLERPI)

【一百六十四篇】基于SERS光谱深度学习分析的多药耐药肺炎克雷伯菌快速预测

【一百六十三篇】基于深度学习的光谱分析快速鉴定尿路致病菌耐药性

【一百六十二篇】SERS指纹图谱结合机器学习分析用于快速鉴定结核分枝杆菌感染和耐药性

一百六十一篇:拉曼光谱结合深度学习在单细胞水平快速检测黑色素瘤

急性肾损伤危重患者死亡率和主要肾脏不良事件的预测

【一百六十九篇】一种新的基于机器学习的放射组学模型用于诊断肝硬化患者的食管静脉曲张风险

【一百六十八篇】使用基于MELD的模型确定急性静脉曲张破裂出血患者的死亡风险

【一百六十七篇】基于图像的机器学习模型在肝硬化静脉曲张出血预后方面优于临床风险评分

【一百六十六篇】基于机器学习的急诊科分期儿童临床结果预测

【一百六十五篇】使用机器学习识别先天性白内障的实用模型

“2024新文速递二十”套路得人心的IgA肾病的文章，发了一个预警，学习下他的套路！

“2024新文速递十九”火遍全网的大语言模型结合病理图像在NATURE上是如何表现的？与大语言模型相关的概念有哪些？

“2024新文速递十八”你有被肾结石疾病的困扰吗？激光碎石后是否容易再复发？有哪些因素，看看这篇文章吧！

“2024新文速递十七”如何在新辅助化疗赛道抓住热点之二？

【一百六十九篇】一种新的基于机器学习的放射组学模型用于诊断肝硬化患者的食管静脉曲张风险

【一百六十八篇】使用基于MELD的模型确定急性静脉曲张破裂出血患者的死亡风险

【一百六十七篇】基于图像的机器学习模型在肝硬化静脉曲张出血预后方面优于临床风险评分

“2024新文速递十九”火遍全网的大语言模型结合病理图像在NATURE上是如何表现的？与大语言模型相关的概念有哪些？

【一百六十九篇】一种新的基于机器学习的放射组学模型用于诊断肝硬化患者的食管静脉曲张风险

【一百六十八篇】使用基于MELD的模型确定急性静脉曲张破裂出血患者的死亡风险

【一百六十七篇】基于图像的机器学习模型在肝硬化静脉曲张出血预后方面优于临床风险评分

“2024新文速递十八”你有被肾结石疾病的困扰吗？激光碎石后是否容易再复发？有哪些因素，看看这篇文章吧！

“2024新文速递十七”如何在新辅助化疗赛道抓住热点之二？

使用机器学习方法实现肝组织学的定量测量和NASH中的疾病监测

基于NASH患者肝脏活检中的肝细胞气球样变引入持续同源性图像，实现计算机辅助NASH诊断

气球状肝细胞特征识别的复杂性：为基于人工智能的非酒精性脂肪肝成像定义训练图谱

结合人工智能分析的数字病理学为NASH中治疗诱导的纤维化消退提供了更深入的研究

基于深度学习评估肝活检组织的精确肝脂肪变性定量研究

相位染色:利用深度学习对无标签定量相位显微镜图像进行数字染色

在肝活检组织学中利用深度学习技术精准定量评估肝脂肪变性

分类

时事

民生

政务

教育

文化

科技

财富

体娱

健康

情感

旅行

百科

职场

楼市

企业

乐活

学术

汽车

时尚

创业

美食

幽默

美体

文摘

原创标签

时事社会财经军事教育体育科技汽车科学房产搞笑综艺明星音乐动漫游戏时尚健康旅游美食生活摄影宠物职场育儿情感小说曲艺文化历史三农文学娱乐电影视频图片新闻宗教电视剧纪录片广告创意壁纸头像心灵鸡汤星座命理教育培训艺术文化金融财经健康医疗美妆时尚餐饮美食母婴育儿社会新闻工业农业时事政治星座占卜幽默笑话独立短篇连载作品文化历史科技互联网

发布位置

广东北京山东江苏河南浙江山西福建河北上海四川陕西湖南安徽湖北内蒙古江西云南广西甘肃辽宁黑龙江贵州新疆重庆吉林天津海南青海宁夏西藏香港澳门台湾美国加拿大澳大利亚日本新加坡英国西班牙新西兰韩国泰国法国德国意大利缅甸菲律宾马来西亚越南荷兰柬埔寨俄罗斯巴西智利卢森堡芬兰瑞典比利时瑞士土耳其斐济挪威朝鲜尼日利亚阿根廷匈牙利爱尔兰印度老挝葡萄牙乌克兰印度尼西亚哈萨克斯坦塔吉克斯坦希腊南非蒙古奥地利肯尼亚加纳丹麦津巴布韦埃及坦桑尼亚捷克阿联酋安哥拉