WR | 使用深度学习模型对微塑料和天然有机物混合物自动分类

文摘   2024-10-12 11:10   新加坡  
点击订阅公众号 | 前沿学术成果每日更新               

           

第一作者:Seunghyeon Lee

通讯作者:Kyung Hwa Cho

DOI:https://doi.org/10.1016/j.watres.2023.120710


                 

                 

                 

                 

                 

                 

     

             
内容速览

               

文字摘要

为了对水体系统中的微塑料(MPs)进行分类,通常需要通过光谱分析进行多种预处理过程,例如,为去除微塑料上的天然有机物质(NOM)而采用的氧化过程,往往耗时且成本较高。此外,由于操作员的主观判断,识别过程容易出现误差。因此,在本研究中,我们应用深度学习(DL)技术,以提高微塑料与天然有机物混合物(MP-NOM)分类的准确性。我们采用了一种基于卷积神经网络(CNN)的深度学习模型,并结合空间注意力机制,通过拉曼光谱对物质进行分类。随后,将分类结果与传统拉曼光谱库软件的结果进行比较,以评估该模型的适用性。此外,我们通过应用梯度加权类激活映射(Grad-CAM)作为后处理技术,研究了训练深度学习模型的关键光谱波段。结果显示,该模型的分类准确率达到99.54%,远高于拉曼光谱库软件的31.44%。Grad-CAM分析进一步验证了该深度学习模型能够有效识别拉曼光谱中微塑料的显著峰值。此外,通过追踪独特的光谱特征,而不仅仅依赖于视觉上显著的峰值,我们能够准确分类那些峰值不太显著但具有高强度标准偏差的微塑料。这些发现表明,在无需进行NOM预处理的情况下,实现微塑料的自动化和客观分类是可行的,这为未来微塑料分类研究指明了一个有前途的方向。

图片摘要

Highlights

  • 深度学习模型的准确性超过了拉曼光谱库。

  • 深度学习模型在不去除天然有机物的情况下分类(微塑料与自然有机物)混合物。

  • 深度学习模型客观地自动分类了微塑料的拉曼光谱。

  • 后处理技术自动可视化了影响分类的光谱波段。

关键字:

Deep learning model; Raman spectrum; Microplastics; Natural organic matter; Automatic identification


               

               

               

               

               

               

               
研究背景

                   
量化MPs对污染的贡献并追踪污染源面临的重大挑战之一是难以识别MPs粒子类型。水中的天然有机物(NOM)往往会粘附在MP的表面,因此需要进行预处理(如氧化)以去除NOM,这增加了分析的时间和成本。缺乏标准化的MPs NOM去除方案,已成为开发快速分析MP的通用系统的重大挑战。因此,必须开发替代性和创新性的方法来表征MPs,以克服NOM存在所带来的挑战。在现有技术中,傅里叶变换红外光谱(FTIR)和拉曼光谱通常用于基于化学成分识别MP类型。采用相似性计算算法的商业拉曼光谱光谱库已被开发,用于根据累积数据为输入光谱匹配潜在的物质。然而,对于MPs来说,排名靠前的候选物质得分往往差异不大。因此,在使用光谱库对MPs进行分类时,可能需要进行主观判断,除非某个候选物质的相似度得分明显高于其他物质。
而在该研究中,作者开发了一种基于深度学习的客观自动化方法,通过纯物质及其与NOM混合物的拉曼光谱来识别MP。作者使用了卷积神经网络(CNN)模型,这种模型已被证明具有快速且独立的学习能力,与其他深度学习模型相比表现更为优异。为验证DL模型的性能,作者将基于CNN的DL模型与传统的拉曼光谱库在MPs分类中的表现进行了比较。此外,通过引入空间注意机制,进一步增强了DL模型的性能,使其在学习过程中能够关注光谱中关键的空间区域。该研究的目的如下:1)从拉曼光谱数据库中分析MPs、NOM及其混合物(MP-NOM)的特征峰;2)评估CNN模型在物质分类方面的性能;3)基于模型的分类结果,探讨不同光谱波段在拉曼光谱中的相对重要性。

               

               

               

               

               

               

               
模型方法

                   
基础的拉曼实验
图 1(a) 展示了在开发所提出的深度学习(DL) 模型之前使用拉曼设备进行的实验的三个步骤:
  • 首先,选择目标微塑料和天然有机物并将其制备为拉曼光谱测量的样品。

  • 随后,从制备的样品中获取拉曼光谱数据并将其用作 DL 模型的输入数据。

  • 最后,使用拉曼光谱库进行 MP 分类以生成比较组,以验证 DL 模型的性能。

图1 使用所提深度学习模型对微塑料、天然有机物及其混合物进行分类的流程: (a) 拉曼实验。(b) 卷积神经网络与空间注意力层的结构。(c) 空间注意力层的结构。(d) 梯度加权类激活映射的结构。

数据集收集
如图 2,作者为MPs、NOM及其混合物获取了五张光学图像,并使用拉曼显微镜确定它们的形态结构。随后,从每个制备样本的五张光学图像中选择了十个像素,并使用共焦拉曼光谱技术提取光谱。通过为每种物质提取50个光谱,总共获取了29种物质的1450个光谱。为了满足DL 算法对数值数据的要求,为本研究中使用的所有 29 种物质(即 5 种微塑料、4 种天然有机物和 20 种微塑料和天然有机物的混合物)分配了从 1 到 29 的数字作为标签。最后,将 1450 个拉曼光谱数据点分为训练和验证数据集。具体而言,每种物质 50 个拉曼光谱被随机分成 35 个光谱(70%)用于训练,15 个光谱(30%)用于验证。

图2.拉曼光谱仪中微塑料,天然有机物和自然有机物的混合物的光学图像示例:(a)聚苯乙烯,(b)腐殖酸钠盐和(c)多苯二酚和腐殖酸的混合物钠盐。红色标记代表选择获得拉曼光谱的像素。
深度学习模型的结构
在该研究中,使用了一个 convolutional neural network (CNN) 模型,该模型包含两个 convolutional layers、两个 batch normalization layers、三个 rectified linear unit (ReLU) 层、一个 max pooling layer、两个 dropout layers、两个 fully connected layers 和一个 softmax layer(图1b)。
  • Convolutional layers 使用滤波器在输入数据上移动以提取重要特征。
  • Batch normalization 用于通过设置更高的学习率来提高训练效率)。
  • ReLU layer 是一种典型的激活函数,如果输入值为正或零,则输出该输入值;如果输入值为负,则输出零。它可以缓解梯度消失问题,从而防止训练数据收敛到特定值。
  • Max pooling layer 在提取批次中最重要的值的同时减少了层的大小。Dropout layer 在训练神经网络时随机中断训练,防止学习偏向某些特定值。
  • Fully connected layer 映射并计算通过前几层提取的所有特征。
  • 最后,softmax layer 将前面的 fully connected layers 计算得到的向量作为输入,并输出输入数据属于29个类别中的每一个类别的估计概率。

为了增强模型的性能,作者在 CNN 模型中加入了一个 spatial attention module(图1c)

深度学习模型结果解释

该研究中使用了 gradient-weighted class activation mapping (Grad-CAM),以量化显著影响分类结果的光谱成分,并解释具有相似形状的光谱为何会被分类为不同的物质(图1d)。因此,获得了一个带有 Grad-CAM 机制的 CNN 模型,该模型为决策过程提供了视觉解释。


               

               

               

               

               

               

               
研究结果

                   

本文提出的卷积神经网络模型被证实能够产生客观分类结果的能力,其准确率明显高于光谱库

图 4.使用光谱库对物质进行分类的热图结果仅显示库中建议候选物中排名前三的结果。x 轴和 y 轴分别代表 50 个光谱和 29 种物质。蓝色条表示拉曼光谱库识别该物质的排名;颜色越深,排名越高。物质名称中的红色和黑色分别代表微塑料和天然有机物。

图 5。使用深度学习模型正确分类输入光谱的概热图x 轴和 y 轴分别代表 50 个光谱和 29 种物质。右侧的彩色条表示预测概率。蓝色越深,表示预测光谱的概率越高,而蓝色越浅,则表示预测概率越低。

 使用 Grad-CAM 解释 DL 模型

图7.使用深度学习模型对微塑料混合物和天然有机物进行分类时,通过Grad-CAM得到的显著光谱带:(a)聚苯乙烯/海藻酸钠盐,(b)聚苯乙烯/单宁酸,(c)聚乙烯/牛血清白蛋白,(d)聚乙烯/海藻酸钠盐。蓝色条表示相对重要性;颜色越深,重要性越高。红色向下箭头表示峰值。黑线和红色箭头代表每种物质的平均拉曼光谱和特征峰。

文献信息             
:5              

点击“原文链接”,查看论文


               

               

声明:本公众号分享的前沿学术成果来源于各学术网站,不依法享有其所有权。若原作者发现本次分享中的文字及图片涉及侵权,请立刻联系公众号后台或发送邮件,我们将及时修改或删除!         

邮箱:environmodel@sina.com         

若您认为有用,欢迎

Environmodel设为星标,或

点击“在看”或“分享”给他人


Environmodel
Environmodel(环境模型)专注于环境科学与工程领域的建模及模型研究进展,并分享涵盖机器学习、深度学习以及人工智能等相关领域的理论知识、主流工具和Python编程技巧。
 最新文章