基于深度学习的野生动物图像识别研究综述
杨拂晓1 费 龙1 闫泰辰2
(1. 长春师范大学 地理科学学院, 吉林 长春 130032;2. 吉林省林业勘察设计研究院, 吉林 长春 130022)
[摘 要] 国家对生态文明建设重视程度的不断加深及计算机能力的重大突破,为实现更高效准确的野生动物图像识别提供了新的契机,基于计算机视觉的深度学习(DL)技术在图像识别领域发挥出巨大的优势。将深度学习算法应用于野生动物图像识别中可以捕捉到更加细致准确的野生动物信息,可以更好地帮助管理者对野生动物进行识别与监测,保护生态环境与物种多样性。本文从公开数据集与野外数据采集两方面入手,剖析了深度学习的研究现状,介绍了深度学习算法在野生动物图像识别上的研究进展,重点介绍区域卷积神经网络(R-CNN)、YOLO系列算法的现状,旨在为更高效的野生动物图像识别提供理论依据,为图像识别提供新的思路。
[关键词] 深度学习(DL);卷积神经网络(CNN);野生动物;图像识别
0 引言
野生动物是构成生物多样性的重要类群,具有调控生态系统结构和功能、维持生态健康稳定的作用[1],研究野生动物活动对物种保护及生态环境建设有着重要意义。随着计算机视觉领域的突破,一种借助于计算机软硬件对特定目标进行处理与分析的动物图像识别技术得到迅猛发展,为实现更高效的野生动物保护提供了契机。目前,电子设备的应用越来越普遍,相机监控设备也已经大规模普及,使得野生动物图像获取的成本越来越低,图像信息越来越准确,同时图像数据量也从单一变成海量。然而,野生动物的监测需要获取广域森林中长时间的数据,由于复杂的野外自然环境以及野生动物活动的随机性等原因,采集到的野生动物图像中会出现许多无效的特征图像[2],如何快速、高效地从海量数据集中识别有效监测物种目标信息成为当前动物保护亟待解决的重要问题。
野生动物监测方法目前主要为接触法与非接触法。以人工调查为主的接触式法需要投入大量的人力,从而保证结果的可靠性,不可避免地会干扰被监测动物的正常生活轨迹。非接触法主要为基于声音检测与基于影像分析的检测方法,其具有全天候监测、成本低、包含信息量大等明显优势,成为研究者主要的动物数据集获取方式。史春妹等[3]以东北虎林园为研究区,实现虎个体的自动识别。邵全勤[4]借助无人机航测技术实现野生动物空中监测,该方法受外界干扰因素影响小,但技术仍需继续完善。在过去的几十年间,以贝叶斯分类法、反向传播算法为代表的机器学习图像识别技术在面临海量图像数据时表现不佳。Hinton[5]在《Science》首次提出深度学习(deep learning,DL)的思想,引起了学术界的广泛关注。深度学习模拟人脑思考过程,对图像内容的理解转换为低层特征语义,极大地提高了图像识别的准确率。近年来以卷积神经网络(convolutional neural networks,CNN)为代表的深度学习技术对图像的识别与分析处理能力越来越强,为海量数据集的识别提供了新的方式,节省了研究者的大量时间与精力。目前,基于深度学习的识别算法主要有区域卷积神经网络(region-based convolutional neural networks,RCNN)及YOLO 系列,于意[6]借助YOLO 算法改进山羊检测精度问题;张宏鸣等[7]实现肉牛的识别跟踪;马光凯等[8]研究圈养东北虎群体的个体识别,为虎幼崽的健康及保护提供了技术支撑。开展重要地区野生动物保护工作在一定程度上改善了濒危物种的生存状况,但由于诸多客观问题的存在,需要进行更深入的监测与识别工作。
通过野生动物种类识别、活动轨迹跟踪等途径获得信息,对野生动物保护具有更强的针对性与更明确的方向性。本文将结合深度学习算法最新研究成果,从公开数据集与野外采集数据两方面入手,论述适用于动物识别场景的数据集选取;介绍当前主流算法在野生动物图像识别上的优缺点,为更高效的野生动物图像识别提供可能,更为改进野生动物图像识别拓展思路。
1 野生动物数据集获取方法
数据集对于识别算法的训练、评估至关重要。在海量数据集中获取合适的图像作为训练样本是识别精度的前期保障,并且权威的数据集更是衡量不同算法优劣的标准[9]。目前,野生动物数据集主要包括公开数据集和野外采集数据。
1.1 公开数据集
获取公开数据集可以减轻研究者的工作强度。由Alex Krizhevsky 收集的CIFAR(Canadian Institute for Advanced Research)数据集[10],目前被广泛运用于动物图像识别领域。CIFAR 是一种开源数据集,包括CIFAR-10 和CIFAR-100 两类数据集。CIFAR10 数据集共包含bird(鸟)、deer(鹿)、horse(马)等在内的动物图像。数据集在没有数据增强的情况下,仍有着不错的训练精度。CIFAR100 数据集与CIFAR10 数据集较相似,不同之处在于它含有20个精细标签,类型划分得更为全面精准。赵婷婷等[11]基于改进的CIFAR-10数据集对金钱豹进行目标识别,并且结合CIFAR-10 深度学习模型,采用多种池化的方式的组合训练,最终得到的模型识别精度可达到99.3%,有效地识别了金钱豹的个体。
COCO(Common Objects in COntext)数据集是与CIFAR 相类似的又一数据集,被学者们偏向于YOLO算法的训练。COCO数据集是一个大型的、包含种类齐全的字幕数据集,在动物图像识别中,提供了包括giraffe(长颈鹿)、zebra(斑马)、bear(熊)等多种动物类别。张宁等[12]为解决基于深度学习的小目标检测问题,以COCO 数据为实验数据集进行验证;COCO数据集被设计用于发生在自然环境中的目标检测,针对小目标物体较难识别。
CIFAR 数据集与COCO 数据集主要是搜集者通过网络爬取方式统计的动物图像数据,缺少了野生动物真实背景信息。Alexandra 等人[13]在坦桑尼亚的Serengeti 国家公园布设相机,用于采集该区域内的野生动物活动踪迹,在2015 年公开Snapshot Serengeti 相机图像数据集(简称SS 数据集)。SS 数据集约90 万张野生动物图像,均为纯自然背景下相机触发拍摄下的照片。研究者通过共享SS数据集图像标记图像的物种类别、个体数量及行为属性等,最后合并成“共识标签”而实现图像分类的一致性度量。这种共识分类标签及原始动物图像数据集为深度学习在野生动物识别上的研究提供了宝贵的资源。
1.2 红外相机野外采集数据
红外线是自然界存在的最为广泛的辐射,所有温度在绝对零度以上的物体都会发出红外线。随着电子设备的发展,一种采用定性与定量相结合的非损伤性的自动感应红外相机技术在野生动物保护中发挥了重要作用[14]。其红外相机的工作原理是通过热传感器探测目标的红外辐射,通过信号处理和光电转换的方式将监测目标的温度分布图像转换成图像,在监测濒危野生动物活动研究中起到了重要作用[15]。红外相机可以不间断地在野外持续工作,自动感应野生动物的行为,极大地增强了数据获取的安全性及可靠程度,弥补了研究人员对真实环境认知的不足[16]。
目前我国借助红外相机记录的兽类超过100 种,红外相机技术在调查兽类及鸟类本底资源中具有重要价值。北京师范大学团队以东北虎豹国家公园为研究区利用红外相机进行了长达10年的野生动物信息获取,并尝试构建更完善的实时动物检测系统。赵国静等[17]以红外相机捕捉的野生动物视频作为数据集,识别昼夜条件下野猪的活动情况。杨光美等[18]利用红外相机数据对贵州山地环境下野猪活动进行研究,实现了野生动物真实复杂生活背景下的识别,且精度较高。李生强等[19]在弄岗森林动态监测样地布设35 台红外相机,对兽类及鸟类资源进行长时序监测,为保护区的有效图像识别提供了大量数据支持。
2 图像识别的深度学习网络模型
深度学习是机器学习的一个子集,近年来深度学习技术的突飞猛进,为实现精细化的动物图像识别提供了可能。目前大家所熟悉的深度学习基本上是“深度神经网络”的代名词,而早期的神经网络可以追溯到20 世纪40 年代,研究者将深度学习分为三个阶段。直到深度信念网络的提出,在性能上碾压了风光已久的支持向量机(support vector machine,SVM),使深度学习正式脱离萌芽期进入发展期。但是深入研究发现,随着神经网络层数的加深,出现梯度爆炸或者梯度消失的问题越来越明显。除了层数的限制,参数过多也成为神经网络的问题之一。2012 年Hilton 教授的学生提出的AlexNet[20]模型在ImageNet 竞赛上取得冠军,从此深度学习和卷积神经网络得到迅猛发展。目前,深度学习的神经网络模型主要包括四种,如表1所示。
表1 深度学习模型
在众多深度学习模型中,卷积神经网络凭借局部连接、权值共享在图像识别领域中脱颖而出。其基本结构包括卷积层、激活层、池化层和全连接层。通过卷积层的运算,将原始图像转换到超平面坐标系下来集中同类图像,在一定的网络训练后得到新的图像。进一步在池化层对图像进行压缩,以此达到缩小数据的空间尺寸、减少参数参量、提高计算效率的效果。最后在全连接层把卷积输出的二维特征图转换为一维的向量,以提高特征提取的纯度,实现图像分类高效性。
近年来,随着卷积神经网络的性能不断提升,其在野生动物图像识别应用上有着较高的准确率。针对现有的野生动物图像数据集存在的复杂背景、昼夜识别、分布不均衡等问题,以R-CNN、YOLO 系列网络结构为代表的深度学习算法具备更高的性能来提高物种的识别率。本文通过分析当前深度学习算法的研究现状,为得出更高效适用的野生动物识别算法提供新的思路。
3 基于深度学习的野生动物图像识别算法概述
野生动物监测的研究重点是复杂背景下的种类识别及海量数据下的高效识别,在进行野生动物信息监测时,需要对物种种类进行分类,实现端到端的识别。基于深度学习的野生动物目标识别网络主要划分为两类框架:双阶段系列与单阶段系列。双阶段框架通过区域候选网络(region proposal network,RPN)生成区域建议,对区域位置进行精细调整,精度较高但检测速度较慢;单阶段框架则直接预测野生动物的类别概率和空间信息,准确度相对较低,但速度更快。目前主流的深度学习动物识别算法为以R-CNN 系列为代表的双阶段算法及以YOLO系列为代表的单阶段检测算法。
3.1 R-CNN系列算法
在卷积神经网络中,基于分类思想的两步式检测器思路被应用于图像识别中,有着良好效果。其网络结构如图1 所示。Girshick 等人[21]提出的R-CNN 被学者应用于目标检测研究。
图1 R-CNN识别动物图像网络结构
当一张图像同时有多个类别目标或目标与背景相近时,需要从背景中识别出感兴趣目标,进而确定识别目标的物种类别、空间位置、活动信息等。在卷积神经网络上增加感兴趣区的R-CNN 很好地解决了这一问题。R-CNN 算法主要将输入图片中可能存在的物体框选为固定大小并输入至CNN 网络模型中,得到固定维度的特征输出并通过获取的图片特征完成分类。
在R-CNN 算法中,Faster R-CNN 在精度上表现更加突出,通过引入区域建议网络RPN 实现了检测速度的提升。但随着研究的展开,其算法存在训练过程中需要的内存空间大、训练和检测速度慢等问题[22]。He[23]针对R-CNN 处理速度慢的问题,提出了空间金字塔池化(spatial pyramid pooling,SPP)模型,在当时取得了较好的成绩,但在微调阶段,SPP只能更新空间金字塔池化层后的全连接层,而不能更新卷积层,这限制了检测性能的提升。2015 年,Ren[24]提出了Faster R-CNN 算法,该算法采用区域建议网络直接对特征图像提取候选区,经过感兴趣区域(region of interest,ROI)层生成固定大小的特征向量后进行分类识别。该算法解决了R-CNN耗时长、计算冗余等问题。
Norouzzadeh[25]对48 个野生物种进行识别并对其行为特征进行分析。Dai 等[26]针对分类网络与检测网络之间的位置敏感性矛盾提出了改进的R-FCN 算法。Cai等[27]提出多阶段检测架构的Cascade RCNN 算法。2022 年,常莉莉等[28]基于遥感数据及改进Faster R-CNN 进行了码头的自动识别,实现了可复杂背景下地物的识别。针对个体识别精度效果提升的问题,刘文定等[29]基于塞罕乌拉国家级自然保护区陆生野生动物数据集测试了视觉几何组(visual geometry group,VGG)模型,提出了基于全局和局部的双通道野生动物自动识别方法,并且设计了VGG16、R-CNN 算法之间的对比。实验结果表明,采用VGG16卷积网络的测试精确度达90%,对特定地区的动物有着较好的识别效果。龚建伟等[30]构建了轻量级VGG+模型,相对于传统的VGG-16而言,训练速度和准确率得到了明显提升。轻便型的VGG 网络模型可以较好地满足智慧农业、智慧园区等行业的需求,为构建更轻量级的研究提供了思路和帮助。
3.2 YOLO系列算法
YOLO 算法是Redmon 等人[31]于2015 年提出的基于单个神经网络的目标检测算法,网络结构借鉴了GoogLeNet,具有模型小、速度快、定位精准等突出特点[32]。YOLO 算法网络结构图如图2 所示。YOLO 算法解决了Faster R-CNN 算法无法满足实时性的要求的问题,它对输入的图像进行网格划分,并且计算每个存在目标物体的网格的置信度及分类概率,并通过阈值去除无效信息。
图2 YOLO算法网络结构
为在资源受限平台上实时准确地实现密集、海量野生动物图像自动识别,解决野生动物监测过程中数据传输负载重、时效性弱等问题,2019年宫一男等[33]以东北虎豹国家公园为例,应用深度学习YOLOv3模型及红外相机影像微调方法实现了东北虎豹国家公园区域的RGB 图像和红外图像的8 种野生动物物种的检测与识别,虽然一定程度上有着较高的准确率且减轻人力负担,但是效果仍需通过完善数据集进行提升且模型内敛。杨明纶等[34]基于YOLOv5 模型,分析模型在复杂背景干扰下的识别效果,其轻量化的模型性能优越,为在资源受限的平台上进行野生动物实时识别提供了契机。
随着YOLO 系列V1-V5 版本的更替,其模型计算量降低但检测精度有待提高。谢琳等[35]利用关键帧提取算法对青海湖海量的野生动物视频监控数据进行图像提取,对关键帧提取的图像信息进行图像检测。陈建促等[36]借助互信息熵来表征连续图像帧之间的关系,实现野生动物视频流的检测与识别。王越等[37]更新视频帧的时间序列关系,大大提高了野生动物动态识别精度。
研究发现,YOLO 算法针对小目标物体和距离较近物体识别效果较差。并且由于损失函数的问题,定位误差是影响检测效果的主要因素,在小目标物体识别中仍需加强。
4 结束语
尽管深度学习在图像识别领域应用比较广泛,但它仍有巨大的发展空间,同时存在诸多问题需要研究者进一步解决。
1)在动物图像识别和目标检测中趋向使用更大更深的网络结构,需要训练大量参数提取图片特征,但更深的网络结构使得反向传播更加困难,其数据集规模也成倍增加。深度学习较依赖于数据集,当训练数据不完整时,模型结构不足以维持较高的准确率。为了完善图像识别技术,需要不断地探索更好的网络结构及更适用的参数,以此来提高深度学习在野生动物图像识别上的高效性。
2)与静态图像识别相比,深度学习在视频图像目标检测中的应用仍未成熟。针对视频类型的数据集其计算量会远远超过其他类型数据集,需要占用大量的运行时间与计算机存储内存。因此,学者需要进一步研究适用于动态图像识别的深度学习模型。
3)当野生动物距离相机较近时,导致图像检测目标过小;或者当动物密集活动时,导致图像检测要素过多,而难以识别物种类别。并且由于野生动物生活背景比较复杂,树木遮挡、光线昏暗导致野生动物识别难度高。基于以上数据集的获取问题,需考虑复杂背景下野生动物的识别算法研究。
引文格式:杨拂晓,费龙,闫泰辰. 基于深度学习的野生动物图像识别研究综述[J]. 北京测绘,2024,38(9):1237-1242.
作者简介: 杨拂晓(1998—),男,安徽宿州人,硕士在读,研究方向为地图学与地理信息系统。
E-mail: YFX17790036102@163.com
通信作者: 费龙,E-mail:flyflylong@163.com