农业病虫害数据集建设现状与面临的挑战

学术   2024-07-31 21:58   北京  


本文引用格式

管博伦, 张立平, 朱静波, 李闰枚, 孔娟娟, 汪焱, 董伟. 农业病虫害图像数据集构建关键问题及评价方法综述[J]. 智慧农业(中英文), 2023, 5(3): 17-34. DOI: 10.12133/j.smartag.SA202306012

GUAN Bolun, ZHANG Liping, ZHU Jingbo, LI Runmei, KONG Juanjuan, WANG Yan, DONG Wei. The Key Issues and Evaluation Methods for Constructing Agricultural Pest and Disease Image Datasets: A Review[J]. Smart Agriculture, 2023, 5(3): 17-34. DOI: 10.12133/j.smartag.SA202306012

知网阅读全文

官网免费阅读全文

农业病虫害数据集建设现状

1 常见农业病虫害数据集

病虫害图像识别技术是深度学习中的图像识别算法在农业方面的应用,深度学习算法依赖于科学合理的数据集,算法对构建的数据集质量有一定的要求。一个标注准确、规模大小适当、种类样本均衡、高相关性的数据集对模型算法的训练和测试的准确性,以及实际使用的效果好坏能够起到举足轻重的作用。农业病虫害数据集主要来源方式有两种:一种是根据实际需求自己构建的私有数据集,其特征一般是包含病虫害种类较少、类间样本较多、图像质量高、标注正确性较高,但是不公开;另一种是网络上开源的公共数据集,其特征一般包含的病虫害种类较多、类间样本重复率高、图像质量较低、标注正确性较低,但是可以公开使用。表1为一些农业病虫害相关的数据集。

表1 不同农业病虫害数据集对比

Table 1 Comparison of different agricultural pest and disease datasets 

2 部分数据集中样本分布

由表1可以看到,病虫害数据集大多针对特定的实际需求而建立,种类较少、数据量较小的大多为私有数据集。农业病虫害数据集不同于常见的深度学习数据集,该数据集中的一些样本对象为生活中不常见的样本,样本对象往往较难寻找和采集。这些客观原因导致了数据集类内容量缺乏、类间缺乏多样性、类别不均衡等问题较突出,同时病虫害图像本身还具有目标小、遮挡和一张图像中目标对象密集分布等特点。

对部分开源的农业病虫害图像数据集的数据分布进行分析。参考相关统计量,选取了母体标准差、偏度系数、峰态系数三个统计量以及分辨率和标注信息进行样本分析,结果见表2。标准差可以反应数据的离散程度,由于表2中使用了数据集中的全部数据,所以计算的是母体标准差,偏度系数反应了数据的对称性,当其大于0时表明数据呈右偏,小于0时数据呈左偏,等于0时数据呈正态分布;峰态系数反应了一组数据峰值高低的特征,当其等于0时,表示数据接近于正态分布,峰态系数越低表明数据分布越平坦。根据美国电影电视工程师协会指定的高等级高清数字电视格式标准,可将图像分辨率指标分为:1080P以上的大分辨率,720—1080P的中分辨率,以及720P以下的小分辨率。

表2 部分病虫害公开数据集分析结果

Table 2 Analysis results of some public datasets of diseases and pests 

由表2可以看到,在公开数据集中,母体标准差相对较大,尤其是样本容量和类别数较多的数据集有着更大的母体标准差,表明该数据集不同类别间样本容量离散程度较大,不同类别间的样本数量有较大的差距;由偏度系数可以看出,大多数据集存在长尾的现象,类内样本容量的均值在峰值的右边,呈不对称分布;从数据的峰态系数可以看到,IP102和Plant Village数据集的峰值更加集中,个别类别中样本容量较多,其他数据集的峰值呈平顶峰分布较为分散,类间的样本容量分布也较平缓;图像分辨率也是影响算法性能的重要因素之一,通过分析分辨率可以看到,较多的公开数据集中图像的分辨率相对较低,较低的分辨率会带来较小的模型计算量(FLOPs),减轻计算负担,但同时也会降低算法精度。由这些因素演化而来的问题都会对算法性能产生影响,因此,总结农业病虫害图像数据集构建过程中的问题并分析问题产生的原因将有利于算法性能的提升。

3 构建农业病虫害数据集面临的问题与挑战

在农业病虫害识别和监测预警技术的发展过程中,农业病虫害数据集起着至关重要的作用。农业病虫害数据集经历了从单一病虫害、单一作物到多病虫害、多作物的发展历程,样本数量也从几百幅图像到上万张图像。然而在病虫害数据集的构建过程中,存在一些问题导致该领域缺乏高质量的数据集,影响了农业病虫害识别技术的发展和应用。根据表1和表2中常见的数据集以及类间样本分布情况,农业病虫害数据集构建所面临的问题与挑战总结为三个层次:分别是数据集层次,数据样本层次和使用层次,如图1所示。

图1 农业病虫害图像数据集构建面临的挑战

Fig.1 Challenges in constructing agricultural pest and disease image datasets 

3.1 数据集层面上类别不均衡

数据集层次中的类别不均衡表现在三个方面,类内差距、类间差距和数据集分布一致性。类内差距较大,指的是属于同一类别的图像具有较大差距的外表特征,如图2(a)所示,同样种类的害虫,却有着不一样的外观特征。类间差距较小,指的是属于不同类别的图像具有较小的外表特征,如图2(b)所示,不同种类的害虫有着相似的外观。因为部分害虫虽然外观相似,但是其足、雌雄外生殖器、卵和幼虫形态、化石形态等差异较大导致其属于不同的类别。

图2 不合理数据的类间和类内差距

Fig.2 Inter class and intra class differences of unreasonable date 

数据集分布指的是不同类别内的害虫,图像样本的数量以及相同样本的信息量分布一致。类别不均衡和同样的样本数量下携带的信息量不均衡都称之为不均衡数据集。图像识别深度学习算法需要大量的高质量数据的支持,农业病虫害数据集受到客观条件的影响,高质量的样本十分缺乏。一方面是受到自然环境的影响,有一些农业病虫害原始图像数据的获取十分困难,另一方面是对同一病虫害个体采集的数据过多,导致原始图像数据过于相似,如图3所示。

图3 整体相似的图像

Fig. 3 Overall similar images 

数据集应当满足不同类别内的数据量分布一致,较小的类间差距、较大的类内差距以及不均衡的数据集都属于数据集层次的问题,会对算法的训练结果带来一些较为严重的影响。

(1)过拟合。当数据集中的样本图像数量较小时,模型容易产生过拟合的现象,如果数据集中的大多数样本较为集中在某几个类别中时,深度的训练导致模型过拟合,模型会出现在含有样本容量较少的类中表现较差,模型的鲁棒性和泛化能力较差。

(2)域偏移。指在大规模训练集上训练的模型在应用于具有不同统计量的目标数据集时表现不好,当源数据样本较少时,模型往往会根据数据基类中的大规模数据来提取通用特征。当目标数据集中的样本较少时,源数据集往往会与目标数据集存在较大的差异,两个数据集之间公共的特征较少。

(3)数据分布较差。当数据集中图像样本的数量偏少时,会导致数据偏差和分布偏差的问题。较少的训练样本在一定程度上会放大噪声的影响,可能会使类内样本间的距离偏大,而类间的图像样本距离偏小,同时较小的样本数量使得模型无法准确、完整的表示样本数据的真实分布,目标对象与背景相互影响,从而降低模型的准确率。为了解决不均衡数据集对模型性能的影响,有专家提出使用欧拉距离、交集距离和二次方距离度量图像间的颜色特征(Hue,Staturation,Value,HSV)和纹理特征(Local Binary Pattern,LBP)直方图,进行相似性判断,过滤掉相似度较高的图像。He等采用几何增强的方式增加图像数据的数量,包括翻转、裁减、缩放、变形等,达到数据集种类平衡。Chodey和Noorullah Shariff采用了强度增强的方式,包括指数变换、对数变换、线性变换等方式扩充数据。范馨月等对长尾数据集采用基于目标尺度的方法进行数据增强,增加小样本的数量,对其进行重采样。部分学者通过增加数据集中小目标和密集样本的数量和改进识别算法,增强了提取小目标和密集样本特征的能力。

3.2 样本层面上样本特征提取困难

受到农业实际应用场景及拍摄者主观因素的影响,采集到的图像中的目标对象往往具有目标过小、目标过大、目标密集、目标间遮挡、图像部分模糊和分辨率过大或过小等特点。如图4所示。

图4 在样本层次上不同特征的图像

Fig. 4 Images with different features at the sample level 

数据集中目标在图像中的尺度变化范围较大,给检测和识别带来了许多难点。Li等通过图像中的目标与图像比例来衡量图像的复杂度,认为比例越小,图像越复杂,其包含的本身特征较少并且包含的背景噪声较多,容易受到噪声的影响。在模型的卷积层提取特征信息时,随着层次的加深,会导致特征信息的丢失,中浅层神经网络能够较好地提取到小目标的特征,而大目标的特征需要深层次的神经网络模型进行提取。但是大目标与小目标间的差距过大,在神经网络加深的过程中可能导致模型对图像中的小目标出现漏检的现象。密集和遮挡的目标对象会导致特征提取不完整,遮挡较多的目标也可能出现漏检的现象,同时被遮挡物分割为多段的目标也难以判断是否属于同一目标。

图像中目标模糊也是影响图像质量的主要因素。在拍摄过程中,使用微距镜头易受到人为或者景深的影响导致图像出现部分模糊,或者全部模糊的情况。模糊的部分可能导致模型提取到目标的部分特征丢失,如图4(b)所示。不同的光照和不同的图像分辨率对目标检测和识别也有着较大的影响。如图4(f)所示,左边为强光下的图像,右边为自然光较弱的环境下拍摄的图像,其图像特征有着明显的不同。从图4(f)可以看到强光环境下,害虫的色彩饱和度增加了,背部的细节轮廓也较为明显,有利于算法对特征的提取。而弱光的环境下,图像整体偏暗,背部的细节特征较难分辨,甚至部分区域的颜色区分度不高,影响算法对特征的提取。

在病虫害图像识别任务中,病虫害的背景也有一定的规律。在自然环境下的病虫害图像背景往往是作物的茎叶和土地,而实验环境中拍摄到的图像背景往往过于单一,相对于实验环境中的背景目标,大田环境中的图像识别难度更高,如图5所示。图像中的背景单一或者目标尺寸过大可理解为图像复杂度过低,Borji等通过计算图像的熵来衡量一幅图像的复杂度,熵值高的图像通常由更多的物体和更多的纹理构成,熵值越高,图像复杂度越高。

图5 不同背景的害虫样本图像

Fig. 5 Pest sample images with different backgrounds 

图像的分辨率对算法识别结果的影响也不可忽略,较高的图像分辨率虽然需要更多的内存空间来进行训练,但是其包含的特征信息也更多。而较低的图像分辨率会导致模型在下采样时丢失很多特征信息,影响算法的准确率。目前,大部分算法在提取特征前会对图像进行resize处理,将图像不同的分辨率缩小或者增大到一个固定的值。在缩放操作时可能会导致目标出现模糊的情况,也会影响算法的识别结果。

3.3 使用层面上数据集规模和分布一致性难以衡量

数据集使用层面的挑战来自于数据集的规模、可用性、训练样本和测试样本分布一致性等问题。计算机视觉的迅猛发展离不开大规模标签数据的产生。Sun等通过实验证实,在3亿张样本图像的情况下,抑制单个样本的噪声和扩大与数据集匹配的模型深度后,随着数据集规模的增大,视觉任务模型的性能也随之得到提升。计算机视觉任务常用的MSCOCO公共数据集具有80个类别,分别包含118,287个训练样本、5000个验证样本和40,670个测试样本。从表1可以看到与MSCOCO数据集相比,农业病虫害图像数据集规模还有待进一步扩大。在农业病虫害识别检测任务中,数据集的可用性往往是首先考虑的因素,具体指的是数据集是否方便地获取和使用。部分农业病虫害图像数据集属于私有数据集,不方便获取,给相关检测识别任务带来了获取难度;部分公开的数据集中图像的标注准确性较差,含有噪声较多,也增加了相关检测识别任务的使用难度。

模型评估的默认假设前提是训练数据样本和测试数据样本的分布形式具有一致性,研究者应当重视该领域中的数据分布一致性问题,但实际应用中却往往容易忽视。训练数据和测试数据的分布一致性是指在度量方法下度量的训练和测试数据分布的一致性,主要由于选择偏差引起,农业病虫害图像数据采集的难度导致了在数据集的构建过程中容易在训练样本和测试样本上出现分布差异,这种差异主要体现在选择偏差上。数据偏差可能导致识别模型的泛化能力下降、模型中的有偏估计等,因此训练和测试数据分布的一致性至关重要。图像中的偏差问题很大程度上已经影响了图像识别算法的实际使用效果,有专家认为数据集的偏差主要来自于原始图片的采集与标注,将采集与标注分开进行可以避免设计上的偏差。Bylinskii等提出要充分理解和利用现有带有偏差的数据集,并且根据实际项目任务的需要,去处理和构建基准数据集。数据集中图像样本的选择偏差和复杂度是构建数据集时要考虑的两个方面,需要通过定量进行分析,Borji等通过平均主视图(Average Annotation Map,AAM)的方法来进行评价,它将数据集中所有的标注图用伪彩色图进行表示,颜色较深越靠近图像中央的区域表明该图像的选择偏差越大。Fan等使用目标轮廓中心到图像中心的距离归一化(Normalized Object Distance from Image Center,NOD)来度量中心偏差,该归一化距离等于目标轮廓的中心到图像中心的距离除以整张图像对角线长度的一半,距离越小表明图像选择偏差越严重。

在实验环境中采集到的训练数据集中,农业害虫样本图像目标显著性较强、图像背景较为简单、光线单一,而实际测试使用环境中的图像却存在背景复杂、光线多变等因素。这些偏差都会导致训练和测试数据集分布的差异,从而影响模型的使用性能。




推荐阅读


何雄奎教授团队:果园自主导航兼自动对靶喷雾机器人(《智慧农业(中英文)》2022年第3期)


吕晓兰研究员团队:基于改进Ghost-YOLOv5s-BiFPN算法检测梨树花序(《智慧农业(中英文)》2022年第3期)


彭彦昆教授团队:可移动式苹果内部品质果园产地分级系统(《智慧农业(中英文)》2022年第3期)





智慧农业微信交流服务群

为方便农业科学领域读者、作者和审稿专家学术交流,促进智慧农业发展,为更好地服务广大读者、作者和审稿人,编辑部建立了微信交流服务群,有关专业领域内的问题讨论、投稿相关的问题均可在群里咨询。入群方法:加小编微信331760296备注:姓名、单位、研究方向,小编拉您进群,机构营销广告人员勿扰。

发布征集







欢迎在我公众号发布科研团队介绍、创新科研成果及相关活动等信息。

智慧农业期刊
《智慧农业(中英文)》是国内外公开发行的农业科学类学术期刊。期刊聚焦农业信息技术发展前沿与热点,刊载和传播国内外最新研究成果,通过搭建高水平学术交流平台,引领学术研究方向,服务行业科学决策,培养高水平创新人才,促进学科发展。
 最新文章