人工智能在农业风险预测中的应用研究

学术   2024-08-23 21:19   北京  

本文节选自:

桂泽春, 赵思健. 人工智能在农业风险管理中的应用研究综述[J]. 智慧农业(中英文), 2023, 5(1): 82-98. doi:10.12133/j.smartag.SA202211004

GUI Zechun, ZHAO Sijian. Research Application of Artificial Intelligence in Agricultural Risk Management: A Review[J]. Smart Agriculture, 2023, 5(1): 82-98. doi:10.12133/j.smartag.SA202211004

官网全文免费阅读

知网阅读


人工智能在农业风险预测中的应用研究


农业风险主要来源于自然生产风险和市场风险,进行风险预测有助于人们提前采取恰当的行动和准备方案去应对风险因子以减少损失和降低风险。目前AI在风险预测中的应用主要以回归和分类算法为主,聚类和降维算法常作为数据预处理方法参与风险预测。AI通过学习输入变量到输出变量之间的映射关系,从而实现对非线性信息的拟合和对特征的学习,所以输入的农业风险变量本身的数据类型对使用AI进行风险预测有着重要影响作用。本节从常见数据、时序关联数据、图数据3种输入数据类型出发,介绍特定数据所适用的AI算法及其在农业风险预测中的应用(如图1所示),为之后的AI应用提供参考。

注: 支持向量机(Support Vector Machine,SVM)、循环神经网络(Recurrent Nerual Network,RNN)、长短期记忆网络(Long Short-Term Memory,LSTM)、图神经网络(Graph Nerual Network,GNN)、图卷积网络(Graph Convolutional Network,GCN)

图1   基于AI的农业风险预测过程

Fig. 1   Agricultural risk prediction process based on AI

1


常见数据及其适用算法应用

常见数据类型主要有两类,分别是连续型数据和离散型数据。连续型数据属于定量数据,具有连续属性,在定义域上有无穷多个可能的取值;离散型数据属于定性数据,具有离散属性,在定义域上具有有限个可能的取值。输入数据类型为常见数据的风险预测是农业风险预测的主要组成部分,同时其适用的预测算法也是多种多样的,其中最常用的模型是RF、神经网络、支持向量机(Support Vector Machine,SVM)、线性回归和梯度提升树,大多数研究通过对比使用各种机器学习模型来筛选出预测性能最好的模型。应用领域主要包括对农作物产量的预测、自然风险的预测和农产品市场风险预测等,应用方法以回归和分类为主,聚类和降维算法常作为数据预处理方法参与到风险预测中。

1.1 自然风险预测

自然风险是对农作物及牲畜生长造成破坏的主要因素。自然风险主要为水旱风险,而水文系统是复杂的,其特点是过程和事件的动态取决于各种直接因素(如气象和环境)和间接因素(如人类作用)之间的相互关联。对自然风险的预测有利于保障农民收入,保护国家粮食安全。

(1)干旱风险预测。使用遥感数据进行农业干旱特征描述和预测有助于提供大范围地理区域干旱状况的概况。Prodhan等通过多种遥感数据,如空间分辨率为500 m的MODIS(Moderate Resolution Imaging Spectroradiometer,中分辨率成像光谱仪)植被指数和空间分辨率为1 km的地表温度等,采用深度学习方法来对干旱灾害进行监测,其建模估计的年际变化土壤水分亏缺指数与原始的标准化降水蒸散指数几乎相似,验证了该方法在干旱检测中的适用性。然而针对干旱灾害的短期预测问题仍然具有挑战性,可以通过引入实时数据对预测结果进行修正。Park等利用从MODIS获取的空间分辨率为5 km的地表温度和归一化植被指数等遥感数据,使用实时多变量马登-朱利安振荡(Madden-Julian Oscillation,MJO)指数输入RF模型中进行预测,实验结果验证加入MJO变量的RF预测模型(平均R2 为0.7)要优于原始RF模型(平均R2为0.4)。

除了遥感数据之外,通过构建可以描述干旱的降水指数也可以增强模型的数据挖掘能力。Zhang等基于机器学习和深度学习模型,发现降水和土壤水分对干旱贡献较大,其中构建的归一化差别水分指数相对重要性高达50%。另外,将新的预测方法融合到机器学习模型中可以提高模型的学习能力。Li等将前期海面温度波动模式与机器学习技术结合,验证了其能有效预测干旱事件的时空演变。张建海等将差分整合移动平均自回归(Autoregressive Integrated Moving Average,ARIMA)模型与长短期记忆网络(Long Short-Term Memory,LSTM)相结合进行干旱预测,其预测结果的RMSE值低于只使用ARIMA算法进行预测,验证了ARIMA和LSTM的复合模型要优于单一ARIMA模型。

利用遥感技术可以更加迅速全面地监测环境信息,构建有效的降水指标可以更加准确地评估农作物干旱程度,两者都为使用AI建模提供了有效的输入信息量。

(2)洪涝风险预测。洪水灾害在全球范围内造成巨大的经济、社会和环境破坏,因此对水灾的预测可以降低自然风险对人类社会的影响。对比多种AI模型以及使用混合模型进行建模有助于提升模型预测表现。Venkatesan和Mahindrakar对比多种机器学习模型对短期洪水预测,采用纳什萨克利夫效率、百分比偏差、RMSE、R2四个指标作为模型评价指标,最终验证了极限梯度提升算法在预测精度上优于RF和SVM。Mirzaei等对比使用极端梯度提升算法和RF对洪水敏感性进行评估,AUC分别为0.985和0.980,同时采用RF算法评估变量的重要性,发现距河流的距离对洪水敏感性有重要影响。Tabbussum和Dar利用所有可用的训练算法对ANN、模糊逻辑、自适应神经模糊推理系统算法进行优化,开发出9种洪水预测模型,其中采用混合训练算法建立的自适应神经模糊推理系统性能指标最佳,R2为97.066%,MSE为0.00034,RMSE为0.018。

使用AI预测未来洪水预期状态及数值发现,随着预测时间的增加,机器学习模型的预测能力往往会下降。Zhang等分别使用四种AI算法——决策树、多层感知机、RF、SVM对陕西省三个典型流域进行逐小时洪水预报,随着预测提前期的增加,不同模型的性能差异很大,SVM模型整体稳定,对洪水预测具有明显优势,RF和决策树的预测性能随着提前期的增加缓慢下降,而多层感知机的性能随着提前期的增加迅速下降,稳定性较差。

由于不同模型及算法有其各自的数据挖掘能力及适用范围,将应用领域的专业知识或者模型与AI结合到一起,使用混合模型对风险进行预测和建模会有更好的效果。

1.2 生产风险预测

在农业生产经营中,牲畜容易受自身因素以及外界环境的影响导致个体患病,及时评估牲畜个体的身体条件、患病情况以及生产环境状态对于农业生产经营的持续健康发展意义重大。随着物联网技术和传感器技术的发展,当前对生产风险的预测常常会融合多源数据进行建模,从而实现对预测目标更加准确的状态预测。Ebrahimi等将通过电子在线检测监测系统所获得的奶牛的一些生理指标如乳糖浓度、电导率、蛋白质浓度等指标输入多种机器学习模型中实现对奶牛患乳腺炎的预测,其中梯度提升树模型预测效果最好,准确率达84.9%。Teixeira等使用LSTM模型对可穿戴传感器设备所获取的数据进行建模,实现对牛疾病的预测,准确性最高可达98%。

除了通过现代精密技术和仪器对生产目标进行客观描述,还可以通过人工检查来进一步为生产风险预测提供更多的信息量。Casella等基于机器自动和人工收集到的数据,使用成本优化价值法对特征进行选择,然后使用机器学习算法建模预测小奶牛呼吸系统疾病,结果表明在进行疾病诊断前5天对病牛的分类正确率达97%。考虑到在数据处理收集过程中会出现小样本问题,针对收集到的数据还可以使用生产对抗网络来扩展数据集从而增加数据量。Ahmed等使用物联网穿戴设备来识别家鸡的疾病和运动状态,通过生产对抗网络增加数据量,然后使用机器学习算法实现对病鸡的分类建模,实验结果表明其所提出的家禽疾病检测系统识别准确率达97%。

采用机器学习中的降维和聚类算法可以增强预测模型的鲁棒性和学习能力。如陈英义等使用主成分分析与LSTM的结合模型预测水产养殖水体溶解氧,试验表明该结合模型在评价指标上要优于传统的预测方法。郝玉莹等将RF和LSTM模型结合形成RF-LSTM算法实现对地表水体水质的预测,并将RF-LSTM算法与LSTM、RF-BPNN和RF-RNN模型进行对比,最终实验预测结果显示RF-LSTM改进算法要优于其他的算法,具有极高的预测精度和较强的泛化能力。

通过现代精密仪器和技术以及人工检查所获得的数据都为风险预测提供了有效的信息输入,有利于更加全面地对预测对象进行评估监测。增加多源有效信息的输入是提升AI预测准确度的重要方法。

1.3 市场风险预测

市场经济体制下成本和出售价格的波动性会导致农户遭受损失。对市场风险的预测包括对价格和未来预期市场状态的预测。目前针对市场风险预测的研究主要是选择相关因子再对比使用多种预测模型进行预测。由于AI目前还存在可解释性不足的问题,因此在实际建模中往往是通过对比多种算法进行预测,最后选择其中表现最好的模型。

Jha和Sinha使用ANN对大豆和油菜籽芥末的每月批发价格进行预测,在实证研究中证明了ANN模型的预测精度要优于线性模型。Paul等用广义神经网络、支持向量机回归、RF和ARIMA算法对蔬菜价格进行预测,发现广义神经网络具有相对较好的预测精度。还有结合使用多种AI算法对未来农产品价格和状态进行预测的研究。Zhang等使用29个变量刻画农产品价格特征,选用RF和SVM学习输入特征变量和候选模型间的潜在关系,采用最小冗余和最大相关法减少特征冗余以提高预测准确性,实验结果发现其所提出的预测模型优于所有候选模型。吕逸鹏和林旭东使用SVM、BPNN和XGBoost算法对生猪价格进行涨跌分类,BPNN-XGBoost的组合模型在价格涨跌分类中的正确率达到94.59%。许钰林等基于注意力机制对LSTM进行改进从而实现对玉米和大豆期货价格的预测,实验发现优化后的LSTM表现要优于ARIMA和支持向量回归模型,同时相比于单一的LSTM,加入注意力机制的LSTM表现也要更优,其中玉米和大豆期货预测结果的RMSE分别提升了0.6%和1.8%,证明了注意力机制可以提升模型的预测表现。

不同模型及算法有其各自的数据挖掘能力及适用范围。通过对比多种模型的预测准确度筛选出最优模型以及融合多种模型进行建模,这两种方法是具体实践中较为高效省事的模型性能提升方法。


时序关联数据及其适用算法应用

时序数据是指时间序列数据,是统一指标按时间顺序记录的数据列,而时序关联数据则是指前一个输入时间数据和后一个输入时间数据是有关联的。针对这样的时序关联数据,可以采用循环神经网络(Recurrent Nerual Network,RNN)和LSTM等模型进行预测建模任务。对于短时序关联数据可以采用循环神经网络进行建模,而当时间序列过长时会出现长期依赖问题,此时可以采用长短期记忆网络进行预测。

Xing等通过对比使用多种模型如多元线性回归、深度信念网络(Deep Belief Network,DBN)、使用多个受限玻尔兹曼机进行改进的LSTM-RNN(R-L-RNN)等,对苹果树的蒸腾作用进行预测,发现R-L-RNN获得了最准确的估计。对模型进行改进可以提高模型本身的数据挖掘能力。Venkatachalam等基于14个天气特征,使用LSTM和转导长短期记忆网络进行天气预测,实验表明其所提出的T-LSTM模型要优于先前所提出的方法,还发现混合模型具有优越的泛化能力和更高的学习能力。Wang等利用遥感数据进行产量估算,针对LSTM模型的特性,分析不同时间步长的时间序列对估计结果的影响,发现LSTM表现要优于传统的机器学习方法。Zhang等利用卷积神经网络(Convolutional Neural Network,CNN)提取静态变量中的空间上下文特征和LSTM提取动态变量中的时间特征对土壤有机碳进行预测,采用RF模型作为参考比较模型,并证明CNN-LSTM混合模型预测的有效性。在实际预测中,通过多种模型混合的方法提高模型的泛化能力和预测能力。

另外,由于外界环境因素的干扰和自身变化的不规律性,使用AI算法对未来进行长期预测的难度要高于短期预测。针对此问题,当前有学者提出基于注意力机制的循环神经网络以挖掘时序数据中的信息。Liu等提出了基于空间注意力、时间注意力、时空独立注意力、时间空间联合注意力的4种RNN方法,以捕获水产养殖中溶解氧短期时间序列和长期时间序列中的时空信息,再通过实验验证基于注意力机制的RNN在长短期预测中都要优于基准预测方法。

基于注意力机制的改进网络要优于传统的机器学习方法,原因在于前者可以挖掘时间序列中更多的时间和空间信息,进而增加模型所挖掘到的信息量,提高模型预测的准确性。从数据的角度出发,在建模预测时通过输入多维数据增加信息量,也可以提高模型预测的准确性。Celik等将卫星图像数据和深度学习框架相结合,引入土壤质地和地形静态数据与气候动态数据,对土壤水分使用LSTM进行多维数据预测,均方根误差为0.046。Zhuang等综合考虑农产品供需的关键因素如产量、消费、价格并结合自然、社会、经济因素,创建基于LSTM的分析工具。理论上来说,输入有效的信息越多,对未来风险进行预测的准确性也就越高,因此建模时不仅要关注对模型本身的改进和优化,在数据准备阶段收集有效数据对于提升模型表现也很重要。

3


图数据及其适用算法应用

在数据科学中,图数据被用来描述各种关系型数据。不同于语音、图像、文本等结构化数据,图数据属于复杂的非结构化数据,通过对一组对象(节点)及其关系(边)进行建模。近年来,由于图的强大表达能力,利用机器学习分析图数据的研究也越来越受到关注,其应用侧重于节点分类、链接预测、聚类等学习任务。可以采用图神经网络(Graph Nerual Network,GNN)、图卷积网络(Graph Convolutional Network,GCN)、图注意力网络(Graph Attention Network,GAN)、图递归网络(Graph Recurrent Network,GRN)进行图数据建模任务,学习不同节点之间丰富的关系信息。图神经网络在具有非独立因子的复杂系统中要优于传统机器学习方法,具有更加显著的优势。

Li等以17个环境因子为输入变量,提出CoNet-GNN模型对水稻重金属浓度进行预测,预测精度显著优于基准机器学习模型。通过对不同类型数据之间的聚合信息提取,可以为模型训练提供更多的有效信息。Zeng等针对现有滑坡敏感性评估存在着忽略环境异质性的问题和可能存在的不平衡正负样本问题,提出了一种受环境一致性约束的图神经网络,优化后的模型优于常见的机器学习方法,且在训练集小的情况下也能保持较高的预测精度。Kim等将多类别图数据输入层次图注意力网络,实现对市场指数走势的预测。

当前针对于图结构数据的农业风险预测研究还不是很多,未来可以针对农业产业链的上下游关系和与农业相关的行业关系,对农业价格风险预测进一步深入研究。

4


对风险预测方法的评价

在农业风险预测中,不同数据类型的输入变量有其适用的AI算法,而AI算法由于其强大的学习能力往往会出现过拟合现象。一般来说,建模所选择的AI算法模型要和所学习的模型参数个数尽量相同和参数向量尽量相近,否则当建模所选择模型的复杂度高于当前所学习的模型时,往往会导致模型对已知数据预测得很好,而对未知数据却预测得很差。通过模型选择可以避免过拟合问题并提高模型的预测能力。

在实际应用中,由于所学习的模型复杂度往往是不可知的或者难以评估的,研究者针对同一学习任务常采用多种模型进行对比学习,以MSE、RMSE、平均绝对误差(Mean Absolute Error,MAE)和R-squared等量化指标评价模型的学习能力从而实现对多种学习模型的选择。另外,还可以通过引入正则化项、降低模型参数数量、减少神经网络层数、数据增强、随机扰动等方法应对模型的过拟合问题。




推荐阅读


油料作物产量遥感监测的挑战与展望


便携式黄曲霉毒素B1检测系统设计与试验(《智慧农业(中英文)》2023年第1期)


基于深度学习的动物体况评价与体重估计研究进展


基于改进Linknet网络的黄土高原苹果园精准提取





智慧农业微信交流服务群

为方便农业科学领域读者、作者和审稿专家学术交流,促进智慧农业发展,为更好地服务广大读者、作者和审稿人,编辑部建立了微信交流服务群,有关专业领域内的问题讨论、投稿相关的问题均可在群里咨询。入群方法:加小编微信331760296备注:姓名、单位、研究方向,小编拉您进群,机构营销广告人员勿扰。

发布征集







欢迎在我公众号发布科研团队介绍、创新科研成果及相关活动等信息。

智慧农业期刊
《智慧农业(中英文)》是国内外公开发行的农业科学类学术期刊。期刊聚焦农业信息技术发展前沿与热点,刊载和传播国内外最新研究成果,通过搭建高水平学术交流平台,引领学术研究方向,服务行业科学决策,培养高水平创新人才,促进学科发展。
 最新文章