Annu. Rev. Plant Biol(IF=21.3)| 深度学习在植物表型中的应用

文摘   2024-10-25 08:38   湖南  

2024年7月,美国丹佛斯植物科学中心的Katherine M. Murphy等人在Annual Review of Plant Biology发表了题为 Deep Learning in Image-Based Plant Phenotyping 的文章,综述了深度学习技术在植物表型分析中的应用。

文章深入探讨了深度学习在基于图像的植物表型研究中的应用,包括其基本原理、成功案例、最佳实践以及面临的挑战和未来的发展方向。以下是对文献内容的精炼总结。

植物表型组学与计算机视觉

植物表型组学是一个多学科研究领域,旨在推进植物表型的测量,即植物特征的量化。随着成像、测序和计算技术的进步,植物科学领域数据量激增,带来了分析大数据集的挑战。深度学习作为一种人工智能方法,通过分析图像数据并预测未见图像,减少了计算中的人工输入需求。

植物表型组学中常用计算机视觉任务的示例

机器学习与深度学习的区别

机器学习是人工智能的一个分支,通过特征提取和模型构建来执行预测、聚类或降维。深度学习是机器学习的一种,利用神经网络执行复杂任务,能够处理大量层级结构的模型,即深度神经网络。深度学习的一个特点是可以直接处理非结构化数据,如图像,而传统机器学习需要先进行特征提取。

深度学习的工作原理

深度学习网络由多层节点组成,包括输入层、隐藏层和输出层。这些层通过权重连接,权重在训练过程中不断调整以优化网络性能。激活函数对输入数据进行非线性变换,是网络设计中的关键变量。网络的深度,即隐藏层的数量,是深度学习区别于传统机器学习的主要特征。

机器学习和深度学习的工作原理

训练神经网络的最佳实践

深度学习模型的训练需要大量标注数据。为避免过拟合,需要在训练、验证和测试数据集之间进行合理分配。数据增强和合成数据的使用可以提高训练数据的多样性和数量,从而提高模型的泛化能力。

用于从植物图像预测全植物生物量的线性回归模型示例

成功评估

评估深度学习模型的成功至关重要。对于分类问题,准确率、精确率和召回率是关键指标。对于回归问题,如预测植物数量或产量,使用均方误差(MSE)和平均绝对百分比误差(MAPE)等指标。此外,决定系数(R²)描述了模型对数据变异性的解释程度。

图像分割任务的评估指标:交并比(IOU)

可解释的机器学习

深度学习模型通常缺乏对决策过程的解释,这在植物育种和工程中是一个挑战。可解释的人工智能(XAI)实践,如类激活映射(CAM)和引导反向传播,可以帮助理解模型的决策过程。

用于减少计算时间和过拟合的池化过程

植物表型社区、数据集和注释工具

大型、标注好的图像数据集对深度学习模型的开发至关重要。社区参与和数据共享是解决这一挑战的关键。例如,iNaturalist项目利用深度学习建立了一个贡献数据的社区,并开发了可用于深度学习的数据集。

在病害识别方面,深度学习模型处理了超过54,000张作物病害图像,通过GoogLeNet模型达到了99.34%的分类准确率,有效辅助病害管理。

深度学习在植物表型组学中的应用

深度学习在植物表型组学中的应用包括植物分类、检测和定量特征预测。例如,iNaturalist数据集用于物种分类,而其他研究则利用深度学习进行作物与杂草的识别,以及植物病害的早期检测。

以IPPN数据库图像为基础,结合真实与合成图像,深度学习模型在叶片数量预测任务中取得显著成果,均方误差降至0.73,提升了特征预测的精确性。

分类器的评估指标示例

深度学习模型的未来展望

下一代深度学习模型,如Segment Anything Model(SAM),可能会对数据注释和深度学习在植物表型组学中的应用产生重大影响。大型语言模型(LLMs)如ChatGPT和DALL-E正在改变深度学习的互动方式,使得非专业人士也能轻松使用这些模型。

下一代深度学习模型

挑战和未解决的问题

尽管深度学习在植物表型组学中取得了进展,但仍面临挑战,包括对大型标注数据集的需求、数据存储和处理能力的限制、跨机构数据集成的挑战、以及对数据和代码共享标准的需要。此外,未来研究工作需要在生物学和计算机科学原理方面进行培训,以充分利用深度学习方法。

总结要点

  • 植物表型组学是一个推进植物表型测量的多学科领域。
  • 深度学习是机器学习的一个分支,属于人工智能范畴。
  • 深度学习的目标是使用数学模型解决复杂问题。
  • 深度学习网络由输入层、隐藏层和输出层组成,每层都包含节点。
  • 植物表型组学社区有标注数据集,但数据注释是广泛应用的瓶颈。
  • 深度学习已在植物分类、植物类型识别和特征量化等多个领域得到应用。
  • 下一代深度学习模型可能会对数据注释和植物表型组学的应用产生影响。
  • 大型公开可用的标注图像数据集对植物科学研究社区至关重要。
  • 研究人员需要更好的方法来注释图像数据和生成合成图像数据。
  • 植物科学家和计算机科学家需要更好地合作,以理解他们所制作的深度学习模型的应用和重要性。
  • 数据和代码共享的标准以及免费的数据存储库将促进可复制的工作和更大的社区数据集。

文献强调了深度学习在植物表型组学中的潜力,同时也指出了实现这一潜力所需克服的挑战。随着技术的进步和社区的合作,深度学习有望在未来的植物科学研究中发挥更大的作用。


生物信息与育种
致力将生信、AI、大数据、云计算等技术应用于现代生物育种
 最新文章