关注+标星,邂逅每一篇经典!
投稿或寻求报道:qunfunction@163.com
|文章摘要
预训练的神经网络模型对于许多类型的生物图像分割可以提供良好的开箱即用结果。然而,这样的模型不允许用户根据特定需求调整分割风格,并且对于与训练图像非常不同的测试图像可能表现不佳。在这里,作者介绍了Cellpose 2.0,这是一个新包,它包含了一组多样化的预训练模型以及一个快速原型设计新定制模型的人机交互管道。展示了在Cellpose数据集上预训练的模型可以通过仅500-1,000个用户标注的兴趣区域(ROI)进行微调,以接近使用多达20万个ROI的整个数据集训练的模型性能。人机交互方法进一步将所需的用户标注减少到100-200个ROI,同时保持高质量的分割。提供了软件工具,如注释图形用户界面、模型库和人机交互管道,以促进Cellpose 2.0的采用。
学术地址:
https://www.nature.com/articles/s41592-022-01663-4?fromPaywallRec=false
代码地址:
https://github.com/mouseland/cellpose
|前世今生
生物细胞图像由于各种显微技术、组织类型、细胞系、荧光标记等的组合选项而高度多样化。随着生物学和显微技术的进步,图像采集的选择继续多样化,允许监测更大范围的细胞和信号。这种方法的多样性给自动化分割方法带来了巨大挑战,这些方法传统上是为特定应用开发的,并且在应用于新型数据时往往表现不佳。
现在已有几种应用中的高性能分割方法。这些算法通常依赖于大量由人工标注的图像训练集以及经过训练以重现这些标注的基于神经网络的模型。这类模型深受过去十年机器视觉文献中主导的神经网络启发。然而,神经网络在泛化到分布外数据(即与训练期间看到的任何东西根本不同的新图像)时遇到困难。为了解决这个问题,机器视觉研究人员会构建多样化的训练数据集,例如通过从互联网抓取图像或添加扰动。计算生物学家尝试通过构建既多样化(如Cellpose)又大规模(如TissueNet, LiveCell)的训练数据集来复制这种方法。然而,即使是在这些数据集上训练的模型,在面对新的图像类别时也可能会失败(例如,Cellpose模型在TissueNet或LiveCell数据上的表现:图3a,c)。
因此,一个挑战出现了:我们如何确保对于新的生物图像类型有准确且可适应的分割方法?最近的研究提出了新的架构、新的训练协议和图像模拟方法,以在有限的训练数据下实现高性能分割。另一种方法是由交互式机器学习方法提供的。例如,像Ilastik这样的方法允许用户不仅能够标注自己的数据,还可以根据自己的标注训练模型。另一类称为“人机交互”的交互式方法则是从少量用户分割的数据开始,训练一个初始但不完美的模型。这个不完美的模型被应用于其他图像,结果由用户进行修正。这是用来标注TissueNet数据集的方法,总共需要两年的人工众包工作来完成14个图像类别的标注。标注/再训练过程也可以循环重复,直到整个数据集被分割完毕。这种方法已经被证明适用于简单的ROI,如核和圆形细胞,这些允许使用弱标注如点击和曲线,但对于具有复杂形态、需要完整胞质分割的细胞则不适用。例如,使用一种迭代方法,大约一个月内就可以分割出一个三维核数据集。目前尚不清楚人机交互方法是否可以进一步加速,以及它实际上能否在细胞图像上达到人类水平的准确性。
在这里,作者开发了算法和软件工具,用于用非常少的新训练数据将神经网络分割模型适应到新的图像类别。展示了这种方法是:(1) 必要的,因为不同标注者之间的标注风格可能差异很大;(2) 高效的,因为它只需要用户离线分割500-1,000个ROI,或者使用人机交互方法分割100-200个ROI;(3) 有效的,因为这样创建的模型具有与人类专家相似的准确性。在最近发布的两个大规模数据集上进行了这些分析,并使用了Cellpose这一通用细胞分割模型。利用这些新数据集开发了一个预训练模型库,可以作为人机交互方法的起点。还开发了一种用户友好的人机交互标注和模型重训练流程。使用图形用户界面(GUI)的标注员能够在每个类别上花费1-2小时的时间生成最先进的模型。
|匠心独运
图1:不同真实数据集中的多样化标注风格。这些是人类标注者选择以某种方式分割的图像示例,其中存在另一种同样有效的分割风格。所有这些示例都被选为代表各自数据集中大类别的图像。a) Cellpose数据集中的标注示例。从左到右依次显示:(i) 没有胞质的核未被标注, (ii) 扩散的过程未被标注, (iii) 轮廓偏向细胞外部, (iv) 即使在边界不清晰的密集区域也进行了分割。b) TissueNet数据集中的标注示例。这些示例说明了:(i) 对于某些图像类型,轮廓遵循膜/胞质,并包括没有绿色通道标记的核, (ii) 对于其他图像类型,轮廓并不跟随胞质, (iii) 稍微失焦的细胞未被分割, (iv) 对于某些图像类型,轮廓仅围绕核绘制。c) LiveCell数据集中的标注示例。这些示例说明了:(i) 对于某些图像类型,进行密集标注, (ii) 对于其他图像类型,在密集区域不进行标注, (iii) 与(ii)相同的情况, (iv) 对于某些图像区域,出于未知原因未进行标注。
|卓越性能
图2:具有不同分割风格的模型集合。a) 来自Cellpose、LiveCell和TissueNet数据集的图像分割风格的t-SNE展示。由神经网络计算出的风格向量使用t-SNE嵌入到二维空间,并通过Leiden算法聚类成九组。每种颜色代表一个集群,集群名称基于集群中最流行的图像类别选择。b) 九个集群中每个集群对应不同分割风格的示例图像。c) 与单一通用模型相比,通用模型集合的改进。d) 测试集中六个不同图像分别用两种不同风格进行分割的例子。误差条表示测试图像之间的标准误差(s.e.m.)。
参考:
https://www.nature.com/articles/s41592-022-01663-4?fromPaywallRec=false