引 言
流式细胞术是一种用于识别和定量细胞亚群的单细胞分辨率技术,能够以每秒数千个细胞的速度同时表征超过40种细胞表面和细胞内标志物表达,广泛应用于药物开发、免疫表型分析、细胞疗法、临床诊断以及高维探索性分析等领域。传统流式细胞术数据分析依赖于双变量或直方图,通过手动圈门来定义细胞亚群。尽管定义了模板圈门策略后可以批量应用于每个数据文件,但仍需视觉确认圈门的准确性,这一过程不仅耗时、易出错,且主观差异可能影响结果的准确性和可重复性,尤其在数据高度可变、标志物连续表达、圈门策略复杂的样本中。
基于此,自动化流式数据分析成为当前积极开发的新领域。目前的自动化数据分析主要依赖于聚类算法,或通过事件密度等统计方法复制手动圈门,FlowDensity就是此类算法之一。与此不同的是,碧迪医疗研究团体基于弹性图像配准开发了一种自动化圈门软件——BD Elastigate™(以下简称Elastigate),Elastigate仅需最少的预圈门训练数据,在遵循预定模板圈门策略的前提下可根据新数据的变化调整圈门。为了验证其性能,研究人员在开发基准数据集和生物学相关数据集中将Elastigate软件的分析结果与分析师的手动圈门结果进行了对比,其结果显示Elastigate的准确性可与手动圈门相媲美。同时,研究结果还证实了Elastigate在结果准确性和可用性方面都优于FlowDensity。本期,我们将详细剖析Elastigate软件~
BD ElastigateTM的软件介绍
Elastigate软件是一种视觉模式识别的自动圈门方法,使用最少的预圈门训练数据,在遵循预定模板圈门策略的前提下可根据新数据的变化调整圈门。该方法将二维图和直方图中的流式细胞术数据转换为图像,采用弹性图像配准方法对目标数据与训练数据的局部偏移进行建模。先确定一个变换,将训练数据图像变形为与目标图像相似的新的无网格图,然后将相同的变换应用于门顶点,从而允许任何形状的门顶点跟随附近数据的变化而变化,同时保持用户期望的门“cut-off值”。该方法可作为FlowJo软件的插件,专为生物学家或技术人员设计;如有必要,还可进一步审查和修改生成的门。
BD ElastigateTM的算法设计
Elastigate算法由三个主要步骤组成:
第1步 图像生成:将点图转换为像素化归一化图像;
第2步 图像配准:将训练图的图像与等效的目标图进行配准。图像配准的过程就像对齐两张图片,其中一张图片被变形以尽可能与另一张相匹配。因此,要计算出一种变形,使训练图与目标图相匹配;
第3步 变换门顶点:将计算出的变换应用于训练图的门,为目标图创建门。
图1 Elastigate算法示意图。A)示例训练图(左)和从训练图创建的图像(右);B)目标图(左)和从目标图创建的图像(右);C)训练图图像;D)将训练图图像配准到目标图图像的变形场,箭头所示为运动轨迹;E)配准训练图图像;F)在训练图上绘制原始门顶点;G)将变换应用于门顶点。
BD ElastigateTM分析结果的验证
基于开发基准数据集验证Elastigate
◈ 裂解全血散射数据集
验证方法:根据前向散射(FSC)和侧向散射(SSC),对Elastigate在31个血液样本中正确识别淋巴细胞、单核细胞和粒细胞的能力进行了初步评估。将1个手动圈门样本作为训练集,Elastigate则应用于其余30个样本。为了进行统计分析,选择其中1个手动分选数据作为“基本真相”(即图2A中的 Manual1),Elastigate的分析结果以及其余2位分析师均与“基本真相”进行对比。
验证结果:Elastigate追踪了FSC-SSC谱上不断变化的血源性群体,其定义与两次手动分析几乎相同(图2A-B)。此外,Elastigate对粒细胞、淋巴细胞和单核细胞门的F1中位分数也反映了定义这些群体的难度增加(分别为0.979、0.944和0.841)。
图2 Elastigate应用于裂解全血散射数据集分析结果
◈ 多级荧光定量珠数据集
验证方法:所选数据集包括B细胞恶性肿瘤中可靶向标志物的多色抗原密度检测中常规使用的定量珠,并被选择用于评估Elastigate处理多个直方图线性圈门的准确性。在FSC-A和SSC-A上对1个样本进行手动圈门来确定主要磁珠群,然后使用5个直方图圈门来识别具有不同荧光水平的磁珠群。该模板用于训练Elastigate,并应用于其余20个样本。同一数据集也由3位分析师进行手动圈门,其中1个手动分选数据作为“基本真相”(即图3中的Manual1)。
验证结果:Elastigate的性能与手动圈门非常相似,并且能够正确识别并补偿样本间的偏移。Elastigate所有圈门的F1中位分数为0.991,其他两个分析师分别为0.972和0.964。Elastigate的最低F1总分(所有门和样本)为0.92,两位分析师分别为0.87和0.90。
图3 Elastigate应用于多级荧光定量珠数据集的分析结果
◈ 单核细胞亚群分析数据集
验证方法:评估Elastigate对缺乏简单双峰表达的单核细胞亚群的分析能力。数据集包括20份血液样本,除FSC和SSC外,还包含四个荧光参数,用于识别经典、中间和非经典单核细胞。1个样本用作训练样本,并将Elastigate应用于剩余19份数据文件。3位分析师进行手动圈门该数据集,并随机选择1个作为“基本真相”(即图4中的Manual1)。
验证结果:Elastigate F1中位分数均大于0.93,在所有门中,Elastigate的F1中位分数与两位分析师相当(F1差值≤0.015)。Elastigate所有门的最低F1分数为0.82。值得注意的是,在“SSC-lo”和“FSC-hi”门中,一位分析师所遵循的圈门模式与其他分析师和Elastigate均不同。这进一步证实了个人主观性是流式细胞仪数据分析中的一个变异性来源,而标准化方法可以避免这种变异性。
图4 Elastigate应用于单核细胞亚群分析数据集的分析结果
基于生物学相关数据集验证Elastigate
◈ 细胞疗法质量控制检测
验证方法:对19份白细胞分离样本和6份转染了CD19靶向嵌合抗原受体(CAR)-T疗法的样本进行了Elastigate测试。每个样本都包括相应的同型和荧光减一(FMO) 抗 CAR 对照,某些情况下还包含重复样本,数据文件的总数达到75个。对于白细胞集,使用3个随机数据文件用作训练集,将前五个圈门(“clean up”门)调整到剩余的54个数据文件上。然后,使用相同的3个训练集将Elastigate应用于19个FMO和16个完全染色样本的剩余圈门。对于染色样本,使用1个完全染色样本文件作为训练集,对 CAR 转导的 T 细胞文件重复类似的过程。
验证结果:结果报告了“基本真相”群体中细胞数均大于40个的群体的F1分数。在所有门中,Elastigate的F1中位分数为0.997,而分析师的F1中位分数分别为0.993和0.995。
图5 Elastigate应用于CAR-T细胞数据集的分析结果
◈ 肿瘤浸润淋巴细胞(TIL)免疫表型分析
验证方法:Elastigate对40个TIL样本进行了评估,这些样本用14色T细胞抗体组合染色,旨在表征免疫治疗后荷瘤小鼠的CD4+和CD8+免疫库,包括初始/效应/记忆状态和调节性T细胞。6个样本文件作为训练数集,并将Elastigate应用于剩余34份数据文件,4位分析师手动分析40份样本,并随机选择1份作为“基本真相”(即图6中的Manual1)。
验证结果:只需2个训练样本,Elastigate 在所有种群中可取得0.79的最低F1中位分数,记忆种群除外(细胞数量较少)。6个训练样本后,最低F1中位分数提高到0.8,在某些情况下准确率提高了约10%(图6A)。Elastigate和分析师的表现类似(图6B),所有种群的F1中位分数都>0.8。Elastigate所有门的F1中位分数均>0.935,3位分析师分别为0.992、0.943和0.943。此外,在该训练集中发现,当处理高度复杂的数据集时,递归测试和评估方法有助于提高Elastigate的准确性。
图6 Elastigate应用于TIL免疫表型分析结果
◈ 高通量细胞毒性检测
验证方法:在440份7色抗体组合染色的样本上测试Elastigate,以确定T细胞对肿瘤细胞系的活化和杀伤效率。对于每种药物,选择浓度最高和最低的样本作为初始训练集,以捕捉最大和最小的细胞毒性效应,共10个样本。进行数据定性审查后,在训练子集中增加5个样本,以充分捕捉数据集的可变性,然后进一步完善剩余425个目标样本的门控位置。5位分析师对425个样本进行了手动圈门,并随机选择1份作为“基本真相”(即图7中的Manual1)。
验证结果:Elastigate与分析师的F1分数相当,表明准确度与“基本真相”相似。Elastigate所有门的F1中位分数为0.969,5位分析师的中值分别为0.967、0.968、0.970、0.978和0.970,Elastigate的F1分数比最佳分析师低0.037。
图7 Elastigate应用于高通量细胞毒性检测分析结果
BD ElastigateTM与FlowDensity的比较
对比方法:使用公开可用的FlowDensity库来分析从上述高通量细胞毒性测定数据集的一个面板中选择的流式细胞术数据(38个FCS文件)。文件在作为逗号分隔值(csv)文件导入R库之前,在FlowJo中进行了补偿和缩放。FlowDensity中的一组特定参数用于尽可能匹配Elastigate生成的相应门,并最大限度地提高F1分数,并与分析师手动圈门对比。
对比结果:对于明确定义的聚类双峰分布群体(如CD3+门),FlowDensity和Elastigate的F1分数相当。对于峰间分离不明确的门(如CD2+、CD4+CD25+和CD8+CD25+门),FlowDensity的F1分数明显较低(与手动相比误差较大)(图8)。Elastigate能够正确跟踪活门上的急剧变化包括活化T细胞,并正确排除了暗淡阳性的凋亡细胞,而FlowDensity会将凋亡细胞群归类为活细胞。同样,Elastigate算法可捕捉CD2的下调,且不会干扰增殖肿瘤细胞中细胞微量紫+(CTV+)的分辨率,FlowDensity算法则恢复了水平阈值,并将四门(CD2/CTV)错误地置于簇的反面。Elastigate按照预期对CD2+、CD4+CD25+和CD8+CD25+门进行了分类,中位F1分数分别为0.995、1.000和0.999。相比之下,FlowDensity结果较差,无法识别出活化的CD8+CD25+细胞。研究人员还观察到 ,FlowDensity F1分数受到训练数据和目标数据之间百分比差异的负面影响。总之,使用标准设置时,Elastigate在结果准确性和可用性方面都优于FlowDensity。
图8 Elastigate与FlowDensity分析结果的对比
Elastigate与手动圈门的分析时间比较
与手动圈门相比,Elastigate显著缩短分析所需的时间。在所有测试的数据集中均是如此(图9),时间减少从大约3倍到大约60倍不等。平均而言,每个样本(数据文件)大约需要6秒。一般来说,计算时间与转换为图像的二维图和直方图的数量相关,平均每个图约需1秒。此外,平均处理时间还包括两台笔记本电脑的差异,Elastigate在标准笔记本电脑上高效处理数据,同时大大缩短了分析所需的时间,并减少手动圈门的主观性。
图9 Elastigate和手动圈门在所有数据集上的时间对比
总 结
Elastigate是流式细胞术圈门过程自动化的有力工具,其准确性可与手动圈门相媲美。它适用于大多数门形状和群体类型,可以与具有大量实验或生物变异性的数据集一起使用。随着时间的推移,可通过向训练集添加更多样本来递归提高性能。Elastigate是复杂数据圈门策略和/或高通量筛选方案的理想选择。生物学家或技术人员应用Elastigate可使圈门更加客观,同时保持准确性并节省大量分析时间。
e小道诚邀各位同道
长按关注【免e监控】公众号
参考文献
Allison Irvine, Mohamed Mahmoud Moustafa, Sahul Patel, et al. Automation of Flow Cytometry Data Analysis with Elastic Image Registration. https://www.researchsquare.com/article/rs-3912020/v1
因本系统/平台/文件中对部分医院某些信息的收集可能构成国家秘密、重要数据或基于国家安全考量不宜收集的数据,所以本系统/平台/文件不允许采集及输入这些敏感信息以确保公司在数据合规方面严格遵守中国法律、法规的要求。