使用深度学习病理图像的肿瘤浸润淋巴细胞的空间组织和分子相关性

教育培训   2021-11-20 08:30  

 




01

摘要






 TCGA样品的H&E染色数字化图像仍未得到充分利用。为了强调这一资源,我们基于来自13种TCGA肿瘤类型的H&E图像,介绍了肿瘤浸润淋巴细胞(TIL)的图谱。这些TIL图谱是使用经过训练以对图像patch进行分类的卷积神经网络通过计算染色得出的。使用标准组织病理学参数对TIL图结构模式进行分组。这些模式在源自分子测量的特定T细胞亚群中富集。TIL密度和空间结构在肿瘤类型,免疫亚型和肿瘤分子亚型之间差异性富集,这表明空间浸润状态可以反映特定的肿瘤细胞畸变状态。获得与TCGA样品丰富的基因组特征相关的空间淋巴细胞模式,证明了TCGA图像可用于洞悉肿瘤免疫的微环境。







02

介绍


 
尽管对人体的研究表明,慢性炎症可以促进肿瘤发生,但宿主免疫系统同样能够通过激活适应性免疫机制和先天免疫机制来控制肿瘤的生长。这种肿瘤内过程通常统称为免疫编辑,其中这种选择压力可能导致逃避免疫监视并最终导致肿瘤进展的肿瘤细胞的出现。同时,许多观察结果表明,高密度的肿瘤浸润淋巴细胞(TIL)与良好的临床结局相关,例如多种癌症类型的无病生存期较长或总体生存期(OS)改善。最近的研究进一步表明,就涉及肿瘤中心和/或浸润边缘的免疫浸润而言,肿瘤微环境的空间背景和细胞异质性的重要性也可能与癌症的预后相关。可以量化不同肿瘤区域中这种空间TIL密度的预后因素,尤其是Immunoscore,具有很高的预后价值,可以在某些情况下显著补充甚至取代标准的TNM分类和分期。鉴于这一点以及免疫疗法在当代癌症治疗中的核心作用,这些与肿瘤相关的淋巴细胞的评估在病理切片的临床评估以及这些淋巴细胞群的作用的转化研究中都变得越来越重要。TCGA泛癌数据集包括具有代表性的H&E诊断全幻灯片图像(WSI),可对TIL进行空间量化和分析,并与通过TCGA进行的大量分子表征相关联。以前,这种丰富的成像数据库主要仅用于鉴定样本以进行TCGA分析,并由专业病理学家收集一些有限的组织病理学参数。使用数字病理学和数字化的完整切片(WSI)诊断组织图像,机器学习和深度学习方法可以创建“计算染色”。这允许对图像特征进行识别和量化,以制定超越简单密度(例如TIL的密度)的高阶关系,以探索对淋巴细胞聚集模式的定量评估,以及表征TIL与肿瘤区域之间的相互关系。我们以多种癌症的方式将其应用于TCGA样本。基于组织学H&E图像中的特征提取,以更有限的方式探索了仅几种TCGA肿瘤的TIL含量。

03

材料和方法




图像和分子数据采集WSI图像是从TCGA GDC获得。我们的研究使用诊断图像,其中一些来自冷冻组织标本的图像用于分子估计差异的分析。图像以svs(AperioSVS文件)下载。我们使用名为OpenSlide的开源库提取最高分辨率的图像数据。在研究中分析了5455张诊断片,分析了13种TCGA肿瘤类型。临床和分子数据来自(https://gdc.cancer.gov/about-data/publications/pancanatlas)。


用于TIL映射的卷积神经网络的总体方法包括两个CNN(淋巴细胞浸润分类CNN(淋巴细胞CNN)和坏死分割CNN),以及捕获和整合病理学家反馈以评估和完善所生成肿瘤的机制-浸润淋巴细胞(TIL)图。淋巴细胞CNN是半监督的CNN,由无监督的卷积自动编码器(CAE)初始化。CNN和CAE被设计为具有相对高分辨率的输入,以便可以识别单个淋巴细胞。使用两种不同的CNN对坏死区域和TIL进行分类,坏死区域和淋巴细胞在不同的图像尺寸下得到了最好的识别和分类。坏死的CNN模型在较大的输入组织区域中表现最佳,而淋巴细胞CNN模型在局部,高分辨率的图像补丁中可获得最佳结果。坏死分割CNN用于消除坏死区域淋巴细胞CNN的假阳性。在这些区域中,细胞核可能具有与淋巴细胞浸润区域相似的特征。因为识别50×50μm2的区域需要较大区域中的上下文信息,所以将此模型建模为具有相对较低分辨率的较大输入补丁的分割问题:从图像中提取500×500μm2补丁并下采样3次。最终的图像块在20倍放大倍数下为333×333像素。坏死分割CNN输出逐像素分割结果。再使用DeconvNet来完成这项任务,我们训练DeconvNet将每个像素分类为坏死区域的内部或外部。调整坏死分割CNN的输出大小以匹配淋巴细胞CNN的输出分辨率。如果50x50补丁的一半以上与坏死区域相交,则该补丁被归类为非淋巴细胞浸润。


我们在未标记的数据集上训练CAE,从而最大程度地减少了输入图像和重建图像之间的像素方均方根误差。没有部署正则化损失。使用批次大小为32,学习率为0.03,动量为0.9的随机梯度下降来训练网络,直到收敛(6个epochs)。对于淋巴细胞CNN(由CAE构造)训练,我们使用批次大小为100,学习率为0.001,动量为0.985的随机梯度下降。我们训练CNN直到收敛(64个epochs),然后在第20、32和52个epochs将学习率除以10。我们在最后一层使用sigmoid作为非线性函数,并使用对数似然作为损失函数。没有部署正则化损失。

免疫应答的分子数据估计
我们使用了在(Thorsson等人,2018)中获得并提供的肿瘤和免疫特征的估计。通过基因组学测量来估算TIL分数,方法使用CIBERSORT估算的免疫细胞分数的比例。与来自图像的TIL估计值与这些数据进行比较。

免疫浸润的局部空间结构
使用APClusterR软件包来应用亲和力传播算法来获得TIL群集模式。亲和力传播方法同时将所有数据点视为可能数据点中的簇的中心。将每个数据点视为网络中的一个节点,它沿网络的边缘递归传输实值消息,直到找到一组好的示例和相应的群集。




04

结果




  1. 模型的架构
使用两个CNN:淋巴细胞浸润分类CNN(淋巴细胞CNN)和坏死分割CNN(坏死CNN)。淋巴细胞CNN将输入图像的微小斑块分类为有淋巴细胞浸润的斑块和没有淋巴细胞浸润的斑块。它是一种半监督的CNN,由无监督的卷积自动编码器(CAE)初始化。坏死CNN会分割坏死区域,并设计为消除坏死区域的假阳性,在坏死区域中,细胞核可能具有与淋巴细胞浸润区域相似的特征。 


2.模型的比较
使用一组来自TCGA肺腺癌(LUAD)病例的WSI,将我们的方法的性能预测与流行的和广泛使用的CNN(称为VGG16)进行了比较。淋巴细胞CNN的训练集由20,876个补丁组成。每个图像块通常包含0到30个核,并由病理学家注释为淋巴细胞浸润或未浸润。坏死分割CNN的训练集由1,800个补丁组成。每个斑块都标有由病理学家分割的坏死区域遮罩。我们对2,480个补丁进行了采样,以创建测试数据集。ROC曲线显示,相对于ROC曲线(AUROC)指标下的面积,我们的方法略胜于VGG163.1%(图A)。我们还通过计算染色渠道与经验丰富的病理学家对TIL补丁分配进行了直接比较,方法是对8×8的“超级补丁”的TIL含量进行评分。三名病理学家评估了400个超级补丁的TIL含量低,中或高,同时通过计算TIL阳性补丁(因此范围从0到64)为补丁分配了机器衍生的分数。通过对100个超级补丁进行评分评估,每个病理学家之间的一致性很高(>80%)。如图B所示,机器的中位数得分在三个序数分档之间非常不同。



3.TIL空间分数的评估和相关性
TILs的空间分数TILs的空间分数估计为TIL阳性斑块在组织样本中识别出的斑块总数中所占的比例。在TCGA肿瘤类型中,胃癌的浸润率高,平均为14.6%,直肠癌的浸润率是13.0%,鳞状细胞癌的浸润率高。肺为11.6%,而葡萄膜黑色素瘤的TIL分数仅为1%,与其作为阴性对照的结果一致。根据所有TCGA肿瘤的最新免疫特征,还可以看到按照免疫反应的性质将肿瘤分组的差异很大(图B)。具有最强免疫活性的免疫亚型(例如,C1,C2)倾向于具有最大的淋巴细胞空间浸润。在已记录的TCGA亚型中,也可以看到强烈的差异。EBV阳性胃癌特别富含TIL,平均25%的空间区域被TIL浸润(图C)。肺鳞状分泌物亚型(Wilkerson等人,2010)与子宫内膜癌的突变型POLE亚型一样,浸润也特别丰富(17%,图D)。在乳腺癌肿瘤中,基底亚型的浸润最大(图E),。综上所述,这些数据表明,浸润物的性质与肿瘤微环境的各个方面有很强的联系,并且浸润物的性质可能反映了肿瘤细胞的特定分子畸变状态。


4.免疫图谱的局部空间结构
成像数据的独特功能是能够超越总的淋巴细胞浸润量,评估淋巴细胞浸润的模式。为了识别这种模式,我们首先使用亲和力传播来查找TIL图像补丁的空间连接和相干区域(簇)(APClusterR包)。图A-5显示了H&E图像,TIL图和聚类的示例,这些示例显示了稀疏和密集的淋巴细胞浸润的情况。对于每张幻灯片,都使用简单的计数和范围统计量度以及聚类指数对所得的聚类模式进行表征,聚类指数可评估更复杂的特征,例如聚类形状。汇总度量包括群集Ncluster的数量,群集NP中TIL补丁的平均数量,群集内离散WCD的平均值以及群集空间范围CE的平均值(请参见E)。

05

05


讨论



在本工作中提出代表了系统地使用自动化图像处理来评估跨多种TCGA肿瘤类型的淋巴细胞浸润的初步尝试,以与淋巴细胞浸润的基因组和表观基因组评估以及临床结果相关。在将通过分子方法鉴定的TIL分数与从H&E图像的数字图像分析得出的TIL图进行比较时,我们发现了很好但肯定不是完美的一致性。确实,我们的方法也可能会补充免疫表型数据,并且由病理学家评估的免疫浸润模式已在原发性黑色素瘤的标准临床报告中广泛用作预后因素。像我们此处介绍的方法一样,应用这些方法也可以允许以非常合理的价格点和方便程度进行非常敏锐的研究。这些类型的分析只能通过更详细的基于分子标记的分析(例如免疫组织化学)来改进,由于缺乏临床必要性,目前这些分析未在大多数标准临床环境中应用。由于TCGA队列通常早于有效的免疫疗法(例如检查点抑制剂)的广泛临床应用,并且几乎没有关于这种疗法结局的数据,因此我们的TIL估计值和导出的浸润模式之间的关联正在等待更合适的数据集来测试关联。我们相信,我们的CNN来源的TIL图为评估这些淋巴细胞浸润提供了可再现且强大的工具。评估这种肿瘤特征的能力对于肿瘤免疫免疫治疗的临床诊断和转化研究都变得至关重要。这些结果表明,该方法与由TCGA分子平台生成的TIL的分子评估相关,并且还可以与某些肿瘤类型的临床结果相关。 





参考文献:

Spatial Organization and Molecular Correlation of Tumor-Infiltrating Lymphocytes Using Deep Learning on Pathology Images. Cell Rep. 2018 Apr 3;23(1):181-193.e7. 


Saltz J, Gupta R, Hou L, Kurc T, Singh P, Nguyen V, Samaras D, Shroyer KR, Zhao T, Batiste R, Van Arnam J; Cancer Genome Atlas Research Network, Shmulevich I, Rao AUK, Lazar AJ, Sharma A, Thorsson V.  

doi: 10.1016/j.celrep.2018.03.086. PMID: 29617659; PMCID: PMC5943714. 







计算表观遗传学

计算表观遗传学
微信号:intro4gcer
分享到朋友圈丨点右上角···分享



往期「精彩内容」,点击回顾

DNA测序历史 | CircRNA数据库 | Epigenie表观综合 | 癌症定位

BWA介绍  |  源码安装R包 | CancerLocator  | lme4 | 450K分析

乳腺癌异质性 |  BS-Seq  | 隐马模型 Circos安装 |  Circos画图

KEGG标记基因 |  GDSC  |  Meta分析  |   R线性回归和相关矩阵


精彩会议及课程,点击回顾

计算表观遗传学大数据前沿学术论坛会议记实

哈尔滨医科大学2017年全国生物信息学暑期学校

2017龙星课程系列(一)

2017龙星课程系列(二)
2017龙星课程系列(三)

2017龙星课程系列(四)

2017龙星课程系列(五)


编辑:sm

通讯邮箱:ad.cepi@edbc.org

投稿邮箱:scw.cepi@edbc.org




CEPI感谢您的支持!

(IOS系统用户专用通道)


    赞赏    



计算表观遗传学
“计算表观遗传学(Computational Epigenetics - CEPI)”公众平台致力于表观遗传领域的科学研究,汇集领域内数据分析、算法开发及平台搭建,领航表观前沿,共同探索表观遗传调控机制。
 最新文章