AI助力HER2免疫组化精准判读—2024 USCAP 乳腺癌专场最新报道系列

文摘   健康   2024-07-18 08:01   四川  

引言

随着HER2-低表达概念的提出及其检测判读的不断实践,我们已逐渐认识到:沿用多年的免疫组化方法已不是准确评估HER2状态的理想方法,这也促发了国内外学者“如何提升HER2免疫组化判读结果准确性”的研究热潮。在2024 USCAP病理年会上,引入人工智能AI和数字病理以帮助病理医生进行HER2免疫组化判读的一组研究成果格外引人瞩目(编号:96,116,184,212,230,249)。值得一提的是:其中184号摘要由复旦大学附属肿瘤医院杨文涛教授牵头的一项多中心的回顾性研究,证实基于WSI的AI工具在提高HER2 IHC评分的准确性和可重复性方面显示出潜在的价值。此外,249号摘要来自河北医科大学第四医院刘月平教授团队,通过META分析证明AI在识别HER2表达方面表现出较高的准确性。下面将对每篇摘要的具体内容进行介绍。

96. 用于评估浸润性乳腺癌 HER2/neu的uPath HER2 (4B5) 图像分析 (IA) 算法的验证

 背景 

人表皮生长因子受体2(HER2)已成为浸润性乳腺癌(IBC)最有力的预测生物标志物。抗HER2疗法已经彻底改变了HER2阳性患者的治疗方式,而HER2“低表达”的肿瘤在接受抗体药物偶联疗法后也显示出显著的疗效。HER2的免疫组化(IHC)作为筛选试验,用于确定患者是否适合接受靶向治疗;然而,IHC结果解读的主观性和不确定性是众所周知的。定量图像分析(QIA)被认为可以克服IHC结果判读的局限性和主观性。本研究旨在验证罗氏诊断公司开发的uPath HER2(4B5) IA算法。

 设计 

对30例非连续IBC病例进行HER2 IHC检测 [10例阴性(评分0/1+)、10例不确定(评分2+)和10例阳性(评分3+)病例]。使用内置uPath HER2 (4B5) IA算法的VentanaDP200载玻片扫描仪对HER2 IHC载玻片进行了扫描。病理学家首先人工筛选了IHC切片,接着使用QIA工具进行分析。在此过程中,病理学家人工标记出了感兴趣的区域,这些区域随后被QIA算法进行了分析。采用Cohen的kappa统计量(k)来评估两种模式之间的一致性。HER2分类的变化(例如:从阴性到不确定/从不确定到阳性)被认为结果不一致。同时,也进行了荧光原位杂交(FISH)测试(作为金标准)并与QIA工具的IHC结果进行了比较。如果阴性IHC结果对应FISH非扩增结果/或者阳性IHC结果对应FISH扩增结果被认为是一致的。

 结果 

在30例病例中,QIA工具报告了9例阴性、9例不确定和12例阳性。人工判读和QIA工具判读对于阳性和阴性的一致性为90%,不确定的一致性为70%。观察到了显著的一致性(k=0.75)。将QIA工具对21个病例HER2 IHC结果与FISH结果进行比较,显示出100%一致性和完美的符合(k=1)。QIA工具的灵敏度、特异性、诊断准确性、阳性和阴性预测值均为100%。10例不确定性病例中的3例(约30%)被QIA报告为阳性。

 结论 

uPath(4B5)IA工具并不逊色于HER2 IHC的人工判读,并且,因为显著减少了不确定性的病例,有助于更深入地了解HER2 IHC分布谱系(HER2低表达和超低表达)。因此,QIA被证明是人工判读可行的替代方案。
116. 数字病理学和人工智能相结合在ER、PR、HER2和Ki67量化中的应用:临床实践获益和未来挑战


 背景 

数字病理学促进了使用算法来实现生物标志物更精确量化评估,这可能会减少与人工评估有关的一些困难并提高评分的准确性。作者在乳腺样本中验证并实施数字病理学,以便能够采用AI开发的算法来对乳腺癌患者IHC染色的全切片图像上的肿瘤生物标志物进行量化评估。

 设计 

采用数字病理学(Digital Pathology ,DP)对每个常规乳腺样本进行评估。对2022年4月至2022年12月,圣戈兰斯医院的423份乳腺活检样本进行了H&E和IHC分析,以了解ER、PR和HER2状态。患者通过H&E进行诊断,并在病理学家的监督下使用Mindpeak算法对生物标志物进行量化。由第二位病理学家对所有结果进行审查,且对不一致结果取得共识。作为实时质量控制系统,其中94例由第二位乳腺病理学家进行审查,在没有人工智能支持的情况下人工计数。之后,将其与人工智能辅助下获得的结果进行比较。不一致的诊断被收集在病例列表中。

 结果 

有人工智能支持的病理学家显示出更好的结果,并且GT的观察者间差异较小。就HER2而言,人工计数对于GT显示出93%的一致性,而人工智能支持的计数则显示出99%的一致性。具体到HER2 0/+1病例,人工计数与GT的一致性为95%,有AI辅助的计数一致性为97%。就Ki67而言,人工计数显示77%的一致性,而AI辅助的Ki67计数显示出95%的一致性。总共有11名具有争议结果的患者处于低于或高于5%的临界值附近;这是用于区分低增殖和中增殖的临界值。关于ER和PR,人工智能支持的病理学家和人工计数显示对GT的一致性为99%。HER2/Ki67不一致和有争议结果的样本是微乳头状癌、小叶癌、小管癌和经新辅助治疗的癌。观察者间一致性(以MDT前审查时修改诊断的病例减少来衡量)从71%增加到94%。与实施前相比,每位病理学家每周签发的病例数增加了两倍。


 结论 

AI解决方案减少了观察间的变异性,从而能更好地量化HER2和Ki67。提高了区分HER2 IHC 0和IHC 1+的准确性。
184. 乳腺癌HER2 IHC 0和IHC 1+的观察者间一致性及其与HER2 AI解决方案的一致性:一项来自中国10个中心的回顾性多机构研究


 背景 

HER2低表达乳腺癌概念的提出对区分HER2 IHC 0和IHC 1+提出了挑战。病理学家在HER2分类判读上存在不一致性,促进了对人工智能(AI)技术的需求。因此,本研究旨在评估HER2 IHC评分中观察者之间的一致性。此外,我们开发了一种基于WSI的AI工具来量化HER2表达,并评估其在判读HER2 IHC 0和1+评分中的作用。

 设计 

此项研究分为两部分,共有中国的10个中心参加,其中复旦大学上海癌症中心(FUSCC)为牵头单位。在第一部分中,收集来自每个单位(不包括FUSCC)的30张切片,在FUSCC重新染色。HER2 IHC结果由FUSCC研究小组和各单位研究小组分别独立评估。在研究开始之前,采用教学切片进行了回顾性培训。使用Cohen的Kappa系数评估FUSCC与当地单位观察者间一致性。在第二部分,开发了一种AI工具,该工具在判读HER2表达方面具有被认可的能力。这项研究评估了人工智能生成的结果与各中心人工判读的结果之间的一致性。该评估基于来自10个中心的已确认的IHC 0和1+的切片。

 结果 

共分析了270个样本来评估观察者之间的一致性。FUSCC的HER2 IHC评分与当地单位之间的总体一致率为82.2%(k=0.77);各中心一致率最高为90%(k=0.86),最低为76.7%(k=0.66)。HER2 IHC 0和1+的一致率分别为89.9%和81.1%。然而,HER2 IHC 2+的一致性较低,大多数病例(N=19)转为IHC 1+。由于所有19例均为FISH-,因此对HER2低表达诊断的影响有限。HER2 IHC 0和HER2低表达的一致率分别为89.9%和91.4%。在AI部分,AI生成的结果与人工判读结果之间的总体一致性为81.7%(451/552)。这提示了AI模型解读HER2 IHC 0和1+的能力与经验丰富的病理医生相当。值得注意的是,对于HER2 IHC 0和1+,AI模型展示的敏感性分别为0.800和0.834,特异性分别为0.833和0.802。这些发现表明AI在评估乳腺癌HER2低表达病例中的潜在准确性。


 结论 

这项研究证明在经过培训后,乳腺癌HER2低表达具有较高的观察者之间一致性。基于WSI的AI工具在判读HER2 IHC 0和1+评分方面显示出潜在的价值,这将有助于提高诊断的准确性和可重复性。
212. 结合人工判读和计算机辅助定量分析,实现 HER2 IHC评分标准化


 背景 

用于 IHC 分析的计算机辅助方法正在得到越来越多的采用。这些技术在观察者间一致性有限的情况下显得特别有用。本研究的目的是:评估计算机化HER2评分在乳腺癌标本病理评估标准化中的应用。这应该对于肿瘤内部具有不同表达强度的情况特别有用。

 设计 

为每个乳腺癌空芯针活检标本准备5张切片,进行H&E、ER、PR、Ki67和HER2染色。所有切片均使用MoticEasyScan Infinity以40X(0.26um/px)进行扫描,并由经过认证的病理学家使用传统显微镜和数字成像进行检查。并采用HER2 FISH对模棱两可病例进一步评估。使用HiPath Pro软件(Applied Spectral Imaging)进一步分析HER2 IHC图像。H&E图像上标记的感兴趣区域在组织匹配后自动转移到HER2样本。对自动识别的肿瘤细胞采用颜色编码叠加技术进行分割和分类。将计算机评估结果与人工判读进行比较。如果出现差异,则进行第二次人工判读。

 结果 

研究纳入了来自20名患者的20份活检标本。19个样本诊断为IDC或ILC,1个样本诊断为MCCD。病理报告显示ER+/PR+13例,ER-/PR-5例,ER+/PR-1例。14例Ki67>20%,3例<10%,3例处于临界状态。HER2 IHC结果为4例阳性,7例可疑,9例阴性。对所有可疑病例进行FISH检测,其中3例确认HER 2+,4例为HER2 -(表1)。其中一张失焦的图像从研究中删除。13例患者的计算机辅助HER2评分与首次人工判读一致。有2例首次读数为HER2(0)在二次读数时重新评分为HER2(1+)低表达,与计算机评估结果相匹配(图1)。另一例诊断为模棱两可(2+)并经FISH确认为阳性的病例,在软件分析时被重新评分为HER2(3+)。其余3例的计算机分析结果在复评后未发生变化。


 结论 

本研究证实了计算机辅助评分作为标准化HER2 IHC评估手段的潜在用途,特别是在HER2表达低的情况下。这进一步说明了在报告乳腺癌中的 HER2 IHC 时可以使用人工判读和计算机分析相结合的方法。
230 训练和验证用于乳腺癌染色全切片图像中HER 2评估的人工智能算法

 背景 

在20%的浸润性乳腺癌中存在HER2扩增,HER2扩增影响患者的预后及治疗反应。准确评估HER2状态对于治疗决策至关重要。我们开发了一种全自动的AI算法,用于精确量化HER2蛋白过表达,辅助病理学家进行HER2免疫组化评分。

 设计 

我们开发并训练了一种“端到端”的算法(end-to-end algorithm),用于对染色的乳腺癌全视野数字切片图像(WSI)中的HER2进行评分。所提出的算法可自动检测肿瘤的浸润灶区域,并允许对这些区域的肿瘤细胞进行定量和特征分析。为了实现这一目标,使用了3878张大小为512像素的HER2 IHC切片的图像块,在5x放大倍数下进行了注释,用来训练一个能够检测浸润灶区域的深度学习模型。随后,4793个图像块在40x放大倍数下进行了细胞级别的注释,并用来训练另一个模型用于分割细胞并分析细胞膜。因此,根据ASCO/CAP指南评分标准,这种详尽的量化方法被用于评估数字切片图像的HER2评分。所提出的流程为病理学家提供了可解释的HER2评分以及数字切片分析的详细信息,而无需病理学家的任何协助。该模型的性能评估是在预留出的数据集上进行的,将其预测结果与实际真实评分进行比较。

 结果 

一个包含56张HER2 IHC切片的预留数据集对该模型在评估 HER2 评分方面的性能进行评估,这些切片已经由病理学家进行了HER2评分。该数据集包括四个HER2类别:0(21%),1+(36%),2+(29%)和3+(14%)。模型在正确分类HER2评分方面达到了85.3%的平衡准确率。值得注意的是,该模型在准确识别两个最明显的评分(0和3+)方面表现出色,这两个类别均达到了100%的召回率。该流程还使用了由经验丰富的病理学家独立筛查的外部乳腺癌数据集进行了挑战。


 结论 

我们的“端到端”方法解决了基于AI的WSI处理中缺乏可解释性的问题,并消除了病理学家额外工作的需要,例如选择感兴趣区域。我们的解决方案在浸润性癌组织区域自动执行详尽的肿瘤细胞分析,并通过对HER2评分进行详细量化来提高可解释性。这些有前景的结果为改进AI辅助HER2评分,提高评分准确性和减少观察者之间的变异性铺平了道路。
249 人工智能在乳腺癌HER2免疫组化自动判读中的性能评估

 背景 

准确的HER2诊断对于HER2靶向治疗选择至关重要。然而,病理学家对HER2状态的评估常常表现出主观性。人工智能(AI)有望提高HER2判读的准确性和可重复性,但现有文献缺乏对用于HER2诊断的AI算法的系统评估。

 设计 

结合主题术语和自由文本,在PubMed、Embase、Cochrane和Web of Science数据库中进行了全面的文献检索。从成立到2023年9月共检索出4994篇关于研究乳腺癌中HER2表达的计算病理学文章。采用预设的纳入和排除标准后,选择了七项研究(图1A)。使用QUADAS-2工具对所选研究进行质量评估,并通过RevMan 5.4软件进行可视化分析。采用Meta-DiSc 1.4检测阈值效应,并在Stata 17软件中使用双变量混合效应模型进行数据汇集。

 结果 

这七项研究共包含6867个HER2识别任务,其中两项研究使用HER2-CONNECT算法,两项使用CNN算法,一项使用多类逻辑回归算法,两项使用HER2 4B5算法。根据QUADAS-2评估,大多数研究表现出较低的偏倚风险(图1B)。AI区分HER2 0/1+的敏感性和特异性分别为0.98 [0.92-0.99]和0.92 [0.80-0.97],无阈值效应(Spearman相关系数:0.321,p值=0.482)(图2A)。对于区分HER2 2+,敏感性和特异性分别为0.78 [0.50-0.92]和0.98 [0.93-0.99],也没有阈值效应(Spearman相关系数:0.357,p值=0.432)(图2B)。对于区分HER2 3+,AI的敏感性为0.99 [0.98-1.00],特异性为0.99 [0.97-1.00],没有观察到阈值效应(Spearman相关系数:-0.500,p值=0.253)(图2C)。然而,所有分析都显示出异质性。

\

图1. 文献纳入流程及QUADAS-2偏倚风险评估

图2. Meta分析森林图显示敏感性、特异性


 结论 

AI在识别乳腺癌中HER2表达方面表现出很高的准确性,但根据具体的HER2分级,其表现也有所不同。鉴于大多数研究的偏倚风险较低且存在明显的异质性,有必要进行进一步的研究来完善人工智能算法并扩展其在这一关键诊断领域的应用。

广东省中医院 杨海峰,青岛大学附属医院 王成勤 审校

作者简介




李国生

博士,主任医师/教授,硕士生导师

宁波市临床病理诊断中心
中国临床肿瘤学会病理专家委员会委员
中国妇幼保健学会病理学专业委员会委员
中国研究型医院学会超微与分子病理学专业委员会常委
中国抗癌协会病理学专业委员会乳腺与骨和软组织肿瘤病理学组委员
中国医师协会病理科医师分会分子病理专委会委员
美国约翰霍普金斯大学医学院/医院病理系/科进行博士后研修1年,专注呼吸、乳腺、神经及骨软组织等系统病理诊断,注重分子病理进展与病理诊断的结合。



周娜
医师,医学硕士 广东省中医院病理科 

亚专科方向:乳腺病理




陈旭

山东大学齐鲁医院病理科  主治医师 

山东省医学会病理学分会乳腺学组 委员兼秘书
山东省医师协会肿瘤免疫治疗医师分会 委员
济南市抗癌协会肿瘤病理专业委员会委员
主持国家自然科学基金1项,主持山东省自然科学基金1项。
以第一作者在 Journal of Pathology(IF 7.9)、J Exp Clin Cancer Res(IF 10.7)等杂志发表高质量SCI论文多篇。
END



【本文系原创文章,如需转载请标明来源;本订阅号为非盈利性专业学术交流平台,所有文章仅供公益交流,不代表本订阅号立场。热诚欢迎所有关心与支持乳腺病理发展的同仁,加入到我们的订阅号,积极推动我国乳腺病理事业的蓬勃发展,投稿邮箱:breastpathology@163.com】

乳腺病理
乳腺病理精彩病例和微课堂分享、优秀文献及重要会议推送,病理医师沟通学习交流平台。
 最新文章