关注+标星,邂逅每一篇经典!
文章摘要
在肿瘤中准确识别遗传变异,如成纤维细胞生长因子受体,对于使用靶向治疗至关重要;然而,分子检测可能因为所需时间和组织而延误患者治疗。成功开发、验证和部署基于AI的生物标记物检测算法可以降低筛查成本并加速患者招募。在这里,作者开发了一种深度学习算法,使用来自晚期尿路上皮癌患者的3000多张H&E染色的全切片图像,优化了高灵敏度以避免排除试验合格患者。该算法在350名患者的数据集上进行了验证,实现了曲线下面积为0.75,特异性为31.8%,在88.7%的灵敏度下,预计减少了28.7%的分子检测。作者成功地在一个包含89个全球研究临床站点的非干预性研究中部署了该系统,并展示了其在优先/非优先分子检测资源和在药物开发和临床环境中提供大量成本节约方面的潜力。
学术地址:
https://doi.org/10.1038/s41467-024-49153-9
代码地址:
https://github.com/CODAIT/deep-histopath/tree/master/deephistopath/wsi
https://github.com/johnsonandjohnson/FGFR_Device_Review
前世今生
对癌症组织进行全面的遗传和分子检测对于为医生提供可操作的见解以精确选择靶向癌症治疗至关重要。目前,成纤维细胞生长因子受体(FGFR)变异检测被用来识别可能从FGFR靶向治疗中受益的患者,例如BALVERSA™(erdafitinib),这是FDA批准的首个靶向治疗,用于治疗已经接受过基于铂的化疗的转移性或局部晚期膀胱癌患者2,3。例如,QIAGEN Therascreen FGFR RT-PCR试剂盒4,5是FDA批准的伴随诊断,用于筛选患者是否存在FGFR2和FGFR3基因的特定变异,这些变异决定了是否符合使用erdafitinib治疗的条件,也用于确定哪些患者符合使用erdafitinib治疗尿路上皮癌的临床试验的资格6–8。
尽管FGFR靶向治疗改善了临床护理9,但分子检测作为标准护理的广泛采用仍然缓慢,部分原因是其高成本和缓慢的周转时间,平均7天的检测结果周转时间10–14。此外,分子测试需要大量的组织,多达六片,每片4-5微米的肿瘤组织切片15,并且可能由于DNA/RNA质量差和低肿瘤纯度而未能检测到目标16。此外,FGFR基因仅在10-20%的晚期/转移性尿路上皮癌患者中发生突变16,17,导致大多数测试结果显示FGFR-。因此,找到快速、可靠的患者筛查策略对于改善患者护理和有效招募临床试验至关重要。
Hematoxylin和Eosin(H&E)染色是诊断癌症的常规组织病理学技术,它价格低廉,广泛实践,并提供肿瘤及其相关微环境的全面视觉表现18,19。以前的工作已经证明了计算病理算法在肿瘤分类和分割、突变分类、分子亚型和从H&E图像预测结果方面的可行性20–32。此外,最近的研究表明,一些FGFR突变家族可能与H&E染色图像中尿路上皮癌的细胞形态组织变化有关33,34。Loeffler35开发了机器学习模型,以预测数字化组织学幻灯片上个体肿瘤的FGFR3状态35–37。尽管有希望,但这些研究在FGFR3突变上AUC约为0.7,这些研究是在相对较小的数据集上进行的(即,<300个全切片图像(WSIs)),因此它们的普遍适用性尚不清楚。此外,这些算法并未专注于目前临床上可行的FGFR变异类别4,5。据作者所知,还没有这些算法在临床试验环境中使用的例子。在临床试验或临床实践中部署基于H&E的FGFR+筛查设备可能在多个方面有价值:(i)通过避免对不太可能携带遗传突变的患者进行分子检测来降低成本,(ii)通过为医生提供快速、可操作的见解来减少注册或获得正确靶向治疗的时间(即,丰富可能为FGFR+的患者队列)。
在这项工作中,作者描述了一种基于深度学习(DL)的算法的开发、验证和部署,该算法从晚期尿路上皮癌患者的常见H&E染色WSIs推断特定FGFR变异的存在。来自公共存储库、商业来源和内部临床试验的数据集被编译,算法在>3000名尿路上皮癌和FGFR突变状态患者的H&E染色WSIs上进行训练。在多个独立的大规模数据集和国际设备质量管理系统标准(ISO 13485)38规定的前瞻性实时临床环境中进行了严格的验证。该算法在一项非干预性临床研究6中前瞻性部署,该研究包括9个国家的89个全球研究站点,以在分子检测之前筛查患者,使医生能够停止对不太可能携带目标变异的患者进行分子检测,从而节省其他测试的组织。我们展示了这项技术减少筛查负担和提高试验效率的潜力。我们相信这项工作也为精准医疗迈出了一步,通过使医生能够快速、可操作地了解患者特定疾病,并在批准使用的地方增加获得有效、靶向治疗的机会。
匠心独运与卓越性能
图1 | 研究设计。从算法开发到验证和部署的数据集使用和工作流程。用于模型开发的全切片图像(WSI)来自三个不同的队列:407张来自癌症基因组图谱(TCGA)联盟,3161张来自BLC3001(NCT03390504)和184张来自BLC2002(NCT03473743)的两项erdafitinib试验7,8。从BLC3001队列中,选取了350个样本(150个FGFR+,200个FGFR-;FGFR+富集以实现约93%的统计功效)作为模型开发的一部分,该队列的试验人群最接近部署环境,以及来自ANNAR(NCT03955913)6的188个样本,这是部署试验,被留出用于回顾性验证,在将算法打包成可部署设备并上载到部署平台后。在开发和回顾性验证中没有使用相同的患者。此外,一个来自数据供应商的额外队列,包含361张来自多种肿瘤组织的幻灯片(即,PAN-Tumor),用于在工具部署后作为探索性分析评估算法在实体瘤上的性能。
图2 | 算法在保留数据集上的性能。在左侧图中,以黑色显示的是在保留数据(来自BLC3001、BLC2002和TCGA的582张幻灯片)上的性能;以红色显示的是在最接近部署环境人群的子集上的性能(来自582张幻灯片中的BLC3001子集,共420张幻灯片);以黄色显示的是在来自多种肿瘤组织的独立数据集上的性能(即PAN-Tumor,共361张幻灯片)。性能在图例中通过曲线下面积(AUC)进行了总结。表格中显示了根据算法性能和数据集FGFR+流行率值给出的敏感性、特异性和估计的分子检测减少率。
图3 | 可解释性分析。A-C 来自BLC3001的随机选择的真实阳性WSI示例,显示MIBC肿瘤组织和代表归一化注意力权重的热图(绿色)。注意力权重被归一化为1。每个面板右侧的颜色条映射到归一化权重,面板中的所有图像共享相同的颜色条。更亮的绿色区域代表模型认为对做出预测很重要的瓦片(更高的注意力权重)。请注意,无论幻灯片被预测为FGFR+还是FGFR-,算法仍然会产生用于推断的瓦片上分布的注意力权重。D-F 真实阴性WSI的示例和热图。G-I 来自(A-C)中显示的真实阳性的40倍放大下的高得分瓦片,显示出更多实体肿瘤细胞,分级较低到中等,总体上与之前观察结果一致33。J-L 来自(D-F)中显示的真实阴性的高得分瓦片,显示出相对更多的分散的细胞学分级较高的肿瘤细胞。
图4 | 回顾性验证结果。A 混淆矩阵,包括敏感性和特异性指标(目标和实际达到的)。请注意,此数据集针对FGFR+患者进行了富集,以实现93%的统计功效(FGFR的流行率为43%)。B 假设试验中典型的FGFR+流行率约为15%,并且观察到的算法性能如A所示,给出1000名患者的模拟混淆矩阵。请注意,通过基于图像的设备筛选的患者中有28.7%不会被推荐进行FGFR分子检测。C 根据中心实验室地点分层的性能。左侧图表显示每个地点的接收者操作曲线(ROC)和曲线下面积(AUC)值。右侧图表显示每个地点的敏感性点估计值以及95%置信区间(CI)。所有地点总计为n = 348个独立样本,分别分布在地点#1至#5,分别为n = 210, n = 47, n = 35, n = 30和n = 26。D 模拟的3级FGFR模型,展示了在标准临床环境中(分子检测可能不是标准护理的一部分)优先(或取消优先)患者进行分子检测的潜在临床效用。
图5 | 使用基于图像的FGFR预测设备进行患者预筛查的提议临床工作流程。临床工作流程显示了三个参与方:临床研究站点、中心实验室和带有基于图像的人工智能设备的云平台。中心实验室常规检测组织,以确定临床研究合格的FGFR变异(标准工作流程)。组织也被染色、扫描,然后自动化工具将图像发送到云平台,以运行FGFR设备(机器学习(ML)工作流程)。然后,医生可以在在线门户上评估FGFR设备预测,并在48小时内通知中心实验室取消分子测试。
图6 | 部署环境验证和全面部署结果。A 混淆矩阵,显示来自中心实验室站点(n=17)和ANNAR的补充回顾性样本(n=171)的实时样本摄取的敏感性和特异性指标。B 在1.5个月的全面部署期间的结果。FGFR设备实现的敏感性为100%,特异性为19%(基于分子检测结果的FGFR流行率为15%)。由于图像质量问题(即,没有足够的高质量瓦片来生成预测),FGFR设备无法为2名患者生成预测。
图7 | 成本节省分析。A 使用图4A中展示的高灵敏度模型(88.7%的敏感性,31.8%的特异性)的分子检测减少百分比与生物标记物流行率的关系。在这种情况下,预测生物标记物阴性的患者将被从分子检测中取消优先级(即,在像ANNAR这样的临床研究中排除在预定义地点的患者)。B 使用FGFR模型的不同操作点检测到的FGFR+患者百分比与接受分子检测的患者百分比,与没有AI的情况相比较。每条曲线代表给定生物标记物流行率的增强。红色和蓝色虚线代表图4D中模拟的3级模型的“低”和“高”操作点。C 使用模拟的3级模型进行流行率富集。注意,“高”与基线相比显示了与基线流行率相比的“高”组的富集,而“高”与“低”相比显示了“高”组与“低”组相比的流行率富集。
图8 | FGFR设备概览。该设备是一个Docker容器,其中包含算法并结合了错误检查,这使得它能够轻松集成到临床工作流程中。它以图像及其相应的元数据作为输入,并输出该图像的FGFR可能性。当幻灯片不符合预先指定的标准时(例如,组织部位必须是膀胱,来自MIBC疾病阶段,并且必须有10倍放大的图像),设备将向临床医生显示解释性错误消息。同样,如果图像未通过质量控制(例如,图像损坏或丢失,或者没有足够的高质量瓦片进行预测),它将通知用户。这些检查确保了设备只会在与训练时使用的数据分布相同的数据上运行。
总结展望
在这项研究中,作者开发并验证了一种基于深度学习算法,通过使用来自大规模膀胱癌临床试验和现实世界数据源的H&E染色组织的图像,推断特定FGFR遗传变异的存在或缺失。在多个回顾性数据集上展示了高性能(即,在BLC3001、BLC2002和TCGA合并数据上AUC为0.80,在PAN-Tumor数据上AUC为0.75,在回顾性验证上AUC为0.75),并表明该算法能够准确地解释病理学家认为典型的FGFR+突变肿瘤的形态学特征(图3)。还证明了在分子检测前在真实临床试验中部署算法的可行性,能够排除那些不太可能携带目标变异的患者,并展示了这种基于AI的生物标记物模型在减少筛查负担、优先测试资源、提高试验效率和提供可操作的临床见解方面的潜在影响。
这项研究在多个方面代表了该领域的进步:(1) 算法的开发和验证使用了多个独立的数据集,包括超过3000名尿路上皮癌患者,这允许对基于H&E的FGFR预测算法进行强有力的性能验证;(2) 算法经过回顾性和前瞻性验证,遵循国际设备质量管理体系标准(ISO 13485)38,然后在一个非干预性研究6中积极部署,该研究包括9个国家的89个全球研究站点;(3) 实现的性能表明,在部署时分子检测可能减少28.7%,这将转化为减少筛查负担和提高试验效率;(4) 在标准临床环境中(分子检测可能不是标准护理的一部分)优先(或取消优先)患者进行分子检测的潜在临床效用通过从低到高可能性组的>8倍富集得到了证明。
作者优化了算法,以高灵敏度避免排除试验合格患者,并减少对继续进行分子检测的患者的选择偏差。这是临床和试验操作团队对在进行中的试验中部署预筛选设备的要求。在这里,患者已经注册了观察性研究,他们的样本被送去进行分子检测。如果患者样本对合格FGFR变异的阳性可能性很低,则预筛选设备被用来建议停止分子检测。假阳性FGFR预测将通过分子检测本身排除。然而,其他部署场景可能需要针对特异性调整阈值。例如,如果有有限的资源用于分子检测,一个团队可能希望将这些测试用于最有可能被识别为生物标记物阳性的患者,从而为分子检测提供富集的队列。图4D代表了这种情况,展示了一个将患者分层为三组的设备的模拟结果。根据可用资源和诊所的不同标准,医生可以利用算法的结果来决定是否执行分子检测。正如你可以看到,“高”组中患者生物标记物阳性的概率(约49%)比“低”组的患者(约6%)高>8倍。医生在为患者做出护理决定时会发现这类信息是无价的。此外,算法还提供了调整灵敏度以适应不同用例的附加价值。这种灵活性允许为各种部署场景和临床决策过程进行优化,最终导致更好的患者护理。
算法在尿路上皮癌保留数据上保持了高性能;然而,观察到模型在PAN-肿瘤数据集中对非尿路上皮组织也表现良好(图2),其中包含了来自不同组织部位的样本(例如,大脑、肝脏、肺、前列腺、皮肤等)。虽然看到了性能的轻微下降(AUC = 0.75),但结果表明肿瘤组织中的FGFR变异可能在不同组织中赋予一组共享的形态学特征。拥有一个PAN-肿瘤FGFR模型在研究FGFR变异的其他组织类型中可能很有价值,并可以为这些环境中的生物标记物发现工作提供信息。在训练期间纳入泛肿瘤样本并尝试更近期的分析技术,可以受益于进一步开发可以应用于肿瘤类型的生物标记物模型。
虽然算法最初是作为一个具有CNN骨干的多实例学习注意力网络设计的39,但计算机视觉方法在技术进步方面的快速发展已经超过了适当的开发、验证、在全球临床研究中部署,以及起草本文与科学界分享经验所需的时间。
值得注意的是,像视觉变换器网络这样的新方法已经作为CNN的替代品出现了40,有潜力提供更高的性能,特别是在训练较小数据集时41。此外,自监督学习(SSL)在组织病理学领域也显示出有希望的结果,使模型能够更普遍地跨扫描仪、染色程序和组织类型42,43。在最近的工作43中,作者展示了如何通过SSL使用大型未标记数据集(由来自多个扫描仪、医院系统、疾病阶段和组织部位的25k WSIs组成)对本文提到的模型的CNN进行预训练,从而得到一个更普遍化的模型,在检测非肌层浸润性膀胱癌(NMIBC)和泛肿瘤WSIs中的FGFR+方面性能有所提高。
尽管在性能上取得了这些进步,但基于AI的生物标记物工具的可解释性仍然是一个重大挑战。尽管在这方面已经做了一些工作33,但普通病理学家没有接受过从H&E染色幻灯片推断FGFR变异(或其他)的训练,因此不应被视为评估算法性能的参考点。然而,从病理学角度可以获得算法的注意力分数的见解,这些分数可以突出显示WSI中被认为对算法生物标记物预测更有(或更少)信息的区域(图3)。在这里,积极预测的WSIs倾向于有显示较低细胞形态学分级的实体肿瘤巢的瓦片,而消极预测的WSIs倾向于有显示较高细胞形态学分级的分散肿瘤巢的瓦片,总体上与亚专业病理学家的有限先前描述一致33。因为与肿瘤检测算法不同,基于AI的生物标记物检测工具的结果不能通过人类病理学家查看WSI来确认,这些工具必须经过深思熟虑的设计和测试,以确保医生可以自信地将这些见解纳入他们的护理决定。
在这里,作者展示了一个阶段性验证策略,利用多个独立数据集,并在整个过程中纳入决策点。与临床和监管利益相关者合作,我们开发了一个回顾性验证研究,有两个关键因素在考虑之中:(1) 研究具有足够的能力,以可靠地确认设备相对于预先指定的成功标准的性能,(2) 研究代表计划在ANNAR研究中部署的环境。BLC3001研究提供了一个数据集,使得可以进行一个能力充分且具有代表性的验证研究,因此在进行功效计算后,为回顾性验证步骤留出了足够数量的样本(150 FGFR +,200 FGFR-),遵循国际设备质量管理体系标准(ISO 13485)38的指南。为确保这些样本的完整性,仅在选择了模型、锁定并打包用于部署后,才执行了回顾性验证步骤。在模型开发过程中,为评估在交叉验证训练模型后的性能而留出了部分开发数据集(即,保留数据),并通过与各方利益相关者的讨论,基于在保留数据中的性能,在几个不同的高性能模型中选择了最终模型,此时锁定了模型,我们继续进行回顾性验证。回顾性验证步骤之后,利用ANNAR研究中的数据,在计划的部署环境中进行了进一步的验证。这包括两部分:(1) 根据注册在ANNAR研究中的患者进一步评估性能,(2) 将设备实时部署到样本工作流程中,以识别和克服可能出现的任何技术障碍。虽然从正在进行的ANNAR研究中收集的回顾性样本对于额外的验证来说可能是理想的,但ICF仅允许分析来自FGFR+患者的图像。为了在测试FGFR-或尚未接受分子检测的患者上部署基于AI的工具,提交了更新的ICF并获得了当地审查委员会的批准。因此,部署环境验证步骤包括比标准人群预期的FGFR+样本显著更多,但尽管如此,它仍然能够确认算法的敏感性,这是项目利益相关者的高优先事项。这一步还提供了一个机会,以测试和优化实时数据流,因为设备被嵌入到现有工作流程中。
这项研究中的部署工作流程(图5)被调整以无缝嵌入到现有的实验室工作流程中,并优化以快速返回结果,以便能够做出决策和即时调整(平均TAT约为1小时)。主要的瓶颈是中心实验室将图像上传到部署云的过程,这每天只执行一次,在每个工作日结束时。尽管如此,在这个环境中基于图像的设备结果的周转时间小于24小时,并且调查人员在图像生成后有48小时的时间窗口来停止分子测试工作流程。如果调查人员在那个时期没有回复查询,分子测试或研究注册的工作流程就会继续,以避免分子测试或研究注册的延迟。将FGFR设备纳入现有工作流程还提供了另一个好处;它为那些由于缺乏足够的RNA或肿瘤组织而无法进行分子检测的患者提供了FGFR状态的见解。这种策略可能被证明是节省与分子检测相关的资源的有效方法,通过排除可能为生物标记物阴性的患者;然而,其他部署策略可能提供其他好处。
虽然选择在中心实验室部署算法以优化使用算法筛查的患者数量,但未来的努力可能会采用“分散”策略,在每个单独的临床站点本地部署算法。在那种情况下,组织幻灯片和图像将在现场扫描和生成,避免了将组织运送到中心实验室的需要。虽然部署的复杂性增加了,但分散策略的明显优势是减少了从算法获得见解的时间。即使优化了中心部署中向医生快速返回算法结果,也无法绕过将样本运送到中心实验室所花费的时间。在分散部署环境中,算法可以由医生在现场利用,以通知是否注册患者或是否运送组织。
此外,它将允许拥有更流畅的工作流程,考虑到站点级别报告算法结果的范式异质性。部署过程中的一个挑战是要求使用两个不同的网络门户,一个用于报告算法结果,另一个用于评估分子检测结果和报告测试取消,后者已经由中心实验室的临床站点使用。这可能为临床站点调查人员在根据算法预测报告测试取消时增加了额外的困难。人们可以很容易地想象这样一种场景,即这种类型的生物标记物检测算法在部署设备的所有合格患者中普遍使用,为医生提供快速、可操作的见解,可以实时通知治疗或测试决定。
尽管生物标记物检测在临床护理和膀胱癌患者的试验注册中很重要,但由于高昂的测试成本、有限的检测可用性和缓慢的周转时间(特别是在学术医疗中心之外),分子检测的采用可能会受到限制。当生物标记物流行率低且需要高测试覆盖率以确保生物标记物阳性患者能够正确匹配最佳疗法时,这些挑战就更加复杂了。利用在回顾性验证中获得的AI性能(即,ROC曲线)(图4C),试图更好地了解基于AI的生物标记物筛查工具的潜在影响(图7)。分析表明,通过AI预筛查,在试验筛查期间可以减少>30%的分子检测,同时最小化患者被错误分类为生物标记物阴性和不符合试验条件的风险(图7A)。这种AI启用的分子检测减少可以转化为治疗患者或运行临床试验的医疗保健系统的大量成本节省。例如,在2019年,美国估计有80,500名患者被诊断出患有膀胱癌,其中30%(约24,000人)患有肌层浸润性癌症44。大约15%的患者(3,600人)可能是FGFR+,但对所有患者进行NGS测试(假设每次测试成本为5000美元45)将导致分子测试费用约为1.2亿美元(每个检测到的FGFR+患者约33,000美元)。然而,结果显示,基于AI的筛查设备每年可以节省约3500万美元,同时保持高(约90%)的敏感性,导致每个检测到的FGFR+患者的分子测试成本约为26,000美元。此外,分析表明,基于AI的分子测试预筛查可以产生明显富集的患者队列,这可以使得在更少的测试中检测到更多的生物标记物阳性患者(图7C)。根据AI筛查工具优先进行分子测试,可以通过仅测试约15-20%的患者,检测到大约一半的所有生物标记物阳性患者(图7B)。这表明,前约1800名FGFR+患者可以被检测出来,成本约为2000-2200万美元(每个FGFR+患者约12,000美元),这与随机测试(目前没有可用的富集工具)需要6000万美元来识别1800名患者的成本相比,是一个显著的改进。值得注意的是,剩余的约1800名FGFR+患者需要近1亿美元的分子测试才能发现(每个FGFR+患者约55,000美元)。AI生物标记物预筛查可以作为一种成本效益的方法,扩大对那些可能为生物标记物阳性但因缺乏访问或有限的组织可用性而无法接受生物标记物测试的患者群体的测试。
这项工作构成了在临床环境中实施基于AI的筛查的里程碑。作者展示了在临床环境中对基于AI的筛查工具的稳健验证和部署。这种算法的部署可以增加对FGFR驱动疾病的患者群体的护理访问,特别是在FGFR抑制剂被批准使用的地区。此外,展示了基于AI的生物标记物检测算法在临床和药物开发环境中富集患者群体的潜在经济影响。最重要的是,有了这种类型的算法,相信医生可以获得快速、可操作的对患者特定疾病的见解,并及时、高效地做出更明智的护理决定,从而改善患者结果和生活质量。
参考文献:
Juan Ramon, A., Parmar, C., Carrasco-Zevallos, O.M. et al. Development and deployment of a histopathology-based deep learning algorithm for patient prescreening in a clinical trial. Nat Commun 15, 4690 (2024).