《World Neurosurgery 》杂志2020 年7月22.日在线发表美国University of Virginia Health System的Soldozy S , Farzad F , Young S等撰写的综述《计算时代的垂体肿瘤,应用机器学习探索诊断和结果预测的新方法。Pituitary tumors in the computational era, exploring novel approaches to diagnosis and outcome prediction with machine learning.》( doi: 10.1016/j.wneu.2020.07.104. )。
机器学习已经成为垂体手术中有用的东西。在过去的十年中,帮助诊断垂体病变和预测经蝶窦手术术中和术后并发症的机器学习模型的数量,发展呈指数性增长。随着计算处理能力的不断增强,大数据集的不断扩展,以及预测工具的学习算法不断超越黄金标准,机器学习将成为改善患者医疗和治疗结果的重要组成部分。机器学习的领域很广泛,放射组学和人工神经网络是垂体手术中两种常用的监督学习方法。放射组学的作用是量化特定的影像学特征,然后可以用于非侵袭性地识别肿瘤特征并做出明确诊断,从而避免术前活检。神经网络可以适应预测术中视觉诱发电位或脑脊液漏的变化。此外,这些算法可以联合其他算法来预测肿瘤的进袭性(tumor aggressiveness)、大体全切除术、复发和缓解,甚至总的费用负担。考虑到垂体和鞍区病变的巨大异质性,机器学习的前景在于它能够识别关系和模式(identify relationships and patterns ),否则标准统计方法就会隐藏这些关系和模式。
介绍
鉴于人工智能(AI)算法的进步、临床数据集的可获取性以及计算处理能力的增强,机器学习(ML)已经开始在医学的各个领域获得吸引力。机器学习(ML)代表统计学和计算机科学的聚合,其最终目标是构建分析模型,以确定数据集之间的关系和类似模式。这些数据集被称为训练集,用来微调自适应模型的参数。通过使用多个变量和模式识别,这些模型可以在不同的样本中呈现相似的主题,以期分离出临床上有用的信息。这不仅包括增强诊断能力,而且还包括识别临床结果的预测因子。这已经在包括在成人和儿童人群中的胶质瘤、脑膜瘤、血管畸形和转移瘤在内的各种脑瘤中得到了成功的证明。对于鞍区肿瘤,机器学习(ML)只是最近才成为预测诊断和术后结果的工具,与其他类型的肿瘤相比,它的研究较少。磁共振成像(MRI)仍然是诊断垂体和其他鞍区病变的金标准,使神经外科医生能够评估是否累及邻近的重要结构,如海绵窦或视交叉。虽然垂体腺瘤占所有鞍区肿块的90%,但术前诊断并不总是可能的。此外,传统的MRI研究并不能预测脑脊液(CSF)漏、早期结果、复发和对邻近结构的潜在危害。因此,将机器学习(ML)纳入当前的实践标准可以填补这一空白,同时也可以加强术前计划和改善患者医疗。
在这篇综述中,作者探讨了关于垂体和鞍区病变的机器学习(ML)的现状,主要集中于在病变鉴别、诊断和预后背景下的放射组学和神经网络。
机器学习和垂体病变
机器学习,也被称为深度学习,代表了工程学、统计学和计算机科学之间的结合,从而能从计算机学习和从巨大的数据集中得出结论。更具体地说,这个领域可以分为监督式学习(supervised learning)和非监督式学习(unsupervised learning)。深入解释这些概念超出了本综述的范围;然而,图1表示了一个简化的机器学习(ML)的工作流程。此外,补充表1包含了几个与机器学习(ML)相关的定义,可以在需要时引用。
放射组学(Radiomics)
在Fan等的研究中,分泌生长激素(GH)的垂体腺瘤患者的Ki - 67指数是使用放射组学预测的,这是种使用机器学习量化和分析影像学特征的方法。病人出现肢端肥大症,且Ki - 67的表达是已知的增殖性潜力和肿瘤进袭性的标志物。共有138例已知Ki-67指数的肢端肥大症患者被纳入这项回顾性研究。患者被随机分配到初级队列或训练队列(n=82)和验证队列(n=56)。外部验证包括来自三个不同中心的25例肢端肥大症患者。三种算法依次减少冗余放射组学特征(redundant radiomics features),最终得到17个放射组学特征,以构建放射组学预测模型或信号(signature)。验证后,根据放射组学信号和先前选择的临床特征(年龄、性别、肿瘤体积等)构建放射组列线图表(nomogram),验证队列的曲线下面积(AUC)为0.91,准确性为79%。这被发现优于单独使用临床特征来预测增殖指数。Ugga等人还试图评估机器学习(ML)分析在预测Ki-67增殖性指数方面的准确性。共纳入89例经蝶窦切除术的有组织病理学上Ki-67标记指数的患者(训练组53例,试验组36例)。与上述研究类似,利用放射组学软件提取T2加权MR成像的纹理导出参数。最终,通过Pearson’s相关分析从最初的1128个特征中筛选出4个表现最好的放射组学特征。对于Ki-67指数较低的患者,敏感性和特异性分别为96%和80%(曲线下面积(AUC) =0.87)。Ki-67指数高的患者的敏感性和特异性分别为80%和96% (AUC=0.87)。试验组中,正确分类患者的总正确率为91.67%(33/36)。传统上,Ki-67指数需要对肿瘤活检样本进行测序或免疫组化,由于活检的特定部位存在肿瘤异质性因素,结果会发生变化。
放射组学也可以用来直接预测垂体腺瘤海绵状窦侵袭。在Niu等人的一项研究中, 194例 Knosp 2级或3级垂体腺瘤患者(训练集n=97;试验集n=97)纳入该项回顾性研究。放射组学特征由对比增强(CE)-T1和T2加权MRI成像确定。CET1加权MRI优于T2和CE-T1+T2组合,敏感性和特异性分别为80%和81% (AUC=0.826, 95% CI=0.804-0.844)。将放射组学信号与临床(性别、年龄)和放射影像学特征(肿瘤体积、Knosp分级、肿瘤直径、出血、鞍上侵袭、动脉周围强化,外周静脉腔闭塞)结合,生成放射组学列线图(radiomics nomogram)。放射组学列线图在测试集中表现最好(AUC: 0.871, 95%CI=0.857-0.885,敏感性:86%,特异性:76%),优于单独的临床和放射影像学特征(p = 0.035,测试集)。
Zhang等人同样将放射组学应用于垂体腺瘤手术,尽管他们的重点是在术前预测和区分无功能垂体腺瘤(NFPA)和零细胞腺瘤(NCAs)以及其他亚型。在112例患者的队列中(训练集:n=75;试验集:n=37),从T1加权MRI和CE -T1加权MRI中初步提取1482个定量影像学特征。最终使用支持向量机(SVM)算法(一种监督式学习模型)选择三个放射组学特征。与CE-T1放射组学特征相比,T1加权MRI的两组检测结果均优于CE-T1(敏感性81% 相比58%,特异性82% 相比 46%,曲线下面积(AUC) = 0.80 相比0.51)。人们认为,这种差异可能部分是由于患者对对比剂摄取的差异,影响了CE-T1结构特征的信号强度。结合性别和放射组学特征,建立的列线图(nomogram),在测试集显示良好的模型性能(AUC=0.857, 95% CI=0.816-0.897)。既往研究表明,手术切除后放疗仅对零细胞腺瘤(NCAs)和侵袭性生长激素腺瘤有效,对嗜酸细胞瘤(oncocytoma)疗效有限;此外,目前的诊断局限于术后背景下的电子显微镜中。通过放射组学,Zhang等人为无功能性垂体腺瘤(NFPAs)提供了一种无创的分类系统。
预测放射治疗反应是放射组学在肢端肥大症患者中的另一个应用。在Fan等人的一项研究中, 纳入57例接受术后放疗的肢端肥大症患者。3年后,23例患者缓解,32例没有缓解。从1561个放射学特征中,3个是从T1加权MRI, 2个是从CE-T1加权MRI, 1个是从T2加权MRI中选择的。最终形成了结合这些特征的放射组学特征,其表现优于单独结合临床和放射学特征。与其他研究类似,联合放射组列线图(nomogram)总体上表现最好,敏感性和特异性(AUC=0.96)分别为91%和92%。放射组学列线图(nomogram)的决策曲线分析表明,在预测放射治疗反应的阈值概率>0.56%时,有净效益(net benefit),证明了临床有效性。因此,放射组学可以将术后容易接受放射治疗的病人与术前未接受放射治疗的病人进行分层。
放射组学也被用于垂体腺瘤以外的病变类型。这包括确定颅咽管瘤的分子诊断(BRAF 相比 CTNNB1突变),以及在接受免疫检查点阻断治疗的患者中鉴别垂体转移瘤和自身免疫性垂体炎。总的来说,这些初步结果表明放射组学是一种很有前途的工具,可用于术前计划和结果预测。
神经网络
人工神经网络(ANN)是一种在监督式机器学习中使用的算法,试图识别多个复杂和非线性模式。正如“神经网络(neural network)”的名字所意味的那样,这个模型试图模仿大脑中神经元的结构和行为;这可以被认为是动物的视觉皮层,在重叠区域中组织的多层神经元逐渐接收原始视觉数据,经过每一层转换,直到加工后得到最终可解释的输出。有很多种类的网络,每一种都有自己的优点和缺点,更多的信息可以在补充表1中找到。
Kitajima等利用人工神经网络(ANN)鉴别确诊43例生长于鞍上和鞍上的垂体腺瘤(20例)、颅咽管瘤(11例)和Rathke裂囊肿(12例)。具体来说,采用了一种带有反向传播算法的单个三层前馈的人工神经网络(a single three-layered feed-forward ANN with a backpropagation algorithm)。该模型设计纳入10个输入数据:患者年龄和9个MRI表现。单独用于三种疾病的分化的ANN平均AUC为0.990,表明该模型具有很高的水准。神经放射科医师的曲线下面积(AUC)为0.952 (p=0.038),高于普通放射科医师的曲线下面积(AUC)为0.876 (p=0.0083)。当神经放射科医生使用ANN时,他们比其他方法更有可能确诊Rathke裂囊肿(5例),对于所有三种类型的病变,这种增加的益处在普通放射科医生中更为明显。当囊变在垂体大腺瘤中占很大比例时,MRI可能与颅咽管瘤或Rathke裂囊肿相混淆,导致确诊困难。这项研究表明,神经网络可以作为放射科医师鉴别鞍区病变类型的工具。
人工神经网络也被证明可以预测经蝶手术中发生的并发症。Qiao 等人在对76例经TSS术后合并视交叉压迫的鞍区肿瘤患者的研究中,试图创建一种深度学习模型来分类和预测手术减压过程中闪光视觉诱发电位(VEP)监测的变化。输入数据由5分钟时间内连续的VEP图像组成,总共生成了39802个图像并用于模型构建(图2)。在模型的研究中,作者发现了一个结合CNN(传统神经网络)和周期性的神经网络(recurrent neural network)(递归神经网络[recursive neural network]的一种变体)产生最好的准确性(87.4%,95%置信区间ci = 84.2% - 90.1%),预测的VEP没有变化、VEP升高并VEP减低的敏感性分别为92.6%,78.9%,和83.7%,。预测VEP无变化、VEP升高、VEP降低的特异性分别为80.5%、93.3%和100%。研究发现,后期的VEPs在时间进程(the time course)和振幅形态(amplitude morphology),特别是P2-N3-P3复合物,是决定输出的重要预测因子。
Staartjes等人,也使用ANN来预测和分层术中CSF漏的高危患者。经鼻蝶窦入路垂体腺瘤手术的154例患者中,有45例(29%)有脑脊液漏。作者训练了一个多层感知器(五层)人工神经网络(ANN)。利用超参数调优(hyperparameter tuning),评估几个不同的模型,以微调在给定一组输入或参数下表现最佳的模型。最终,选择以下变量:性别、年龄、既往TSS手术史、,Knosp与Hardy分类、切除的目标水平,在颈内动脉C4段水平最大水平位的腺瘤直径和最小颈动脉间距离之间的比值(R ratio),术中使用3T-MRI和腺瘤分泌状态,体积,和3个轴向的直径。传统的单因素或多因素统计方法不能确定这些因素对术中脑脊液漏的预测作用。然而,人工神经网络预测模型在测试集中成功地准确划分了88%的患者,敏感性和特异性分别为83%和89%,AUC为0.84。同时测定阳性预测值(71%)和阴性预测值(94%)。清晰的可切除性和术中3T-MRI的应用可降低脑脊液漏的风险;然而,年龄、手术史和鞍上Hardy分级高与有脑脊液漏风险呈正相关。所有其他变量都是非预测术中脑脊液漏的因素。尽管这项研究来自单个三级医疗中心,需要外部验证,但这些数据表明机器学习(ML)在识别其他隐藏的脑脊液漏预测因子方面比传统统计方法有很大优势。
深度神经网络也可用于预测术后结果。这包括预测垂体腺瘤TSS术后的大体全切除(GTR)和预测库欣病TSS术后患者出现复发和缓解。在另一项Staartjes等的研究中,作者在140例接受TSS的垂体腺瘤患者中,通过训练深度神经网络来预测GTR,并比较传统逻辑回归分析和将Knosp分类作为黄金标准的模型的有效性。该模型具有较高的准确率(91%)、敏感性(94%)、特异性(89%)和极好的曲线下面积(AUC)为0.96。与logistic回归分析相比,这是一个有统计学意义的改进(P<0.001),总体上优于Knosp分级(AUC: 0.87,准确性:81%,敏感性:92%,特异性:70%)。Knosp分级、R比率、肿瘤直径和体积等因素与GTR呈负相关,而非侵袭性Knosp分级是GTR的重要相关因素。尽管Knosp分级只能提供基于鞍旁扩展程度的预测,但该机器学习模型的优势在于它将该信息与包括肿瘤和鞍区测量值以及人口因素等其他参数结合在一起。
由于对库欣病经鼻腺瘤切除术后复发缺乏准确的预测因子,Nadezhdina 等在349例患者中开发了一种利用ANN预测3年缓解或复发的模型。术后早晨的皮质醇或促肾上腺皮质激素(ACTH),单独或联合使用都不能用传统的逻辑回归分析预测复发。选择了三层感知器ANN。输入参数包括性别、年龄、病程、腺瘤类型、术后早期早晨ACTH水平和早晨皮质醇水平。该模型是TSS术后3年内库欣病复发的有效预测因子(曲线下面积0.912,准确度92%,敏感性75%,特异性97%)。该模型倾向于过度诊断,15%的缓解病例预测复发,7%的病例预测诊断不足。鉴于这个模型的功效,有一个基于web的程序开发和使用应用程序:https://medcalc.appspot.com/eng_ver.。在另一项研究中,Liu等人还利用不同的机器学习算法来开发一个模型预测库欣病的复发,虽然这个模型不如上述(AUC: 0.781)。
机器学习的其他模式
虽然我们的重点是放射组学和神经网络,许多其他机器学习算法已被用于垂体外科领域。例如,基因表达谱(gene expression profiling)与支持向量机相(SVM)结合,开发出一种分类工具,用于筛查和早期诊断进袭性儿童疾病:牙釉质型(adamantinomatous)颅咽管瘤。 支持向量机(SVM)还被用于利用质谱成像分析(mass spectrometry imaging analysis)对功能性垂体腺瘤和无功能性垂体腺瘤进行分类,可在30分钟内完成,成为术中手术决策的有用工具。最近,一个基于人工智能(AI)的图像分段算法(imaging segmentation algorithm)用来显示库欣病(CD)经蝶窦手术切除(TSS)患者的可逆性灰质 改变(reversible gray matter changes)。另一项研究所研发的模型,发现围手术期钠含量低、年龄、身体质量指数(BMI)是预测垂体腺瘤手术后早期成果的三大因素。 Kocak等人通过T2-MRI纹理分析(T2-MRI texture analysis),确定分泌生长激素的垂体大腺瘤患者对生长抑素类似物反应的分类方法。机器学习甚至被用来预测经蝶手术切除(TSS)的总的花费,识别延长的住院时间、非选择性入院、非南方医院地区、少数民族、术后并发症和私人所有权投资医院是总成本的驱动因素,因此,是降低成本的潜在目标。
讨论
20世纪90年代,机器学习首次进入神经外科领域,早期的研究集中于颅内肿瘤的描述和组织特征。从那时起,评估机器学习(ML)在神经外科中的研究数量在过去十年中呈指数性增长,其中包括评估机器学习(ML)模型在术前计划、术中指导、神经生理监测和神经危重症护理中的应用。对于鞍区病变,机器学习(ML)不仅在诊断描述方面,而且在术中和结果预测方面也显示有良好的前景。
临床和外科考虑
从临床的角度来看,机器学习(ML)可以作为手术前计划过程中有用的辅助手段。例如,Niu等人,认为放射组学检测垂体肿瘤海绵窦侵袭(Knosp 2级和3级)优于单独的临床或影像学特征(p=0.035)。术前对鞍旁扩展的检测是难以捉摸的(Elusive)。除了其他间接的放射影像学征象外,在高分辨率T2加权冠状位磁共振上,海绵窦内侧壁的中断,是目前可以在术前评估腺瘤侵袭性的方法。无论是由于伪影还是缺乏专用的成像序列,高场强扫描仪对内侧壁中断的检测一直是前后矛盾。此外,区分海绵窦压迫和侵袭仍然困难。因此,与传统方法相比,放射组学可以减少手术外科医生因肿瘤侵袭海绵窦而措手不及的可能性。考虑到海绵状窦内重要解剖结构受损的风险,这样就能进行更适当的术前计划,以及对患者的切除范围和可能需要的额外的放疗设定更合理的预期。然而,在将本研究结果应用于日常实践之前,还需要进一步的多中心验证。
与放射治疗相比,预测治疗反应是将机器学习(ML)纳入垂体病变治疗模式的另一个潜在益处。Fan等研发出一种放射组学模型,能够更好地根据肿瘤放射敏感性对肢端肥大症患者进行分层。鉴于行肢端肥大症放射治疗后,一些患者的代谢状况可能较差,且可能增加死亡率,因此,预测哪些患者对放射治疗有积极或较好的反应将特别有用。然而,该研究的单中心性质使得很难对该数据得出结论,需要进一步验证。此外,我们还将对其他鞍区病变的放射治疗反应性进行研究。
局限性和对进步的挑战
包含的数据存在几方面的局限性。首先,许多研究强调的临床特征实用性有限(limited utility.)。这包括所掌握的Ki-67指数或者分子诊断等信息,并不一定会改变计划的治疗策略。此外,外科医生的技术和技能,包括放射肿瘤科医生的技术和放射手段有很大的差异性,这使得这些单中心的研究难以推广。值得注意的是,感兴趣区域(ROIs)的提取并没有得到不同中心其他放射科医生的交叉验证,这进一步增加了这些发现的异质性。未来的挑战包括标准化和验证这些机器学习(ML)范式,以使输出一致并适用于广泛的临床场景和患者群体。虽然机器学习(ML)是一个很有前途的概念,但在垂体手术中其仍处于困境。
结论
机器学习只是最近才开始在垂体外科领域受到欢迎(gain traction)。可用于研发放射组学(radiomics)、神经网络和其他许多机器学习技术的各种各样的模型和不同权重组合的方案,,利用人工智能(AI)的优势,希望能解释这些数据的输出并将这些方法应用于日常实践,从而构成对从业者的挑战。目前,所述研究纳入的统计方法和机器学习算法之间缺乏一致性。此外,用于数据提取的成像序列也各不相同(T1相比对比增强的CE-T1相比T2相比上述组合)。鉴于缺乏标准化,需要在模型研发方面达成共识,以便对数据进行有意义的外推(meaningful extrapolation of data)。此外,在机器学习可以实际融入日常实践之前,在更大型的、多中心的试验中进一步验证是必要的。尽管如此,垂体病变固有的异质性需要实时的适应性,这使得机器学习成为开发诊断和预测模型的灵活工具。