《Clinical Neurology and Neurosurgery》 2024年12月8日在线发表印度、英国、意大利的Tejas Venkataram , Shreyas Kashyap , Mandara M Harikar ,等撰写的《在未破裂脑动静脉畸形治疗选择中机器学习的应用:对ARUBA试验数据的二次分析。The application of machine learning for treatment selection of unruptured brain arteriovenous malformations: A secondary analysis of the ARUBA trial data》(doi: 10.1016/j.clineuro.2024.108681.)。
重点;
•未破裂脑动静脉畸形的治疗因严重程度、表现和临床病程的不同而有所不同。
•该研究调查了使用机器学习(ML)模型标准化治疗选择的可能性。
•采用ARUBA试验数据建立ML模型,指导未破裂型动静脉畸形的治疗选择。
•梯度增强分类器在预测治疗策略方面的AUC达到88 %,显示出诊断潜力。
•ML有可能可靠地为bAVM选择最佳一线治疗策略,从而提高治疗成功率。
目的:
建立有监督的机器学习(ML)模型,为未破裂的脑AVM患者选择最佳的一线治疗策略。
脑动静脉畸形(bAVMs)的发生是由于先天性毛细血管网发育不良。由于没有居间的毛细血管,动脉和静脉之间可以直接交流,导致bAVM破裂,在1 - 34%的患者中表现为颅内出血。当未破裂时,脑AVM可表现为广泛的症状,如头痛、癫痫发作和进行性局灶性神经功能障碍;或者,他们也可以完全无症状。
多年来,出现了四种关键的治疗策略:无论是单独还是联合的内科管理、手术、血管内栓塞和立体定向放射外科。迄今为止,未破裂的脑AVM的治疗仍然是一个争论的话题。未破裂性脑AVM在其严重程度、表现和临床病程方面具有高度异质性,缺乏关于未破裂性脑AVM治疗的大型随机临床试验(RCT),这增加了决策的难度。
一项关于未破裂性脑动静脉畸形的随机试验(ARUBA)比较了未破裂性脑动静脉畸形患者的内科治疗和干预治疗(放射外科、手术和栓塞)。该试验得出结论,在5年的随访期内,接受内科管理的患者死亡或中风的风险比接受干预治疗的患者低近3.7倍。尽管该试验因其研究设计、主要结局选择和治疗组数量而受到批评,但它仍然是唯一完成的比较内科管理与干预治疗对bAVMs 的RCT。
考虑到未破裂的脑动静脉畸形治疗选择的困难,《脑动静脉畸形管理专家共识》建议选择个体化治疗,这是基于一个多学科神经外科医生团队的共识,该团队专门从事脑动静脉畸形切除、栓塞和放射外科治疗。然而,在大型的医院中,为每个病人获得多学科共识可能很耗时,在较小的中心可能不切实际。因此,对于未破裂的脑AVM的治疗选择通常是由治疗医生根据他们的经验和专业知识来决定的,这使得治疗选择存在主观性的风险。各中心的治疗方案选择也各不相同,大型中心根据成本、可行性和操作员经验来实施自己的治疗策略。尽管多学科共识是选择未破裂性脑AVM治疗方案的首选方法,但时间和资源限制可能会阻碍组建多学科团队。因此,迫切需要使bAVM的治疗选择更有效和更容易获得。治疗选择的计算方法可能有助于使决策过程更有效和客观。
机器学习(ML)是指开发能够从数据中学习并使用数据进行预测的系统的过程。它主要分为两大类:有监督的ML,其中模型使用结果(称为“标签(labels)”)进行训练;无监督的ML,其中不提供预先指定的标签,模型识别数据中隐藏的模式。监督式机器学习在基于多维数据进行预测时特别有用,特别是当输入变量的数量很大时,例如基线临床试验数据。在这项研究中,我们假设一个经过多学科临床共识训练的监督ML模型,将有助于从多模态基线数据中选择未破裂的bAVM治疗方法。ML算法不仅可以快速有效地提出治疗建议,还可以根据来自不同专业的多位专家的意见进行训练,从而提供公正的建议。
有监督的ML模型已被用于预测癫痫和成人和儿童出血时的动静脉畸形表现,分割CT扫描上的动静脉畸形体积,预测显微手术后的运动障碍,预测SRS治疗后的结果。然而,没有研究试图利用ML来选择最佳的治疗方法。在这项研究中,我们假设一个多学科临床共识训练的ML模型将有助于从多模态基线数据中选择未破裂的bAVM治疗方法。这样的算法不仅可以有效地提出治疗建议,而且可以根据来自不同专业的多位专家的意见进行训练,从而提供公正的建议。
我们使用ARUBA基线数据集,这是一项关于bAVM管理的完整随机对照试验中唯一可用的数据集,来建立一个有监督的ML模型来指导bAVM的治疗选择。当在临床环境中扩展和实施该模型时,可以帮助潜在地自动化治疗选择过程,并帮助医生在考虑多个基线患者特征的情况下,对最佳治疗提供公正的看法。
方法:
一项针对未破裂性脑动静脉畸形(bAVM)的随机试验(ARUBA)数据来自美国国家神经疾病与卒中研究所(NINDS)。一个由5名临床医生组成的小组在基线时检查了每位患者的人口统计学、临床和放射影像学细节,并就最佳的一线治疗方法达成了共识。他们的治疗选择被用来训练一个自动监督机器学习 (autoML)模型,为训练数据集选择治疗bAVM的方法。对测试数据集测量算法选择处理策略的准确率和AUC,并计算纳入变量的特征重要性得分。
本研究是使用监督式机器学习方法对ARUBA试验数据进行的二次分析。ARUBA数据是通过向国家神经疾病和中风研究所(NINDS)提交签署的请求协议获得的。由此获得的数据不包含患者的机密或身份信息,并按照国家疾病预防控制中心的规定使用和存储。由于本研究是对去识别数据的二次分析,因此不需要伦理批准和知情同意;因此,我们没有得到知情同意。
ARUBA试验招募了226例未破裂的脑动静脉畸形成年患者(18岁)。ARUBA试验的主要终点是到达死亡或症状性卒中复合终点的时间;然而,我们只使用了试验的基线数据。本研究的主要结果是有监督的机器学习算法在选择最佳的一线治疗方法时的表现,这些治疗方法将由专家小组选择。通过曲线下面积和精度来衡量模型的性能。
2.1. 临床的共识
一个由5名神经外科、血管内治疗和放射外科专家组成的小组检查了每位患者的人口统计学、临床和放射影像学细节,并就最佳的一线治疗方法达成了共识。对于每位患者,选择以下四种治疗类别中的一种:内科治疗、血管内治疗、放射外科和显微手术。根据ARUBA方案的定义,血管内治疗包括AVM栓塞和栓塞与bavm相关或不相关的动脉瘤。放射外科包括单次或次分割伽玛刀放射外科。显微手术包括AVM切除、与AVM相关或无关的动脉瘤夹闭。医疗管理指的是保守治疗,对神经系统症状进行药物治疗(如果有的话),并定期随访。通过简单多数(>60 %)达成共识,由一位资深专家(G.E.U)担任决胜局。所选择的治疗方法随后被用作“标签”来训练自动监督ML模型,以选择未破裂的bAVM治疗方法。将选定治疗类别的数据集导入R,并比较四个治疗组的临床和放射学变量。使用R中的“tableone”软件包对分类变量进行卡方检验,对连续变量进行方差分析。
2.2. 探索性数据分析和预处理
然后将数据集导入Python,并使用Pandas库进行探索性数据分析。我们评估了数据分布,并使用最小协方差行列式和局部异常因子方法检查了异常值。
由于数据集包含分类数据和数值数据的混合数据,我们对分类变量和连续变量独立进行预处理。分类特征是一次性编码的,连续特征是按比例缩放的,以确保数据位于预先指定的范围内(在我们的实现中是0-1)。单热编码是在拟合和训练ML算法之前将分类变量转换为数字格式的过程。
2.3. 特征选择
根据原始ARUBA数据集,共纳入124个临床相关变量。这些包括人口统计学细节(年龄、性别)、病史(利手性、过敏、怀孕、吸烟、潜在的心血管、胃肠、精神、炎症、泌尿、皮肤或呼吸系统疾病、潜在的糖尿病、高血压、高脂血症、凝血功能障碍、脊柱瘘)、就诊时的症状、AVM的细节(如大小、位置、侧边和供血血管)、放射影像学特征、Spetzler Martin评分、修正Rankin评分、和NIH中风量表(见补充表所使用的所有特征列表)。
2.4. 模型开发
使用scikit learn库将数据集分为训练和测试两个数据集,比例为70:30。对于模型的选择和训练,我们使用了自动机器学习(auto-ML),它自动探索不同算法、特征和超参数的组合,以获得最佳的机器学习模型。AutoML是使用基于Python库树的管道优化工具(TPOT)实现的,它使用遗传编程的原理来创建高度精确和可靠的管道。为了找到具有最佳性能的管道,我们实现了100代,每代的种群大小为100。scikit-learn包中的所有算法都包含在内。将评分函数设置为recall_micro,这意味着将自动选择灵敏度最大化的算法。最后,利用scikit-learn中的feature importance模块计算变量的feature importance分数。特征重要性评分是衡量每个变量在预测结果变量中的相对重要性,结果变量是临床共识选择的治疗方法。
结果:
在autoML尝试的10万种有监督机器学习算法及其超参数组合中,梯度增强分类器的预测性能最好,总体准确率为0.74,曲线下面积(AUC)为0.88。治疗特异性准确率分别为0.96、0.85、0.84和0.82;内科治疗、外科手术、血管内栓塞和伽玛刀放射外科治疗的AUC分别为0.75、0.95、0.80和0.88。Spetzler-Martin评分,其次是AVM的位置和AVM的大小,是决定治疗的三个最重要的特征。
来自原始ARUBA数据集的226例患者中,由于数据不足,2例患者无法获得临床共识;因此,将临床医生共识数据集减少到224个观察值(表1)。探索性数据分析显示存在7个连续变量和118个分类变量。没有缺失值或重复记录。3个异常值的检测和随后的删除导致最终总共221个观测值用于构建ML模型。
表1。经临床共识选择的4个治疗组临床变量比较。
3.1. 临床医生的共识
基于卡方检验和方差分析的结果,四个治疗组明显不同的患者的年龄,表现头痛的基线,顺便发现bAVM bAVM大小、基底神经节的位置,重要功能区的bAVM位置、引流静脉,静脉扩张,大脑后动脉参与,畸形血管巢内动脉瘤,畸形血管巢内动脉瘤数目,与血流量/供血动脉动脉瘤数目,大脑前,中,和大脑后动脉动脉瘤的位置,非相关动脉瘤数目、Spetzler-Martin评分、存在的心率、心律失常、高血压、非胰岛素依赖型糖尿病、心血管疾病、胃肠道疾病在4个治疗组间的差异均有统计学意义(表1;表2)。
表2。经临床一致选择的4个治疗组脑动静脉畸形特征比较。
3.2. 机器学习结果
在auto-ML尝试的所有算法中(多个算法及其超参数共100000种组合),梯度增强分类器、额外树分类器、逻辑回归、随机梯度下降分类器、线性SVC、k近邻分类器、伯努利朴素贝叶斯、随机森林分类器、决策树分类器、XGB分类器的灵敏度值排名前十位。其中,根据临床共识,梯度增强分类器在预测最佳治疗方面具有最高的敏感性。医疗管理、手术、血管内栓塞和GKRS的AUC分别为0.75、0.95、0.81和0.84(图1),四项指标的微观平均值为0.88(表3)。将所有纳入的变量按特征重要性评分的降序排序,发现Spetzler-Martin评分对确定最佳治疗方法最重要,其次是有效的bAVM位置和bAVM大小(表4)。
图1。机器学习算法在预测脑动静脉畸形具体治疗策略方面的表现,如接受者工作特征曲线所示。(A)曲线下面积(AUC)用于算法选择医疗管理策略(B)选择手术治疗策略的AUC (C)选择血管内栓塞的AUC (D)选择伽玛刀(立体定向放射外科)的AUC。
表3。经临床共识训练后,梯度增强算法在测试数据集上选择脑动静脉畸形治疗方案的性能。
表4。根据梯度增强分类器算法,在脑动静脉畸形的治疗选择中,被认为“重要”的前20个特征的特征重要性得分。
讨论;
在这项研究中,我们发现,经过专家共识训练的自动化ML算法可以可靠地为未破裂的bAVM选择最佳的一线治疗策略,准确率很高。我们还发现梯度增强分类器在所有研究的算法中具有最好的预测性能。Spetzler-Martin评分是确定bAVM治疗的最重要特征,其次是AVM位置和AVM大小。
在机器学习中,梯度增强是指将多个弱模型组合在一起,形成一个预测能力更强的模型的技术。从本质上讲,每个基本模型都是顺序拟合的,这样在每个步骤上,错误分类或预测不良的实例都得到纠正。这个迭代过程一直持续,直到训练和改进了预定义数量的基本模型。在scikit-learn中,GradientBoostingClassifier主要使用决策树作为梯度增强集成的基础学习器。我们发现基于决策树的梯度增强算法具有最高的预测性能,这与先前应用ML算法管理AVM[16]、缺血性卒中和蛛网膜下腔出血的研究没有什么不同。
Oermann等使用1810例患者的大型数据集建立了一个ML模型来预测SRS后的结果。有趣的是,他们发现临床决策系统,如改进的基于放射外科的AVM评分(RBAS),弗吉尼亚放射外科AVM量表(VRAS)和Spetzler Martin评分的AUC为0.63,而ML算法的AUC为0.71。尽管使用了计算鲁棒的算法,但可能由于包含的特征数量较少(23个特征),它们的AUC被限制在0.71。相比之下,我们的模型实现了多个临床和放射影像学特征(124个特征),获得了0.88的更高的AUC,强调了在确定异质性脑AVM的治疗选择时需要结合临床、放射影像学和人口统计学特征。
Spetzler-Martin分级通常用于评估手术风险,I级和II级AVM患者的术后神经功能障碍风险明显低于IV级或V级患者。然而,Spetzler-Martin分级或其修改如补充SMG仅对手术风险进行分层,并未明确提出治疗建议。尽管Spetzler-Ponce分类列出了三类及其相应的治疗方法,但B类是多模式的,这再次需要多学科共识来选择最佳的一线治疗策略。其他分级制度,如修改后的区域评分制度和区域评分制度,集中于一种管理,因此限制了它们的适用性。相比之下,训练有素的ML算法可以在广泛的临床环境中选择治疗方法,考虑到大量的变量。
ARUBA试验的执行和结果很容易证明临床医生在面对未破裂的bAVM时面临的现实困难。考虑到bAVM治疗的复杂性,更不用说随机对照试验的设计,ARUBA试验是解决bAVM治疗临床平衡的大胆尝试。然而,ARUBA试验提出了几个问题:首先,显微手术、SRS治疗和栓塞术在一只手臂中都被分组,并与另一只手臂的医疗管理进行比较,这使得很难描述单一干预的效果。其次,并非所有患者的治疗方法都是标准化的,而且在临床实践中,临床医生的偏好和现有的以中心为基础的实践也被认为决定了治疗选择,这可能导致招募偏倚。为了减轻这一限制,我们将ARUBA数据的使用限制在基线数据上,以避免在ML算法中引入偏差。
值得注意的是,我们选择多学科共识作为训练ML算法的真值参考。尽管基于比较治疗方案的大型随机对照试验的结果来训练ML算法是理想的,但对于未破裂的bAVM来说,此类数据的缺乏使得这一过程变得困难。目前,ARUBA仍然是第一个也是唯一一个完成的比较不同管理策略对bAVMs 结果的随机对照试验。事实上,一篇Cochrane综述比较了神经外科切除、立体定向放射外科、血管内栓塞和这些干预措施的分阶段组合的安全性和有效性,仅包括ARUBA试验,并得出结论,有中等质量的证据表明保守治疗的优越性[10]。另一项针对204例患者的前瞻性队列研究证实了医疗管理优于12年更长时间的随访。然而,还需要来自长期登记和随机对照试验的结果数据。
正在进行的脑动静脉畸形治疗研究(TOBAS)就是这样一项研究,该研究由两项随机对照试验和接受治疗或保守管理的患者注册表组成。由于TOBAS的主要结果是死亡或致残性中风,导致10年mRS评分>,迄今为止只有手术登记的结果被公布,而RCT的结果预计几年后才会公布。
人工智能/机器学习在医疗保健所有领域的迅速普及,可能会引发对实施机器学习为患者做出改变生命的治疗决策的伦理问题。然而,这项研究的目标是训练ML模型来复制人类专家做出的决策。此外,该模型还意味着作为临床医生的一个提示工具,而不是一个自主决策的实体。
这项研究的一个主要优势是我们的算法的鲁棒性。我们通过使用一种自动算法来利用人工智能的力量,该算法搜索许多具有数千个超参数的ML模型。这种强大的算法不仅可以识别出最佳模型,还可以识别出给出最佳结果的参数集。有趣的是,所有的搜索都在30分钟内完成。我们的方法与其他研究一致,这些研究使用相同的自动模型识别方法来预测颅内动脉瘤治疗后的预后,从神经影像学数据预测脑年龄,在诊断神经放射学中,并成功地根据MR成像对儿童后窝肿瘤进行分类。据我们所知,这是第一个在bAVM领域实现自动化ML的研究。此外,我们还确定了决定治疗选择的重要特征,并根据其重要性对其进行排名。发现Spetzler-Martin评分排名最高,证明我们的模型有能力复制现实世界的场景,其中Spetzler-Martin评分最广泛使用。有趣的是,Spetzler-Martin评分的组成部分,如有说服力的AVM位置和大小,也在重要特征列表中排名很高,进一步证实了该模型描述临床重要变量的能力。
本研究也有一定的局限性。首先,原始影像数据既不能用于机器学习,也不能用于临床共识。尽管原始成像数据可以增加数据粒度并改善模型性能,但我们认为,ARUBA数据集中使用的临床和放射影像学特征的绝对数量在一定程度上抵消了这一限制。其次,尽管对bAVM的治疗经常分阶段进行,但我们的模型只经过训练,以提供最佳的一线治疗策略。在临床实践中,AVM的第二和后续治疗策略通常是根据第一种治疗的结果来决定的。由于缺乏模型建议的第一种治疗策略的结果数据,我们无法将分阶段治疗纳入我们的模型建议中。尽管如此,本研究旨在证明ML在bAVMs治疗选择中的应用。在更大的数据集上获得更多专家意见的扩展模型可能更适合临床原型的开发。
结论:
ML可可靠地选择最佳一线治疗策略,符合多学科专家共识。该研究可以在更大的基于人群的AVM登记中复制,并纳入结果数据,从而有助于解决未破裂的bAVM管理中涉及的偏倚。
总之,我们发现自动化ML可以根据多学科专家共识可靠地选择最佳的bAVM一线治疗策略。因此,本研究证明了使用ML辅助临床决策治疗bAVM的可行性。这项研究可以复制到更大的基于人群的AVM登记,包括结果数据,从而有助于解决未破裂的bAVM管理中涉及的主观性。