Med | 大规模预训练帧生成模型实现实时低剂量DSA成像:一项人工智能系统开发和多中心验证研究

科技   科学   2024-10-22 17:30   重庆  

                                                                             


华中科技大学同济医学院附属协和医院郑传胜、阚雪锋、华中科技大学电子信息与通信学院王兴刚、东南大学附属中大医院张卫华等人2024年在Med  (JCR Q1, IF: 12.799) 杂志上发表了大规模预训练帧生成模型实现实时低剂量DSA成像:一项人工智能系统开发和多中心验证研究

大规模预训练帧生成模型实现实时低剂量DSA成像:一项人工智能系统开发和多中心验证研究


摘要:数字减影血管造影(DSA)设备在多种介入手术中常用于全身各个部位,每次手术需要多次扫描,导致医生和患者受到显著的辐射暴露。受生成人工智能技术的启发,本研究提出了GenDSA,这是一个基于大规模预训练的多帧生成模型的实时低剂量DSA成像系统。利用来自35家医院的数百万DSA图像对GenDSA进行训练和验证,结果表明GenDSA能够实现最先进的性能,并将DSA辐射剂量减少到临床可用协议的1/3。五位医生的主观评级和统计结果表明,生成的视频在整体质量和病变评估方面与全采样视频相当,充分证明了GenDSA在临床应用中的潜力。

亮点:

  • 提出的DV-MuRC数据集包含了来自27,117名患者的约300万张DSA图像。

  • 提出的GenDSA在性能上超过了现有的最先进的视频插值算法。

  • GenDSA在不妥协临床要求的情况下,将DSA辐射剂量减少到1/3。


图1:GenDSA流程和网络架构概览

  • 图1A:展示了医生和患者在DSA拍摄过程中体验到的部分(实线)以及后端处理过程(虚线)。虚线代表了GenDSA的操作机制。在DSA扫描的时间分辨率被欠采样到三分之一时,GenDSA在每个捕获的帧(Fn)之后生成两个虚拟帧(Fn+1,Fn+2),这些帧与实际结果高度相似。GenDSA与DSA设备无缝对接,图S1展示了我们进行的模拟临床现实的人体模拟实验的结果。在DSA扫描过程中,GenDSA生成的图像可以实时投影到手术室供医生参考(见图S1)。

  • 图1B:展示了GenDSA的框架图。覆盖五个身体部位(头部、胸部、腹部、骨盆和四肢)的部分2D数据被用于预训练并输入到所提出的MoStNet中以获得预训练的基础模型。此外,该模型还分别用每个部位的2D/3D数据进行微调。每个身体部位的数据也用于微调,具体数量详见表1。MoStNet,GenDSA的核心算法,解决了实时生成DSA图像的问题。

  • 图1C:展示了MoStNet的简洁网络架构。首先,从输入帧中提取多尺度特征,并通过跨尺度融合进行增强。运动结构特征提取器(MSFE)模块使用交叉注意力从增强帧中提取运动和结构特征。与计算复杂性高的Transformer模型不同,MSFE以完全卷积的方式计算交叉注意力,将上下文转换为线性函数,以有效提取特征并减少计算复杂性。这种方法显著减少了图像生成时间(见图2C),满足了临床手术中实时DSA成像的需求。接下来,运动特征在不同时间被映射并与结构特征一起解码,以计算光流和掩码。最后,简化的UNet在不同尺度上细化特征,解码光流、掩码和结构特征,以产生相应的中间帧It。有关GenDSA和MoStNet的详细描述请参见STAR方法和图S2。由于本研究中使用的数据是回顾性收集的,因此没有可用的低帧率采集在临床情况下的具体剂量值。为了估计理论辐射剂量节省,随机选择了700名患者进行七种不同任务,审查了他们的报告,并计算了单次DSA扫描期间接受的辐射剂量。基于实际节省的倍数估计了理论辐射剂量节省(见表S2)。

引言

介入性手术因其高效率、微创伤和快速恢复而成为比传统开放手术更主流的替代方法。数字减影血管造影(DSA)设备包括用于透视、锥形束计算机断层扫描(CT)和二维(2D)及三维(3D)血管造影成像的扫描协议,为医生提供动态的2D X射线图像,广泛应用于介入手术(统称为“DSA成像”)。DSA成像在全球范围内每天对数十万患者进行数百种疾病和手术的介入手术中发挥着重要作用。
然而,DSA引导的介入手术使介入医生和患者都暴露在电离辐射中。与常规诊断性CT扫描相比,患者通常接受的辐射剂量是数倍甚至数十倍,这是由于更长的获取时间和更频繁的获取次数。在DSA引导的手术过程中,医生也暴露在辐射中。这种暴露增加了患动脉粥样硬化、白血病和癌症等疾病的风险,以及常见的问题,如视力损害和脱发。最近一项跟踪超过300,000名来自法国、英国和美国个体死亡的大型研究表明,长期暴露于低剂量电离辐射与癌症死亡风险更高相关。具体来说,辐射暴露每增加1-Gy,死于癌症的风险就增加53%,死于实体瘤的风险增加52%。另一项跟踪超过940,000名接受CT检查的参与者的多国队列研究发现,累积辐射剂量与所有造血恶性肿瘤的风险呈正相关。该研究表明,每100 mGy的辐射剂量增加,相对风险增加1.96。尽管不同手术的辐射剂量不同,但单一的诊断/治疗手术可能达到mGy水平。尽管采取了防护措施,但多年来潜在的累积辐射暴露风险仍然显著。
因此,显著降低辐射剂量的同时保持满足临床需求的成像质量,是DSA成像自诞生以来一直努力解决的关键挑战,力求将辐射暴露降至尽可能低的水平。
DSA成像协议可以分为以下几类:(1)扫描不同的身体部位,如头部、胸部和腹部;(2)针对血管或非血管的扫描;(3)不同的扫描模式,包括在连续曝光期间静止的设备或旋转设备。已经提出了基于人工智能(AI)的方法用于低剂量DSA成像。然而,这些方法中的一些仅限于模拟图像,而其他一些则限于特定的扫描协议。临床上需要能够普遍适用于各种扫描协议的AI方法。更关键的是,这些算法都没有得到临床认证,大多数不能实时操作,因此无法满足临床实践的需求。因此,这些方法在临床转化方面面临挑战。随着生成性AI技术的快速发展,如GPT、Llama和Sora,基于特定提示或约束生成图像和视频已成为可能。与使用文本或单张图像作为控制条件的方法不同,我们的研究专注于从稀疏采样的视频帧生成完整且稳定的视频。
具体来说,我们开发了一个生成模型,以实现DSA成像的帧生成,降低帧率,同时获得与实际效果高度可比的实时中间帧。这项任务面临的挑战主要来自与大型样本相关的复杂结构和运动。首先,不同组织和血管表现出不同的结构和复杂性,特别是在小型和不规则结构的组织、病变和血管中。其次,造影剂的扩散涉及非刚性和复杂的运动,导致连续DSA视频帧之间的信号发生显著变化。第三,来自患者(例如,呼吸、心跳)和机器(例如,3D成像期间的旋转)的重叠运动进一步复杂化了特征提取。尽管如此,AI系统必须实时高效地提取这些特征,以有效地协助临床手术。为了应对DSA成像的挑战,开发了基于大规模预训练的多帧生成模型的实时低剂量成像系统GenDSA。该系统使用在多样化和广泛的数据集上训练的自监督预训练基础模型,从稀疏采样的DSA视频中生成帧。GenDSA普遍适用于各种DSA扫描协议,支持无缝扩展到大型数据集,无需手动注释。几乎与临床协议的视频质量相同,GenDSA实时运行(每帧0.07秒),同时将辐射剂量减少三分之二。创建了一个大规模数据集,中国多中心研究的数字减影血管造影视频数据集(DV-MuRC),包含来自10个中心的27,117名患者的约300万张DSA图像。GenDSA在该数据集的部分上进行了预训练和微调,并在剩余数据以及来自25个医疗中心的另外两个数据集上进行了测试,这些数据集包括不同的患者人群和设备。通过五个关键模块,新提出的运动结构感知网络(MoStNet)算法提取了多尺度复杂运动结构特征,超越了提取运动和外观(EMA)视频帧插值(VFI;计算机视觉)和大运动的帧插值(FILM)(计算机视觉中的流媒体使用)。独立读者研究通过比较生成的视频与实际临床视频,证实了GenDSA的临床相关性,展示了其转化潜力。

图2:GenDSA模型中生成的DSA视频的定量评估

  • 图2A:基于每个真实帧捕获后生成1帧、2帧和3帧的策略,研究了在降低辐射剂量至当前临床协议的1/2、1/3和1/4的同时保持视频质量的最佳生成帧数。根据图S1中数据S1的实验结果,1帧、2帧和3帧生成的峰值信噪比(PSNR)或结构相似性指标(SSIM)没有严重下降,且每帧的生成时间没有显著增加。所有身体部位(2D和3D)的1帧、2帧和3帧生成的平均±标准差PSNR和SSIM值分别为37.60±4.58、36.83±4.48和36.15±4.67,以及0.916±0.048、0.911±0.050和0.900±0.055(见图S3A和S3B)。所有部位的1帧、2帧和3帧生成的平均时间分别为0.057、0.146和0.236秒(见图S3C)。数据S1的客观评分(PSNR和SSIM)展示了GenDSA在整体和特定身体部位的优异性能。

  • 图2B显示了来自随机患者的3D头部关键帧,与目标分数匹配的图像效果一致。此外,将1帧和2帧生成图像的残差图与全采样帧进行比较,显示没有显著的残差信号,而3帧生成图像有微弱的残差信号。关键是,3帧生成视频的质量较差,视频清晰度和流畅性受到损害(数据S1中的源文件1)。因此,2帧生成模型被认为是最适合实际临床应用的,提供了高质量的视频,同时最小化了辐射剂量。GenDSA与最先进的EMA和流媒体使用的FILM算法进行了2帧生成比较,PSNR和SSIM指标详见图2C。为了确保公平比较,MoStNet,GenDSA的核心算法,采用了两种不同的损失函数:L1(MoStNet-L1)和组合损失函数(MoStNet)。L1损失函数实现了更高的PSNR和SSIM指标,尽管它导致了更差的视觉效应(有关详细信息,请参阅消融实验部分)。

  • 图2C显示MoStNet-L1在所有指标上都优于同行算法,而MoStNet在所有指标上都超过了FILM,在几个指标上超过了EMA(平均PSNR、SSIM和生成时间在图S3D-S3F中呈现)。

  • 图2D使用来自随机患者的3D头部关键帧比较了MoStNet、FILM和EMA。残差图表明EMA生成的图像中残差更为明显,尤其是在103倍放大和增强时。EMA在视频流畅性方面的局限性尤为明显,尤其是对于3D-DSA,如数据S1中的视频S1和S2所示,EMA生成的视频存在显著的左右振荡。相比之下,MoStNet生成的视频没有这些问题。此外,MoStNet将帧生成速度提高到平均0.147秒,分别是EMA(0.661秒)和FILM(0.410秒)的4.4倍和2.7倍。这一速度对于干预过程中的实时成像至关重要,证明了MoStNet适合这项任务。

图3:GenDSA 2帧生成结果

  • 图3A和B:展示了头部和胸部成像生成的2D-DSA投影样本帧。

  • 图3C和D:展示了3D-DSA投影中颅内动脉瘤和消融针成像的关键帧。

  • 图3E:对于图3A中所示的血管像素,展示了全采样、欠采样和生成视频的时间-强度曲线。

  • 图3F:展示了针尖在欠采样和生成视频与全采样视频之间的位移曲线。

图4:使用GenDSA的2帧生成视频的临床评估

  • 图4A:2D和3D-DSA图像从GenDSA生成的视频与实际视频区分的混淆矩阵。图4B:5位介入放射科医生通过5级图像质量评分对结果进行评估。

图5:在外部数据集上使用GenDSA的1帧生成结果

  • 图5A:使用全采样、欠采样和生成帧对颅内动脉狭窄患者的3D重建结果进行视觉比较。图5B:图5A中标记的狭窄血管直径的局部放大视图。图5C:选择了一个没有明显异常的2D-DSA视频序列的关键帧,展示了真实情况(左)、生成图像(中)和残差图像(右)。图5D:通过小提琴图评估了从2个数据集获得的生成视频的相似性

图6:消融实验结果

  • 图6:评估了上下文建模范围(r)变化对7个微调模型(即2个3D和5个2D模型)和1个预训练模型生成视频的PSNR、SSIM和SD的影响。



Med 5, 1–13, December 13, 2024



如您觉得内容不错,对您有帮助,希望能够赞、在看、分享、打赏!感谢您的支持。


组学杂谈
组学、影像技术、文献解读,统计分析,深度学习、临床研究等