华中科技大学同济医学院附属协和医院郑传胜、阚雪锋、华中科技大学电子信息与通信学院王兴刚、东南大学附属中大医院张卫华等人2024年在Med (JCR Q1, IF: 12.799) 杂志上发表了大规模预训练帧生成模型实现实时低剂量DSA成像:一项人工智能系统开发和多中心验证研究。
大规模预训练帧生成模型实现实时低剂量DSA成像:一项人工智能系统开发和多中心验证研究
提出的DV-MuRC数据集包含了来自27,117名患者的约300万张DSA图像。
提出的GenDSA在性能上超过了现有的最先进的视频插值算法。
GenDSA在不妥协临床要求的情况下,将DSA辐射剂量减少到1/3。
图1A:展示了医生和患者在DSA拍摄过程中体验到的部分(实线)以及后端处理过程(虚线)。虚线代表了GenDSA的操作机制。在DSA扫描的时间分辨率被欠采样到三分之一时,GenDSA在每个捕获的帧(Fn)之后生成两个虚拟帧(Fn+1,Fn+2),这些帧与实际结果高度相似。GenDSA与DSA设备无缝对接,图S1展示了我们进行的模拟临床现实的人体模拟实验的结果。在DSA扫描过程中,GenDSA生成的图像可以实时投影到手术室供医生参考(见图S1)。
图1B:展示了GenDSA的框架图。覆盖五个身体部位(头部、胸部、腹部、骨盆和四肢)的部分2D数据被用于预训练并输入到所提出的MoStNet中以获得预训练的基础模型。此外,该模型还分别用每个部位的2D/3D数据进行微调。每个身体部位的数据也用于微调,具体数量详见表1。MoStNet,GenDSA的核心算法,解决了实时生成DSA图像的问题。
图1C:展示了MoStNet的简洁网络架构。首先,从输入帧中提取多尺度特征,并通过跨尺度融合进行增强。运动结构特征提取器(MSFE)模块使用交叉注意力从增强帧中提取运动和结构特征。与计算复杂性高的Transformer模型不同,MSFE以完全卷积的方式计算交叉注意力,将上下文转换为线性函数,以有效提取特征并减少计算复杂性。这种方法显著减少了图像生成时间(见图2C),满足了临床手术中实时DSA成像的需求。接下来,运动特征在不同时间被映射并与结构特征一起解码,以计算光流和掩码。最后,简化的UNet在不同尺度上细化特征,解码光流、掩码和结构特征,以产生相应的中间帧It。有关GenDSA和MoStNet的详细描述请参见STAR方法和图S2。由于本研究中使用的数据是回顾性收集的,因此没有可用的低帧率采集在临床情况下的具体剂量值。为了估计理论辐射剂量节省,随机选择了700名患者进行七种不同任务,审查了他们的报告,并计算了单次DSA扫描期间接受的辐射剂量。基于实际节省的倍数估计了理论辐射剂量节省(见表S2)。
引言
图2A:基于每个真实帧捕获后生成1帧、2帧和3帧的策略,研究了在降低辐射剂量至当前临床协议的1/2、1/3和1/4的同时保持视频质量的最佳生成帧数。根据图S1中数据S1的实验结果,1帧、2帧和3帧生成的峰值信噪比(PSNR)或结构相似性指标(SSIM)没有严重下降,且每帧的生成时间没有显著增加。所有身体部位(2D和3D)的1帧、2帧和3帧生成的平均±标准差PSNR和SSIM值分别为37.60±4.58、36.83±4.48和36.15±4.67,以及0.916±0.048、0.911±0.050和0.900±0.055(见图S3A和S3B)。所有部位的1帧、2帧和3帧生成的平均时间分别为0.057、0.146和0.236秒(见图S3C)。数据S1的客观评分(PSNR和SSIM)展示了GenDSA在整体和特定身体部位的优异性能。
图2B显示了来自随机患者的3D头部关键帧,与目标分数匹配的图像效果一致。此外,将1帧和2帧生成图像的残差图与全采样帧进行比较,显示没有显著的残差信号,而3帧生成图像有微弱的残差信号。关键是,3帧生成视频的质量较差,视频清晰度和流畅性受到损害(数据S1中的源文件1)。因此,2帧生成模型被认为是最适合实际临床应用的,提供了高质量的视频,同时最小化了辐射剂量。GenDSA与最先进的EMA和流媒体使用的FILM算法进行了2帧生成比较,PSNR和SSIM指标详见图2C。为了确保公平比较,MoStNet,GenDSA的核心算法,采用了两种不同的损失函数:L1(MoStNet-L1)和组合损失函数(MoStNet)。L1损失函数实现了更高的PSNR和SSIM指标,尽管它导致了更差的视觉效应(有关详细信息,请参阅消融实验部分)。
图2C显示MoStNet-L1在所有指标上都优于同行算法,而MoStNet在所有指标上都超过了FILM,在几个指标上超过了EMA(平均PSNR、SSIM和生成时间在图S3D-S3F中呈现)。
图2D使用来自随机患者的3D头部关键帧比较了MoStNet、FILM和EMA。残差图表明EMA生成的图像中残差更为明显,尤其是在103倍放大和增强时。EMA在视频流畅性方面的局限性尤为明显,尤其是对于3D-DSA,如数据S1中的视频S1和S2所示,EMA生成的视频存在显著的左右振荡。相比之下,MoStNet生成的视频没有这些问题。此外,MoStNet将帧生成速度提高到平均0.147秒,分别是EMA(0.661秒)和FILM(0.410秒)的4.4倍和2.7倍。这一速度对于干预过程中的实时成像至关重要,证明了MoStNet适合这项任务。
图3A和B:展示了头部和胸部成像生成的2D-DSA投影样本帧。
图3C和D:展示了3D-DSA投影中颅内动脉瘤和消融针成像的关键帧。
图3E:对于图3A中所示的血管像素,展示了全采样、欠采样和生成视频的时间-强度曲线。
图3F:展示了针尖在欠采样和生成视频与全采样视频之间的位移曲线。
图4A:2D和3D-DSA图像从GenDSA生成的视频与实际视频区分的混淆矩阵。图4B:5位介入放射科医生通过5级图像质量评分对结果进行评估。
图5A:使用全采样、欠采样和生成帧对颅内动脉狭窄患者的3D重建结果进行视觉比较。图5B:图5A中标记的狭窄血管直径的局部放大视图。图5C:选择了一个没有明显异常的2D-DSA视频序列的关键帧,展示了真实情况(左)、生成图像(中)和残差图像(右)。图5D:通过小提琴图评估了从2个数据集获得的生成视频的相似性
图6:评估了上下文建模范围(r)变化对7个微调模型(即2个3D和5个2D模型)和1个预训练模型生成视频的PSNR、SSIM和SD的影响。
Med 5, 1–13, December 13, 2024
如您觉得内容不错,对您有帮助,希望能够点赞、在看、分享、打赏!感谢您的支持。