学会“成果速览”系列文章旨在将图像图形领域会议期刊重要成果进行传播,通过短篇文章让读者用母语快速了解相关学术动态,欢迎关注和投稿~
◆ ◆ ◆ ◆
基于时空量子扩散模型的实时X射线血管造影冠状动脉狭窄检测
李欣宇
TPAMI 2024
图像图形领域高质量科技期刊分级目录:T1
撰稿人:李欣宇、艾丹妮
通讯作者:艾丹妮,王怡宁,杨健
原文标题:
欢迎投稿中国图象图形学学会《速览》栏目,借助学会平台扩大影响力!请将Word文档发送至邮箱:csig-mv@foxmail.com,文章须还没有在其他媒体发布过和同时向其他媒体投稿,谢谢!
冠状动脉心脏病(coronary artery disease, CAD)严重威胁着人类生命健康。从X射线血管造影图像(X-ray angiography, XRA)中检测狭窄是目前临床诊断冠心病的金标准。然而,呼吸心跳运动,图像质量不佳,血管结构复杂等的影响,快速、准确、自动识别XRA图像中的狭窄区域具有挑战。本文提出了一种基于时空特征共享的量子噪声扩散模型,实现XRA实时狭窄检测。该方法首先基于XRA图像噪声分布构建了一种序列量子噪声扩散模型,在前向扩散过程中生成带有序列相关先验知识的量子噪声检测框,并将其与待检测序列送入网络进行逐帧狭窄预检测,完成反向扩散过程。而后,利用时空特征共享模块对检测出错的图像进行修正,通过匈牙利算法对不同图像中的检测框进行分组并选出预测出错的图像;最后,通过时空特征聚合模块,聚合来自正确预测图像的时空特征,增强网络对弱狭窄特征的提取能力。为验证所提方法的有效性,我们在233个冠脉XRA序列组成的数据集上进行了四折交叉验证,所提方法在25.08 FPS的速度下取得了92.39%的分数,优于所对比的17种SOTA检测方法。实验结果表明,所提方法能有效利用XRA序列提供的时空上下文信息,可有效实现狭窄的实时、准确检测。
冠状动脉心脏病是一种由粥样硬化斑块在冠脉血管管腔积聚导致的心血管疾病,已成为使人类死亡的主导疾病之一。粥样硬化斑块的积聚引起的管腔狭窄,从而造成的心肌缺血是冠心病的标志性病症,及早发现并治疗冠脉狭窄能显著降低冠心病的致死率,因此精准定位狭窄病灶有十分重要的意义。冠状动脉X射线造影图像作为诊断冠心病的“金标准”,其较高的分辨率有利于狭窄病灶的定位。临床上主要依赖外科医生观察XRA图像评估冠脉狭窄,但这种方式对医生经验的要求较高,这也导致部分经验不足的医生需要通过许多角度拍摄才能进行诊断,且医生之间对冠脉狭窄的判断存在主观性差异,从而影响后续的诊断。然而由于下述的问题,导致通过计算机自动快速准确识别XRA图像中的冠脉狭窄仍具有挑战性:第一,XRA图像是将复杂树状结构的冠脉投影至二维平面的透视投影成像,血管产生交叠,此外,由于不同尺度的狭窄受到呼吸和心跳运动的影响,可能导致一些狭窄的漏检;第二,在XRA图像成像过程中,由于造影剂分布不均、前景与背景对比度低且噪声大,血管易与狭窄特征混淆,产生狭窄过检测现象;第三,术中XRA图像成像帧率较高,亟需实时狭窄检测。
本文提出了一种基于时空特征共享的量子噪声扩散模型的冠脉狭窄检测方法,该方法首先利用正向扩散过程生成带有序列信息的量子噪声检测框,并使用ResNet50和特征金字塔网络作为骨干网络来提取输入图像的多尺度特征图;接着通过全局特征增强将不同帧的血管位置信息共享,以提取血管的运动规律,并通过狭窄检测解码器反向扩散得到候选检测框;而后输入时空特征增强模块通过联合时空上下文信息来增强检测出错帧中对应部位的特征;最后利用狭窄检测解码器对出错帧进行再检测,得到鲁棒且精准的狭窄检测结果。
本文的主要贡献包括:(1) 提出了一种基于时空特征共享的量子扩散模型,实现冠脉狭窄检测,据我们所知,这是扩散模型的概念首次在视频序列目标检测领域应用。(2) 基于XRA图像噪声分布特点,提出了基于量子噪声的扩散模型,前向扩散过程中利用量子噪声生成噪声检测框,并将狭窄检测任务视作从噪声检测框中生成狭窄检测框的去噪过程,显著提升了网络的推理速度。(3) 设计了时空特征共享模块,将预测正确帧的时空特征共享至预测出错的图像,增加了网络对复杂结构处血管狭窄的预测能力,同时增强了同一序列中网络预测结果的一致性。
(1)整体框架
本文所提狭窄检测网络框架如图1所示,该框架可分为量子噪声扩散模块与时空特征共享模块两部分。在量子噪声扩散模块中,将N帧连续且造影剂充溢的XRA图像输入模块,首先由序列量子噪声检测框为输入序列生成序列量子噪声检测框,同时使用ResNet-50提取多尺度特征,从而完成前向扩散过程。而后将序列量子噪声检测框与多尺度特征图一并输入检测框解码器(Stenosis Detection Decoder),对检测框的位置、大小与类别进行逐帧粗预测,从而完成反向扩散过程,即从量子噪声检测框中降噪得到狭窄病灶粗预测结果。在时空特征共享模块中,首先通过匈牙利算法,由网络判别每一帧图像中预测结果的正误并划分为真阳性、假阳性、假阴性检测,从而对假阴性检测位置进行狭窄特征增强,假阳性检测位置进行特征削减,并将聚合后的检测框与对应RoI特征再次输入检测框解码器进行判别,同时使用检测框一致性约束损失函数对模型进行优化,最终输出准确的狭窄检测结果。
图 1 本文所提框架总览图
(2)量子噪声扩散模型
X射线图像的主导噪声是量子噪声,且量子噪声因能量的离散性而呈现离散分布。因此,本文将传统扩散模型中的高斯噪声替换为XRA图像中的量子噪声,提出了基于量子噪声扩散模型的XRA血管狭窄检测方法。量子噪声扩散模型的正向与反向扩散过程如图2所示。扩散模型的前向扩散过程即在t个时间步( t=0,1,2,…T, T为扩散过程的总时间步)内生成量子噪声检测框的过程,由于量子噪声服从泊松分布
其中,
图 2 量子噪声扩散模型的扩散过程。其中q为逐步生成量子噪声框的正向扩散过程,
因此,最后一个时间步T时噪声检测框服从的随机分布为:
冠脉XRA狭窄检测任务中,相邻帧之间血管运动幅度与狭窄病灶的位置变化较小。为了能让网络更好地捕获这种先验知识,对于同一序列的图像,我们只对第一帧图像(n=1)随机生成服从泊松分布的量子噪声检测框,而后续N-1帧的噪声框可根据对第一帧图像的噪声框分布进行微扰获取,即:
其中,N为视频序列中包含的图像数量,
与此同时,将序列图像输入图像编码器中提取特征,图像编码器使用ResNet-50作为backbone,并使用特征金字塔网络(Feature Pyramid Net, FPN)提取图像的多尺度特征,共提取四层多尺度特征图,特征图的分辨率随着层级的升高而逐渐降低,所反映的图像特征也从血管细节等高级信息过渡至血管轮廓、位置等低级信息。为捕捉血管位置变化情况,对最高层特征图
其次将时序特征向量组输入多头注意力块。多头注意力块由多头注意力机制与层归一化层(Layer Normalization, LN)组成,并使用残差连接来获取增强特征,由下式表示:
其中,MSA为多头注意力机制,
其中,
反向扩散过程定义为一条从
其中,
该马尔科夫链中的每个时间步都代表网络从噪声框中学习逐步恢复狭窄病灶检测框的过程。将每帧图像对应的量子噪声框与全局增强特征输入狭窄检测解码器中,由解码器学习反向扩散过程。该解码器的结构来自于Diffusion Det,以特征图和噪声框作为输入,首先通过RoI对齐(RoI Align)的方式从特征图中提取与检测框对应的RoI特征,再通过分类头与回归头预测候选框的类别及位置,从而完成反向扩散过程。
(3)时空特征共享
在冠脉XRA图像中,同一个序列的狭窄病灶数均相同。然而,受呼吸心跳运动影响,某些帧会出现狭窄病灶被其它血管遮挡而导致狭窄漏检测的现象,或是造影剂不充溢导致狭窄过检测的现象。因此本文提出了时空特征共享模块,通过将预测正确帧的时空特征共享至预测错误帧中,保证输出结果的一致性。
所提时空特征共享模块的流程如图3所示。狭窄检测解码器对每帧图像的检测结果组成预检测结果序列{
其中,
图 3 时空特征共享模块流程图。图中不同帧内的检测结果使用不同颜色区分
为了获取整个序列的狭窄位置信息,本文通过元素拼接的方式对配对组内的候选框进行组合,即两配对若含有相同的候选框,则将其合并:
最终配对组内的一个元素将包含所有帧内能配对成一组的候选框序列:
RoI特征聚合时,首先要将参考帧对应的RoI特征投射至错误帧上。考虑到血管运动的影响,若直接将候选框内的特征作为RoI特征,有可能因错误帧中对应位置不包含狭窄病灶而导致投射失败。为此,先进行RoI Padding操作。设候选框的坐标为
考虑到H-FP组内可能存在仅有一个候选框的情况,因此H-FP组的RoI可以定义为
其中,α为padding系数,用于控制RoI区域的大小,本文中结合血管运动范围,取α=2,从而生成对应的RoI序列。
生成所有RoI序列后,从特征图中利用RoI Align裁切出对应的RoI特征图,并输入RoI特征聚合器中。RoI特征聚合器由多头注意力块、动态卷积块与线性块三部分组成,其结构如图4所示。其中多头注意力块与动态卷积块和全局特征增强方法中的一致,而线性块流程如下式所示:
其中,
图 4 RoI特征聚合模块结构图。Wrong RoI表示从检测出错的图像中提取的RoI特征,Right RoI表示从与出错图像最近邻的两帧正确图像中提取的时空RoI特征
为了进一步增强网络对狭窄检测框数量一致性的理解,训练阶段网络输出时,会再次统计该序列中每张图像上的检测框数量
其中,
(1)数据集
本文使用233个XRA视频序列作为数据集进行实验,这些数据均收集于北京协和医院。视频序列的帧率为15FPS,其中每帧图像的大小均为512×512像素,分辨率为0.3×0.3mm²。从每个视频序列中提取造影剂最为充溢的9帧图像作为检测网络的输入。狭窄病灶由三位经验丰富的介入放射科医生手动标注,标注格式与目标检测格式相同,即表明狭窄病灶位置和范围的矩形框,最后综合三位医生的标注结果作为本文训练与验证的金标准。同时为了验证框架的稳定性与准确性,本文采用了4折交叉验证的方式,将数据集随机划分,其中训练集与测试集的比例为3:1。
(2)性能介绍
本文设计消融实验来分析上述模块对冠脉狭窄病灶检测性能的影响。实验结果表明,SQNB模块与STFS模块能充分利用XRA序列提供的时空上下文信息,有效解决因血管运动、造影剂不充溢等导致的误检测,从而提高所提方法的狭窄检测性能。
表 1 消融实验定量结果表
本文还与自然图像领域内视频目标检测方法及单帧目标检测方法以及冠脉狭窄检测领域的方法进行了对比,定量结果如表二至表四所示。本文所提方法均取得了最快且最精准的检测结果。
表 2 与单帧目标检测方法对比实验定量结果表
表 3 与视频目标检测方法对比实验定量结果表
表 4 与冠脉狭窄检测方法对比实验定量结果表
图5为本文所提方法与其它五种视频目标检测方法对比的定性结果。本文所提方法通过RoI聚合的方式对弱狭窄病变的特征进行增强,从而实现了准确且稳定的狭窄检测。
图 5 本文所提方法与视频目标检测方法的定性对比。(a)-(f)分别表示FGFA, DFF, SELSA, Temporal RoI Align, TransVOD和所提方法的狭窄检测结果
本文提出了一个基于时空特征共享的量子噪声扩散模型,实现了XRA序列血管狭窄的精准检测。为提升检测速度,提出了基于量子噪声的扩散模型,在正向扩散过程中生成了离散分布且带有序列先验知识的噪声检测框(SQNB);针对由图像质量差、血管运动、血管结构复杂等原因导致的误检测,提出了时空特征共享模块(STFS),将检测正确图像的特征共享至出错帧中。为验证所提方法的有效性,我们在233个冠状动脉XRA序列图像上进行了实验,消融实验表明,本文提出的SQNB模块与STFS模块在XRA图像时序信息的利用以及对视频序列时空特征增强方面具有显著贡献,提升了XRA图像中狭窄检测的性能。同时本文将所提方法与单帧目标检测网络、视频目标检测网络以及冠脉狭窄检测方法中的SOTA进行了对比实验,实验结果表明,所提方法在检测精度及检测速度上都实现了最佳效果。
[1] S. Chen, P. Sun, Y. Song, and P. Luo, “DiffusionDet: Diffusion model for object detection,” in Proc. IEEE/CVF Int. Conf. Comput. Vis., 2023, pp. 19830–19843.
[2] Q. Zhou et al., “TransVOD: End-to-End Video Object Detection with Spatial-Temporal Transformers,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 45, no. 6, pp. 7853–7869, Jun. 2023, doi: 10.1109/TPAMI.2022.3223955.
[3] Ho J, Jain A, Abbeel P. Denoising diffusion probabilistic models[J]. Advances in neural information processing systems, 2020, 33: 6840-6851.
[4] A. Bansal et al., “Cold diffusion: Inverting arbitrary image trans forms without noise,” in Proc. Adv. Neural Inf. Process. Syst., 2024, pp. 41259–41282.
欢迎扫描二维码加入中国图象图形学学会
(http://membership.csig.org.cn)