【速览】TPAMI 2024 | 基于时空量子扩散模型的实时X射线血管造影冠状动脉狭窄检测

学术   2024-10-11 17:34   北京  
  


















会“成果速览”系列文章旨在将图像图形领域会议期刊重要成果进行传播,通过短篇文章让读者用母语快速了解相关学术动态,欢迎关注和投稿~










◆ ◆ ◆ ◆


基于时空量子扩散模型的实时X射线血管造影冠状动脉狭窄检测

李欣宇  ,艾丹妮  ,宋红  ,范敬凡  ,付天宇  ,肖德强  ,王怡宁  ,杨健  

  北京理工大学光电学院,  北京理工大学计算机学院,  北京理工大学医学技术学院,  北京协和医院

TPAMI 2024

图像图形领域高质量科技期刊分级目录:T1

撰稿人:李欣宇、艾丹妮 

通讯作者:艾丹妮,王怡宁,杨健

原文标题:

STQD-Det: Spatio-Temporal Quantum Diffusion Model for Real-Time Coronary Stenosis Detection in X-Ray Angiography
原文链接:https://ieeexplore.ieee.org/document/10603402


欢迎投稿中国图象图形学学会《速览》栏目,借助学会平台扩大影响力!请将Word文档发送至邮箱:csig-mv@foxmail.com,文章须还没有在其他媒体发布过和同时向其他媒体投稿,谢谢!



摘要

冠状动脉心脏病(coronary artery disease, CAD)严重威胁着人类生命健康。从X射线血管造影图像(X-ray angiography, XRA)中检测狭窄是目前临床诊断冠心病的金标准。然而,呼吸心跳运动,图像质量不佳,血管结构复杂等的影响,快速、准确、自动识别XRA图像中的狭窄区域具有挑战。本文提出了一种基于时空特征共享的量子噪声扩散模型,实现XRA实时狭窄检测。该方法首先基于XRA图像噪声分布构建了一种序列量子噪声扩散模型,在前向扩散过程中生成带有序列相关先验知识的量子噪声检测框,并将其与待检测序列送入网络进行逐帧狭窄预检测,完成反向扩散过程。而后,利用时空特征共享模块对检测出错的图像进行修正,通过匈牙利算法对不同图像中的检测框进行分组并选出预测出错的图像;最后,通过时空特征聚合模块,聚合来自正确预测图像的时空特征,增强网络对弱狭窄特征的提取能力。为验证所提方法的有效性,我们在233个冠脉XRA序列组成的数据集上进行了四折交叉验证,所提方法在25.08 FPS的速度下取得了92.39%的分数,优于所对比的17种SOTA检测方法。实验结果表明,所提方法能有效利用XRA序列提供的时空上下文信息,可有效实现狭窄的实时、准确检测。

背景

冠状动脉心脏病是一种由粥样硬化斑块在冠脉血管管腔积聚导致的心血管疾病,已成为使人类死亡的主导疾病之一。粥样硬化斑块的积聚引起的管腔狭窄,从而造成的心肌缺血是冠心病的标志性病症,及早发现并治疗冠脉狭窄能显著降低冠心病的致死率,因此精准定位狭窄病灶有十分重要的意义。冠状动脉X射线造影图像作为诊断冠心病的“金标准”,其较高的分辨率有利于狭窄病灶的定位。临床上主要依赖外科医生观察XRA图像评估冠脉狭窄,但这种方式对医生经验的要求较高,这也导致部分经验不足的医生需要通过许多角度拍摄才能进行诊断,且医生之间对冠脉狭窄的判断存在主观性差异,从而影响后续的诊断。然而由于下述的问题,导致通过计算机自动快速准确识别XRA图像中的冠脉狭窄仍具有挑战性:第一,XRA图像是将复杂树状结构的冠脉投影至二维平面的透视投影成像,血管产生交叠,此外,由于不同尺度的狭窄受到呼吸和心跳运动的影响,可能导致一些狭窄的漏检;第二,在XRA图像成像过程中,由于造影剂分布不均、前景与背景对比度低且噪声大,血管易与狭窄特征混淆,产生狭窄过检测现象;第三,术中XRA图像成像帧率较高,亟需实时狭窄检测。

本文提出了一种基于时空特征共享的量子噪声扩散模型的冠脉狭窄检测方法,该方法首先利用正向扩散过程生成带有序列信息的量子噪声检测框,并使用ResNet50和特征金字塔网络作为骨干网络来提取输入图像的多尺度特征图;接着通过全局特征增强将不同帧的血管位置信息共享,以提取血管的运动规律,并通过狭窄检测解码器反向扩散得到候选检测框;而后输入时空特征增强模块通过联合时空上下文信息来增强检测出错帧中对应部位的特征;最后利用狭窄检测解码器对出错帧进行再检测,得到鲁棒且精准的狭窄检测结果。

本文的主要贡献包括:(1) 提出了一种基于时空特征共享的量子扩散模型,实现冠脉狭窄检测,据我们所知,这是扩散模型的概念首次在视频序列目标检测领域应用。(2) 基于XRA图像噪声分布特点,提出了基于量子噪声的扩散模型,前向扩散过程中利用量子噪声生成噪声检测框,并将狭窄检测任务视作从噪声检测框中生成狭窄检测框的去噪过程,显著提升了网络的推理速度。(3) 设计了时空特征共享模块,将预测正确帧的时空特征共享至预测出错的图像,增加了网络对复杂结构处血管狭窄的预测能力,同时增强了同一序列中网络预测结果的一致性。

方法

(1)整体框架

本文所提狭窄检测网络框架如图1所示,该框架可分为量子噪声扩散模块与时空特征共享模块两部分。在量子噪声扩散模块中,将N帧连续且造影剂充溢的XRA图像输入模块,首先由序列量子噪声检测框为输入序列生成序列量子噪声检测框,同时使用ResNet-50提取多尺度特征,从而完成前向扩散过程。而后将序列量子噪声检测框与多尺度特征图一并输入检测框解码器(Stenosis Detection Decoder),对检测框的位置、大小与类别进行逐帧粗预测,从而完成反向扩散过程,即从量子噪声检测框中降噪得到狭窄病灶粗预测结果。在时空特征共享模块中,首先通过匈牙利算法,由网络判别每一帧图像中预测结果的正误并划分为真阳性、假阳性、假阴性检测,从而对假阴性检测位置进行狭窄特征增强,假阳性检测位置进行特征削减,并将聚合后的检测框与对应RoI特征再次输入检测框解码器进行判别,同时使用检测框一致性约束损失函数对模型进行优化,最终输出准确的狭窄检测结果。

图 1 本文所提框架总览图

(2)量子噪声扩散模型

X射线图像的主导噪声是量子噪声,且量子噪声因能量的离散性而呈现离散分布。因此,本文将传统扩散模型中的高斯噪声替换为XRA图像中的量子噪声,提出了基于量子噪声扩散模型的XRA血管狭窄检测方法。量子噪声扩散模型的正向与反向扩散过程如图2所示。扩散模型的前向扩散过程即在t个时间步( t=0,1,2,…T, T为扩散过程的总时间步)内生成量子噪声检测框的过程,由于量子噪声服从泊松分布  ,其中,  为第t个时间步时泊松分布的均值。本文所提量子噪声扩散模型正向扩散过程可以描述为:

其中,  为第t个时间步时噪声检测框服从的随机分布;  随时间步的增长而线性增长,用于生成不同位置及大小的噪声检测框。量子噪声扩散模型在全时间步的正向扩散过程为:

图 2 量子噪声扩散模型的扩散过程。其中q为逐步生成量子噪声框的正向扩散过程,  为从量子噪声框中去噪直至获取狭窄检测框的反向扩散过程。

因此,最后一个时间步T时噪声检测框服从的随机分布为:

冠脉XRA狭窄检测任务中,相邻帧之间血管运动幅度与狭窄病灶的位置变化较小。为了能让网络更好地捕获这种先验知识,对于同一序列的图像,我们只对第一帧图像(n=1)随机生成服从泊松分布的量子噪声检测框,而后续N-1帧的噪声框可根据对第一帧图像的噪声框分布进行微扰获取,即:

其中,N为视频序列中包含的图像数量,   表示序列中第n帧图像在第t个时间步的噪声分布。

与此同时,将序列图像输入图像编码器中提取特征,图像编码器使用ResNet-50作为backbone,并使用特征金字塔网络(Feature Pyramid Net, FPN)提取图像的多尺度特征,共提取四层多尺度特征图,特征图的分辨率随着层级的升高而逐渐降低,所反映的图像特征也从血管细节等高级信息过渡至血管轮廓、位置等低级信息。为捕捉血管位置变化情况,对最高层特征图  进行全局特征增强(Global Feature Enhanced, GFE),其中,  为序列中第𝑛帧图像的最高级层特征图。全局特征增强方法包含多头注意力块与动态卷积块两部分。首先将特征图向量化为tokens,获得其对应的特征向量  ,并将所有图像对应的特征向量聚合至时序特征向量组  内,其中:

 其次将时序特征向量组输入多头注意力块。多头注意力块由多头注意力机制与层归一化层(Layer Normalization, LN)组成,并使用残差连接来获取增强特征,由下式表示:

其中,MSA为多头注意力机制,  中的三个元素按照顺序分别作为多头注意力机制的key, query和value输入,与原始特征向量作残差连接后,经层归一化后,将带注意力权重特征向量重塑为含注意力的特征图  ,  为第𝑛帧图像对应的注意力特征图。接着将注意力特征图逐帧输入动态卷积块中,动态卷积块由动态卷积层(Dynamic Convolution, DC),层归一化层与全连接层(Full Connected, FC)组成,并使用残差连接来获取最终的特征:

其中,  即为第n帧图像经全局特征增强后的特征图,将最高层的特征与其它三层特征合并,一同进行反向扩散过程。

反向扩散过程定义为一条从  开始的服从泊松分布的可学习马尔科夫链:

其中,  为反向扩散过程中量子噪声检测框服从的概率分布,θ为网络中的可学习参数,   为反向扩散过程中第t个时间步时泊松分布的均值。若已知最终时间步的量子噪声分布  ,网络可以结合特征图中的狭窄特征   推理从噪声框中还原狭窄检测框的反向扩散过程,全时间步的反向扩散过程可以表示为:

该马尔科夫链中的每个时间步都代表网络从噪声框中学习逐步恢复狭窄病灶检测框的过程。将每帧图像对应的量子噪声框与全局增强特征输入狭窄检测解码器中,由解码器学习反向扩散过程。该解码器的结构来自于Diffusion Det,以特征图和噪声框作为输入,首先通过RoI对齐(RoI Align)的方式从特征图中提取与检测框对应的RoI特征,再通过分类头与回归头预测候选框的类别及位置,从而完成反向扩散过程。

(3)时空特征共享

在冠脉XRA图像中,同一个序列的狭窄病灶数均相同。然而,受呼吸心跳运动影响,某些帧会出现狭窄病灶被其它血管遮挡而导致狭窄漏检测的现象,或是造影剂不充溢导致狭窄过检测的现象。因此本文提出了时空特征共享模块,通过将预测正确帧的时空特征共享至预测错误帧中,保证输出结果的一致性。

所提时空特征共享模块的流程如图3所示。狭窄检测解码器对每帧图像的检测结果组成预检测结果序列{  }。并从预检测结果序列中提取置信度高于阈值的候选框  ,为第n帧图像中置信度大于阈值的第s个候选框。所提取的候选框共同组成狭窄候选池  ,其中  为当前帧包含的候选框总数。通过匈牙利匹配法对候选框进行帧与帧之间的匹配,首先定义匹配函数如下:

其中,  为候选框  与  中心间的曼哈顿距离(Manhattan Distance),  则反映了两框之间的重叠程度,采用Intersection over Union (IoU)来表示,IoU的取值范围为[0,1],值越大代表两个检测框之间的重叠程度越高。考虑到血管运动的影响,配对时优先考虑相邻两帧之间的候选框匹配。待匹配函数完成两帧内所有框的计算并生成匹配度矩阵。而后使用匈牙利算法,以重叠程度  为主要权重,距离  作为次要权重,即计算最优配对的过程中,优先将重叠程度更高的两个检测框进行配对,当出现  相等的情况时,再选取距离  较小的一组来配对,最终结果分为配对组和未配对组两组。若未配对组内存在有候选框,则将其与次近邻帧的候选框进行匹配。以此类推,直至完成所有帧的候选框匹配,此时配对组为  ,非配对组内为所有未配对成功的候选框。

图 3 时空特征共享模块流程图。图中不同帧内的检测结果使用不同颜色区分

为了获取整个序列的狭窄位置信息,本文通过元素拼接的方式对配对组内的候选框进行组合,即两配对若含有相同的候选框,则将其合并:

最终配对组内的一个元素将包含所有帧内能配对成一组的候选框序列:  。之后统计每个候选框序列中包含的候选框数量  ,通过投票的方式对这些序列进行再次划分:若  ,说明全部图像中均包含该检测框,则将对应序列存放至“真阳性”组(Hypothesis TP, H-TP),若  ,说明该位置在多数图像中被检测到,仅存在部分图像未包含该检测框,将这些序列存放至“假阴性”组(Hypothesis FN, H-FN)中,若  ,说明仅少数图像中包含该检测框,则将这些序列与非配对组内的检测框一并存放至“假阳性”组(Hypothesis FP, H-FP)中。H-TP组的检测框将直接用于网络输出,而H-FN组与H-FP组内的检测框将被作为错误样本被送入RoI特征聚合(RoI Feature Aggregation)部分。其中,H-FN组内缺失候选框的图像与H-FP组内冗余候选框的图像被视为错误帧,其它图像则被视为参考帧。

RoI特征聚合时,首先要将参考帧对应的RoI特征投射至错误帧上。考虑到血管运动的影响,若直接将候选框内的特征作为RoI特征,有可能因错误帧中对应位置不包含狭窄病灶而导致投射失败。为此,先进行RoI Padding操作。设候选框的坐标为  ,其中  和  分别表示  左上角点的横坐标与纵坐标,  和  分别表示  右下角点的横坐标与纵坐标。则H-FN组的RoI可以定义为  ,其中:

考虑到H-FP组内可能存在仅有一个候选框的情况,因此H-FP组的RoI可以定义为  ,其中  和  分别表示RoI中心点的横坐标与纵坐标,  和  分别表示  的宽度与高度:

其中,α为padding系数,用于控制RoI区域的大小,本文中结合血管运动范围,取α=2,从而生成对应的RoI序列。

生成所有RoI序列后,从特征图中利用RoI Align裁切出对应的RoI特征图,并输入RoI特征聚合器中。RoI特征聚合器由多头注意力块、动态卷积块与线性块三部分组成,其结构如图4所示。其中多头注意力块与动态卷积块和全局特征增强方法中的一致,而线性块流程如下式所示:

其中,   为原始错误帧上的RoI特征,  为初步增强特征,  为经线性块进一步增强后的RoI聚合特征;  与  为全连接层,使用整流线性单元ReLU作为激活层。得到RoI聚合特征后,将其再次送入狭窄检测解码器中进行预测,并输出结果。

图 4 RoI特征聚合模块结构图。Wrong RoI表示从检测出错的图像中提取的RoI特征,Right RoI表示从与出错图像最近邻的两帧正确图像中提取的时空RoI特征

为了进一步增强网络对狭窄检测框数量一致性的理解,训练阶段网络输出时,会再次统计该序列中每张图像上的检测框数量  ,并使用检测框一致性损失函数进行约束,定义如下:

其中,  为由上述过程投票决定出的,每张图像上应有的检测框数量,β为一常数,防止出现损失为0的情况。经过时空特征共享模块的作用,能较好地增强网络对弱病灶和非病灶的判别能力,进一步提高了狭窄检测的准确性。

实验

(1)数据集

本文使用233个XRA视频序列作为数据集进行实验,这些数据均收集于北京协和医院。视频序列的帧率为15FPS,其中每帧图像的大小均为512×512像素,分辨率为0.3×0.3mm²。从每个视频序列中提取造影剂最为充溢的9帧图像作为检测网络的输入。狭窄病灶由三位经验丰富的介入放射科医生手动标注,标注格式与目标检测格式相同,即表明狭窄病灶位置和范围的矩形框,最后综合三位医生的标注结果作为本文训练与验证的金标准。同时为了验证框架的稳定性与准确性,本文采用了4折交叉验证的方式,将数据集随机划分,其中训练集与测试集的比例为3:1。

(2)性能介绍

本文设计消融实验来分析上述模块对冠脉狭窄病灶检测性能的影响。实验结果表明,SQNB模块与STFS模块能充分利用XRA序列提供的时空上下文信息,有效解决因血管运动、造影剂不充溢等导致的误检测,从而提高所提方法的狭窄检测性能。

表 1 消融实验定量结果表

本文还与自然图像领域内视频目标检测方法及单帧目标检测方法以及冠脉狭窄检测领域的方法进行了对比,定量结果如表二至表四所示。本文所提方法均取得了最快且最精准的检测结果。

表 2 与单帧目标检测方法对比实验定量结果表

表 3 与视频目标检测方法对比实验定量结果表

表 4 与冠脉狭窄检测方法对比实验定量结果表

图5为本文所提方法与其它五种视频目标检测方法对比的定性结果。本文所提方法通过RoI聚合的方式对弱狭窄病变的特征进行增强,从而实现了准确且稳定的狭窄检测。

图 5 本文所提方法与视频目标检测方法的定性对比。(a)-(f)分别表示FGFA, DFF, SELSA, Temporal RoI Align, TransVOD和所提方法的狭窄检测结果

结论

本文提出了一个基于时空特征共享的量子噪声扩散模型,实现了XRA序列血管狭窄的精准检测。为提升检测速度,提出了基于量子噪声的扩散模型,在正向扩散过程中生成了离散分布且带有序列先验知识的噪声检测框(SQNB);针对由图像质量差、血管运动、血管结构复杂等原因导致的误检测,提出了时空特征共享模块(STFS),将检测正确图像的特征共享至出错帧中。为验证所提方法的有效性,我们在233个冠状动脉XRA序列图像上进行了实验,消融实验表明,本文提出的SQNB模块与STFS模块在XRA图像时序信息的利用以及对视频序列时空特征增强方面具有显著贡献,提升了XRA图像中狭窄检测的性能。同时本文将所提方法与单帧目标检测网络、视频目标检测网络以及冠脉狭窄检测方法中的SOTA进行了对比实验,实验结果表明,所提方法在检测精度及检测速度上都实现了最佳效果。

Reference

[1] S. Chen, P. Sun, Y. Song, and P. Luo, “DiffusionDet: Diffusion model for object detection,” in Proc. IEEE/CVF Int. Conf. Comput. Vis., 2023, pp. 19830–19843.

[2] Q. Zhou et al., “TransVOD: End-to-End Video Object Detection with Spatial-Temporal Transformers,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 45, no. 6, pp. 7853–7869, Jun. 2023, doi: 10.1109/TPAMI.2022.3223955.

[3] Ho J, Jain A, Abbeel P. Denoising diffusion probabilistic models[J]. Advances in neural information processing systems, 2020, 33: 6840-6851.

[4] A. Bansal et al., “Cold diffusion: Inverting arbitrary image trans forms without noise,” in Proc. Adv. Neural Inf. Process. Syst., 2024,  pp. 41259–41282.

欢迎扫描二维码加入中国图象图形学学会

(http://membership.csig.org.cn)




图像图形领域高质量科技期刊分级目录
中国图象图形学学会科普活动、素材征集通知
中国图象图形学学会高校志愿者招募
中国图象图形学学会关于组织开展科技成果评价的通知
2024年CSIG图像图形中国行承办方征集中

中国图象图形学学会CSIG
发布图象图形技术的理论研究、应用推广、科学普及、专业培训、技术咨询、学术交流、出版专业书刊等信息,促进该学科技术的发展和在国民经济各个领域的推广应用。
 最新文章